【初心者向け】画像生成AIって結局何なの？簡単な原理とAIイラストアプリの仕組みを解説！

2024年8月30日2024年9月16日

今回は、「生成AI」についての仕組みや、「画像生成AI」がどのようにして画像を生成しているのか、簡単に分かりやすく説明していきます。少し複雑なモデルの話もありますが、初めての方でも分かるように出来る限りかみ砕いて、会話形式で解説していきます！

今回は、質問者役として「助手さん」に登場してもらっています。

助手さん

よろしくね

1. 生成AIって何？これまでのAIとどんな違いがあるの？

助手さん

最近、「生成AI」ってよく聞くけど、一体何ができるの？

Alpaka

生成AIというのは、人が書いたり作ったりするようなクリエイティブな作業をするためのAIのこと言うよ。

例えば、文章を書いたり、音楽を作ったり、絵を描いたりすることができるんだ。AIは大量のデータを学習して、そのデータを基にして、新しい文章や音楽や絵を生成するんだよ。

助手さん

すごいんだね。でもさ、それって今までのAIと何が違うの？

Alpaka

いい質問だね！

これまでのAIは、主に何かを「認識」したり「分類」したりすることが得意だったんだ。例えば、写真の中にいる人の顔を見つけたり、画像から数字を読み取ったりするのが得意だったんだ。だから、データ予測を行ったり、顔認証したりするのに使われているんだよ。

助手さん

そっか！
これまでのAIでは新しいものを生み出せていなかったけど、生成AIでそういうものが作れるようになったんだね。

生成AIと通常のAIの違いについてのまとめ

これまでの「AI」は既存のデータからパターンを学習して、タスクを効率的に実行することに重点を置いています（ルールベースのモデル）。
一方で、「生成AI」は、あまり構造化されていないデータを基にして、新しいコンテンツを創り出すことに特化しています（確率論的なモデル）。

Alpaka

生成AIと、従来のAIについて、表形式にまとめると以下のような感じになるよ。

項目	生成AI (Generative AI)	これまでのAI (Traditional AI)
出来ること	新しいデータやコンテンツを生成する	既存のデータを分析し、パターン認識や予測を行う
モデルのタイプ	生成モデル（GAN、VAE、トランスフォーマーなど）	識別モデル（SVM、ランダムフォレスト、ニューラルネットワークなど）
応用例	テキスト生成、画像生成、音楽生成、動画生成	顔認識、音声認識、自然言語処理、データ予測
入力/出力	プロンプトを入力として、新しいコンテンツ（テキスト、画像、音楽など）を出力	入力データに基づいて、分類結果や予測値などを出力
技術的な特徴	ディープラーニングとニューラルネットワークを使用し、創造的なデータ生成を行う	特定のタスクに特化したアルゴリズムとモデルを使用し、データを分析
製品例	ChatGPT、Gemini（テキスト生成）、 Stable Diffusion、DALL-E（画像生成）	Siri（音声認識）、株価予測システム（データ予測）

2. 画像生成AIってどうやってイラストを作れるの？

助手さん

それじゃあさ、AIでイラストを作ったりするのって、実際にはどんな風にしてやっているの？

Alpaka

AIイラストは「画像生成AI」を用いて作っているんだ。これは主に文字で書かれた説明（これを「プロンプト」って言うの）をもとに、新しい画像を作り出すAIのことだよ。

例えば、「青い空に飛んでいる鳥を描いて」っていうプロンプトを入力すると、それに合わせた絵を生成するんだ。

助手さん

なるほどね。プロンプトが大事ってこと？

Alpaka

そうだね。
プロンプトを詳しく書くことによって、イメージした通りの画像が得られやすくなるよ。
あと、プロンプトを変えることによって、様々な画風や構図の画像を生成することが出来るんだ。

実際の生成例：プロンプト「青い空に飛んでいる鳥」をベースにしてChatGPTを使用して作成

助手さん

すごいけど、なんだか難しそうかも

Alpaka

今は日本語でも理解してくれるモデルが多いし、プロンプトの描き方の自由度も高いものが多いから、実際に使うのはそこまでは難しくないんだ。
無料で初心者向けなのは、「Bing Image Creator」なんかがおすすめだと思うよ。

Bing image creatorに関する使い方は下記の記事で解説しています。

画像生成AIでの生成のやり方まとめ

画像生成AIのプロンプトは、生成したい画像の詳細（キャラクターや背景、スタイル、雰囲気など）をできる限り具体的に記載して、明確な内容にすることが重要です。
また、プロンプトの内容を試行錯誤しながら調整することで、より自分のイメージに近づけていく必要があります。

3. 画像生成の仕組み：GANと拡散モデルの違いは？

助手さん

画像生成AIでどんなことができるかわかってきたかも！
でも、なんでAIは画像が作れちゃうの？

Alpaka

画像生成AIが画像を生み出す仕組みについては、大きく分けて2種類あるんだ。
それぞれ「GAN」、「拡散モデル」と呼ばれるよ。

助手さん

む、難しそうな単語が出てきたわね…

GAN（Generative Adversarial Networks）とは？

Alpaka

まず、GAN（生成的敵対ネットワーク）から説明するよ。少しややこしいけど、GANの中には2つのAIがあるんだ。

助手さん

2つ？

Alpaka

「ジェネレーター(生成器)」という絵を描くAIと、「ディスクリミネーター(識別)」というその絵が本物っぽいかどうかを判断するAIがあるんだ。

ジェネレーターが絵を描いて、ディスクリミネーターがその絵をチェックしているイメージかな。この競争を通じて、ジェネレーターはどんどん上手にリアルな絵を描けるようになるんだ。

助手さん

AI同士で戦っていくことでレベルアップしていくイメージかしら

Alpaka

そうね。こんな感じで戦っているのかもしれないね

助手さん

まさかの肉弾戦なんだ…

拡散モデル（Diffusion Models）とは？

助手さん

そしたら、拡散モデルっていうのはまた別なの？

Alpaka

拡散モデル（Diffusion Models）は、まず最初にランダムなノイズの画像を作るんだ。このノイズは、テレビの砂嵐みたいにぐちゃぐちゃしていて何も見えない感じかな。そこから、AIが少しずつそのノイズを取り除いていくことで、最終的にちゃんとした画像を作っていくんだ。

助手さん

なるほどね。こんな感じかしら？

Alpaka

そんな感じで、ノイズの中から画像を見つけていく感じだね。
拡散モデルの強みは、生成する画像の品質が高く、細かいディテールまで再現できることだよ。
また、拡散モデルはGANよりも生成が安定していて、多様な画像を作りやすいという特徴もあるんだ。

画像生成の仕組みのまとめ

アプローチの違い: GANは対立的な学習を通じて画像を生成するのに対し、拡散モデルはノイズ除去のプロセスを通じて画像を生成します。
利点と欠点: GANは高速でリアルな画像生成が可能ですが、学習の安定性に欠けることがあります。一方、拡散モデルは生成の安定性が高く高品質ですが、計算コストが高く、生成に時間がかかります。

Alpaka

画像生成の方法の違いについて、表形式でまとめてみたよ。
いわゆる最近の画像生成AIでは、「拡散モデル」の方が使われているよ。

項目	生成的敵対ネットワーク (GAN)	拡散モデル (Diffusion Models)
仕組み	2つのニューラルネットワーク（AI）を競わせて学習。	ノイズからスタートし、徐々にノイズを除去しながらデータを生成。
特徴	リアルでシャープな画像生成が可能。高解像度画像生成に強いが、訓練が不安定であることが多い。	訓練が比較的安定しており、高品質な画像生成が可能。モード崩壊（同じような画像ばかり生成する問題）が少ない。
使用例	StyleGAN、CycleGAN、DeepFake	DALL-E、Imagen、Stable Diffusion
計算コスト	訓練時の調整が必要で、計算リソースを多く消費することがある。	訓練に時間がかかり、計算コストが高いが、訓練過程が安定している。

4. テキストから画像にする仕組み：CLIPについて

助手さん

画像が生成される仕組みは分かったわ。
でも、どうやって「プロンプト」という文字情報を画像に変えていっているの？

Alpaka

「画像」と「テキスト（言葉）」を結びつけることができるAIを使っているんだよ。
たとえばOpenAIが開発したCLIP（Contrastive Language-Image Pretraining）が有名ね。

これは、たとえば、写真を見て「これは猫だ」と理解したり、文字で「犬」と書いてあったら、その犬の画像を探し出すことができるんだよ。

助手さん

そんなことができるのね。どういう仕組みになっているの？

Alpaka

CLIPは、たくさんの「画像」と「その説明（テキスト）」を見て学習しているからなんだ。画像とテキストがペアになったデータをたくさん見て、「この画像にはこの説明が合う」ということを学んでいるんだよ。

助手さん

なるほど。事前の学習をたくさんしているってことね。

CLIPは、テキストと画像を結びつけるために開発されたモデルです。画像生成AIでプロンプトを解釈する際には、CLIPのようなモデルが使用されます。