今回は、生成AIと画像生成AIに関する用語に関して、初心者向けに網羅的に解説していきます!生成AI全般の技術や応用範囲に加え、画像生成AIの詳細も盛り込んでみました。生成AIに使われるこのワードって何だろうと気になったときに、参考になれば幸いです!
生成AI全般の基本用語
まずは生成AI全般にかかわってくる基本的な用語から見ていきましょう!
生成AI (Generative AI)
テキスト、画像、音声、動画などを生成するAI全般を指します。具体的なAIの例として、ChatGPT、Stable Diffusion、Midjourny、Suno AI、Runwayなどが挙げられます。
機械学習 (Machine Learning)
コンピュータによるデータ分析手法の一種で、大量のデータをもとにして、その中から規則性だったり、パターンを見つけていく手法です。生成AIは、この機械学習を基盤としています。
ディープラーニング (Deep Learning)
機械学習の1種。深層学習とも。生成AIの中核技術で、大量のデータを処理して自動的に特徴量を学習することを指しています。画像生成AIや音声生成AIといった各種生成AIは、この技術を活用しています。またGoogle翻訳を始めとする各種機械翻訳においても、この技術が使われています。
トランスフォーマー (Transformer)
ディープラーニングのモデルの一つで、Googleから発表されたもの。例えば、ChatGPTのGPTはGenerative Pre-trained Transformerの略であることから分かるように、この技術が使用されていて、また多くの生成AIが採用しています。自然言語処理から画像生成まで幅広く応用されています。
ゼロショット学習 (Zero-Shot Learning)
学習データにない新しい情報に対しても、追加の学習なしで対応できるAIの特性のこと。生成AIの柔軟性を支える技術の一つです。
マルチモーダルAI (Multimodal AI)
異なるデータ形式(例: テキスト+画像、音声+映像)を統合的に処理・生成できるAI。例えば、ChatGPT, Geminiは、テキスト、画像、音声の処理が可能です。
生成AIの分野別用語
続いて、各種生成AIにおける用語を簡単に説明していきます!
テキスト生成 (Text Generation)
ChatGPTに代表されてるように、人間が書くような文章を生成する技術。文章生成AIとも。論文のような硬い文体から、SNSの投稿のようなスラングの入り混じった緩い文体まで、広く生成可能です。
- GPT (Generative Pre-trained Transformer): OpenAIが開発した自然言語処理モデルのシリーズ。
- 補完 (Completion): 与えられた文章の続きや内容を補う機能。
- 要約 (Summarization): 長文を簡潔にまとめる技術。
代表的なテキスト生成AIとしては、ChatGPT, Gemini, Claude, Bing copilotなどが挙げられます。
ChatGPTのテキスト生成については、下記記事で詳しく解説していますので、こちらもどうぞ。
画像生成 (Image Generation)
テキストや画像などから、新たな画像を生成する技術。リアルな写真風から、芸術的なアート作品まで幅広く生成可能です。
代表的な画像生成AIとしては、Stable Diffusion、DALL-E、MidJourney、Flux.1などがあります。
以下の記事にて、幾つかの画像生成AIについて個別で解説していますので、詳しくはこちらをご覧ください。
音声生成 (Audio Generation)
テキストを元にして、新たな音声を生成する技術。テキストの読み上げであったり、より自然な人間の声に近い生成が可能です。
代表的な音声生成AIとしては、GoogleのText-to-Speech AIなどがあります。
音楽生成 (Music Generation)
テキストや曲調などから、AIがメロディや楽曲を作り出す技術。楽器だけでなく、ボーカルも生成することが可能です。
代表的な音楽生成AIとしては、Suno AIなどが挙げられます。
動画生成 (Video Generation)
テキストや画像を元にして動画を生成する技術。
代表的な動画生成AIとしては、Dream Machine、Runway Gen-3 alphaなどが挙げられます。
これらについては、下記記事で個別に詳しく解説しています。
コード生成 (Code Generation)
AIがプログラムコードを生成する技術。例えば、GitHub CopilotやChatGPTでのコード補完。
画像生成AIの基本用語
次に、画像生成AIに焦点を当てて、基本的な用語を詳しく見ていきましょう!
Text-to-Image (t2i)
text-to-imageは、テキストから画像を生成する技術で、略してt2iとも呼ばれます。テキストとしては英語のみのものもありますが、日本語での入力も可能なものが増えてきています。
Image-to-Image (i2i)
Image-to-Imageは、画像を入力として、更に新しいバリエーションを生成したり、既存画像を修正する技術です。入力情報としては、テキストと組み合わせることもあります。
アウトペインティング (Outpainting)
画像の外側についてAIが補完して生成し、画像の大きさを広げる技術。部分的な画像や絵画を拡張する感じです。
インペインティング (Inpainting)
画像内の欠損した部分が補正したい部分を選択して補完する技術。よく画像の修正に利用されます。
プロンプト作成に関する用語
プロンプト (Prompt)
AIに指示を与える文章や入力情報。生成結果の質を大きく左右します。基本的にはテキストの場合が多いですが、画像の場合もあります。
ポジティブプロンプト (Positive Prompt)
生成したい画像に含めたい要素を明示するプロンプト。通常、プロンプトと言ったら、こちらを指すことが多いです。 例:a peaceful mountain landscape with a clear blue sky
ネガティブプロンプト (Negative Prompt)
生成結果から除外したい要素を指定するプロンプト。 Stable diffusionやMidjournyで使います。例:low quality
キーワード (Keyword)
プロンプト内で特に重要な単語やフレーズ。 例:surreal, vivid colors
シード値 (Seed Value)
生成結果を再現可能にするための初期値。同じプロンプトとシード値を使用すれば、基本的には殆ど同一に近い画像が生成されます。
重み付け (Weighting)
プロンプト内の要素に優先順位をつける方法。 Stable diffusionで用いられる。例:a castle:1.5, a forest:0.8
プロンプト全般については下記記事にまとめていますので、こちらもご覧ください。
また、ChatGPT(DALL E3)におけるプロンプト記載のやり方などは下記記事にまとめています。
画像生成技術、モデル関連の用語
拡散モデル(Diffusion Model)
平たく言うと、ノイズから画像を生成する技術。DALL EやStable Diffusionが代表的です。
GAN (Generative Adversarial Network)
生成器と識別器が競い合いながら高品質な画像を生成する技術。
CLIP
画像とテキストを関連付ける技術。プロンプトの解釈精度を向上させるのに使う。
LoRA (Low-Rank Adaptation)
特定のスタイルやテーマに特化するためにモデルを軽量にカスタマイズする技術。
ControlNet
画像のポーズや構造を指定して結果をコントロールする拡張技術。
スタイル・仕上がりに関連する用語
スタイル (Style)
生成画像の雰囲気だったり、イラストの種類を表す。
- リアリスティック (Realistic): 写実的なスタイル。
- アニメスタイル (Anime Style): アニメ風の描画。
- セミリアル (Semi-Realistic): 写実とイラストの中間。
- レトロ (Retro): 昔ながらの風合い。
アスペクト比 (Aspect Ratio)
生成画像の縦横比。 1:1, 16:9など。
注意すべき法的・倫理的用語
生成AIについての問題になるような用語としては、大きく2つあります。
著作権 (Copyright)
生成されたコンテンツの所有権や商用利用の可否。生成AIはまだ新しい技術なので、判例も少なく、著作権の解釈は難しい状態です。商用利用については、使用する画像生成AIや、有料プランかどうかによっても変わるので、個別に確認が必要です。
バイアス (Bias)
AIが生成する結果に偏りが含まれる問題。例えば、生成画像における人種の差の事例だったり、使用される単語の偏りの事例があります。
まとめ:生成AIの基本知識を身につけてより良い活用を!
今回の用語集では、生成AIと画像生成AIに関する基本から応用までを網羅しました。生成AIに関して理解を深める上でお役に立てたら幸いです!
以下に、画像生成AIに関する簡単な解説記事もまとめましたので、こちらもどうぞ。
コメント