近年、画像生成AIは急速に進化し、様々な場面での活用が進んできています。AI画像、AIイラストを見る機会もかなり増えてきたと思います。本記事はまとめ記事となっており、特にChatGPTを用いた画像生成の基本的な概要から、応用的な使い方まで、全体像について紹介していきます。
画像生成AIとは?
まず画像生成AIについて説明していきます。これは、人工知能(AI)を使って自動的に画像を作成する技術のことです。主にディープラーニングと拡散モデルといった技術を利用し、テキストや既存の画像から新しい画像を生成します。
画像生成AIの仕組み
- ディープラーニング:大規模なデータセットを元にして、画像のパターンや特徴を学習する。テキストも一緒に理解させるマルチモーダルなアプローチを取っている。
- 拡散モデル:ノイズから徐々に画像を生成する拡散モデルを採用しており、高品質で詳細な画像生成が可能。
- テキストから画像への変換:更に自然言語処理(NLP)と組み合わせることで、テキストの説明に基づいた画像を生成する。
代表的な画像生成AIツール
画像生成AIは2022年が元年と呼ばれ、そこからわずか2年程度ですが、既にさまざまなツールが世の中に出てきています。
その中でも有名どころである代表的なツールは下記の通りです(スマホアプリなどで色々と出ていますが、大元はこれらのどれかのモデル(特にstable diffusion)を使用している場合が多くあります)。
- DALL-E 3: OpenAIの最新モデル。日本語でも手軽に扱えて、また詳細なプロンプトに基づく高品質な画像生成が可能です。初心者向けです。
- MidJourney: 有料のみだが、特にアーティスティックな画像生成に強みがあり、クリエイティブな場面に適しています。アニメや漫画風に特化した「にじジャーニー」も派生であり。
- Stable Diffusion: PC環境さえあればローカルでの動作が可能。高解像度の画像生成が得意で、汎用性も最も高いです。
また、これら以外にもNovelAIやCanva, Imagen2などAIイラストを生成することが可能なツールは数多くあります。このうち、にじジャーニー、Imagen2, Canvaを用いた画像生成方法については、下記記事で紹介しています。
以下、本記事では主にChatGPTでの画像生成(DALL-E 3)を念頭にして、まとめています。
ChatGPTを用いた画像生成とは?
ChatGPTは、OpenAIによって開発された言語モデルで、テキスト生成や対話形式の応答で簡便にテキストや画像、コードなどを生成できる点がメリットです。中でも画像生成機能としては、ChatGPT 4oにはDALL-E 3での画像生成機能も組み込まれています。そのため、簡素なテキストをChatGPTに入力しただけで、高度なプロンプトに変換されて、高精度な画像生成を行うことが可能です。
ChatGPTでの画像生成には、有料版のChatGPT plusへの加入がこれまでは必須でしたが、2024年8月8日から一日2枚までであれば無料ユーザーでも画像生成が可能となっています。
また、PC版に限らずスマホアプリでも画像生成は可能です。
なお、DALL-E 3についてはChatGPT以外に、Bing image creatorにて無料で使用する方法もあります。これらのDALL-E 3についての詳しい導入方法については、下記記事で紹介しています。
ChatGPTでの画像生成プロンプト
基本的なプロンプト作成のコツ
画像生成における、プロンプトは非常に重要です。ChatGPTを用いて生成する場合はある程度補完してくれますが、そうは言っても自分のイメージ通りの画像を生成するためには、しっかりとしたプロンプトを記載する必要があります。
プロンプト作成するうえで重要な点はまず下記2点があります。
- 具体的で明確な言葉: 生成したい画像の詳細を具体的に記述します。
- キーワードの優先順位: 最も重要な要素を先に書くことで、その要素を優先して処理します。
より詳しい基本的なプロンプトの書き方については、下記の記事でまとめていますので、ご覧ください。
また、プロンプトには記述方法が複数あり、結果として生成される画像にも変化が生じる場合があります。これについて検証した結果は、下記記事で解説しています。
プロンプトの言葉に悩んだら
実際にプロンプトにどういった言葉を選べばよいか悩ましい時や、アイディアが出てこないときもあるかと思います。そういったときには、プロンプト作成時の参考になるチートシート(早見表)を下記にまとめていますので、参考になれば幸いです。
用途に応じたプロンプトの変更
生成したいAI画像やAIイラストによって、用いるべきプロンプトは異なってきます。目的や用途に応じて、プロンプトをカスタマイズしていくことも重要です。幾つかの切り口で説明していきます。
スタイル・画風の指定
スタイルや画風によって、画像全体から受けるイメージが大きく変わります。このことについては、下記記事にて具体的な画像と共に紹介しています。
また、少し変わった印象を持たせたいときには、下記記事で紹介している非現実的なスタイルを使ってみください。
かっこいいキャラクター風のスタイルを生成するには、芸術関連のワードと組み合わせるとスタイリッシュなデザインになったりします。これについては、下記記事でプロンプト含めて紹介しています。
構図・視点
構図や視点も、画像全体を特徴づけるため、重要な要素になります。ここに拘ると、より独特な印象を与えることも可能です。これについては、下記記事で紹介しています。
キャラクターや人物の生成
メインの被写体となるキャラクターや人物についても、プロンプトをどう記載するかが重要になります。特に押さえておきたい観点を下記にまとめます。
- 表情:喜怒哀楽の基本的な表情。目の動きや口角の変化などの微細な部分の観点も。
- 髪型(ヘアスタイル):髪の長さ、色味、アクセサリーなど。
- 年齢:ざっくりは大人or子供、詳細は年代で。
- 性別:男、女、性別不詳な感じにするかどうか。
- 体型:細身、筋肉質など。あるいは等身を下げてデフォルメされているのかどうかなど。
- ポージング:立つ、歩く、座るといった基本動作。
- 服装:カジュアル、フォーマル、ファンタジー風、制服など。季節感を出すことも可能。
これらのうち、髪型はキャラクターの個性を決める大きな要素になります。これについては下記記事にて具体例を交えて説明しています。
服装に関しても下記の記事にて、具体的なプロンプトや生成事例を紹介しています。
また、ChatGPTにおいては全身像が生成されない場合があります。そういった場合には、プロンプトの書き方次第では上手くいく場合がありますので、下記記事にて解説しています。
デフォルメされたキャラクターとして「ねんどろいど風」を下記記事で解説しています。
また、リアルな人物の生成については、下記記事にて具体的なプロンプトの記載も含めて解説しています。
さらにキャラクターの観点から応用的な事例としては、1枚の画像において複数人を配置して描き分けることも重要です。これについてポイントを解説したのが下記記事となっています。
用途別
生成した画像は、さまざまな方法で活用できます。例えば、本ブログのようにアイキャッチに使うことも出来ますし、マーケティング素材、ポスターでの使用、ビジネス用など、多岐に渡るシーンで使用可能です。
例えば、ビジネス向け資料用として使えそうなデザインについては、下記記事にてまとめています。
また、ゲーム素材向けとしての活用例は下記で紹介しています。
プロンプトの応用編
更にプロンプトにおける応用的なやり方についても、紹介していきます。
一貫性の確保
DALL-E 3でキャラクター生成においては、一貫性の課題がついて回ります。特に有効なのは、シード値やGen IDの活用になります。これについては下記記事で詳細を解説しています。
プロンプト言語の変更
ChatGPT上で記載したプロンプトは翻訳されるため、通常は実際にDALL-E 3に渡るプロンプトとは異なってきます。これを回避し、DALL-E 3に直接、日本語のプロンプト、あるいは別の言語のプロンプトとすることによって、画風を変えることが可能です。こちらについては下記で解説しています。
その他
その他、プロンプトにかかわる制約や、ChatGPTのモデルによる違いなどについて、取り上げています。モデルについては、特にGPT 4とGPT 4oでの違いについてがあります。
生成枚数の制約
ChatGPTでは、一度に生成可能な枚数が原則1枚になっています。これを回避する手法を下記で紹介しています。
ChatGPT 4oでの変化
マルチモーダルに対応した最新バージョンのChatGPT 4oにおいて、画像生成の観点でも少し変化がありました。この点については下記記事で説明しています。
生成画像の制約
ChatGPTにおいてはできないこともあります。特に他の画像生成AIよりもシビアになっています。これについては下記記事で取り上げています。
画像生成後の編集
また生成した画像はそのまま使用するだけではなく、編集して一手間加えることで、より品質を高めることが可能です。トリミングや簡単な記号やテキストの追加であれば、標準ソフトでも対応できますが、少し高度な加工をしようとすると、編集ソフトが必要となってきます。
よく使われる代表的なソフトウェアについては、下記が挙げられます。
- Adobe Photoshop: プロも使用する、最も有名な編集ツール。レイヤー編集、フィルター、ブラシツールなど、機能が豊富。
- GIMP: オープンソースの無料ソフトウェア。機能的には、Photoshopに類似している。基本的な編集から高度な加工まで対応可能。
- Canva: 比較的初心者向けのオンラインツール。基本的な機能は無料。直感的なインターフェースを持ち、簡単に画像を編集可能。
ChatGPTそのものにおいても、生成した画像を編集する機能も追加されています。こちらについては下記記事で具体的な使い方をまとめています。
画像生成AIの活用事例
ChatGPTにて生成した画像は商用利用が可能です。ただし出力した画像によっては、著作権を侵害する懸念もゼロではないため、その点については確認が必要です。
以下、具体的な活用事例について見ていきましょう。
ロゴデザイン
具体例として、ワークマンではロゴ作成に画像生成AIを活用しているそうです。AIを使って簡単にロゴのデザイン案を生成し、ブランディングに役立てています。仕上がりの早さとクォリティに満足しているというコメントがあります (リンク)
マーケティング
パルコの事例があります。最先端の画像生成AIを駆使したファッション広告として、「HAPPY HOLIDAYSキャンペーン」広告がありました。このときには実際の人物は一切使わずに、プロンプトのみで広告作成がなされています(リンク)
商品デザインとプロトタイプ
セブンイレブンにて商品企画に用いられている事例があります。これにより、商品企画にかかる時間を最大90%削減できる見込みとのことです(リンク)
画像生成AIの今後
画像生成AIは今後も進化し続けていき、より高度で多彩な画像生成が出来るものと考えられます。例えば、リアルタイムでの画像生成や、ユーザーのフィードバックに基づく自動調整などが期待されています。
DALL-Eに関して、今後の動向を予想したのが下記記事となっていますので、こちらも合わせてご覧ください。
トラブルシューティング
ChatGPTで画像生成しているとトラブルが起きることもあります。よくあるのは、下記のように画像が表示されないことかと思います。このような場合は、画面更新(F5かctrl + F5)で大体解決します。
その他、アクセス障害があるなどの場合の調べ方については、下記記事で紹介しています。
まとめ
本記事では、画像生成AI全体から、ChatGPTでの画像生成に関する解説、具体的な活用事例などについて説明してきました。AI画像は、効果的に使用することが出来れば、アイディア次第で活用できる場面が多々あると思います。本記事が、活用するうえでの一助となると幸いです。
コメント