生成AIにとって難しいのはどんな画像？：難易度の高い具体例を解説

2024年12月6日

画像生成AIってすごく便利で、創作の幅を広げてくれますよね。世に出た当初に比べると、かなり生成の精度も高くなってきましたが、それでも苦手とする部分が残っています。そこで、この記事では、生成AIが苦手とする画像について、どういう画像なのか具体例を交えながら分かりやすく解説していきます。工夫次第で解決できる方法も紹介するので、ぜひ読んでみてください！。

本記事ではChatGPT（DALL E3）で作成したAIイラストを掲載しています。作成方法などについては、下記記事にまとめています。

あわせて読みたい

ChatGPTでの画像生成(DALL-E 3)のための完全ガイド近年、画像生成AIは急速に進化し、様々な場面での活用が進んできています。AI画像、AIイラストを見る機会もかなり増えてきたと思います。本記事はまとめ記事となってお…

1. AIが得意な画像って？

まずそもそも生成AIは、学習時にトレーニングしたデータによって得意な分野があります。ここでは、得意とする画像がどのようなものか、その特徴から見ていきましょう！

得意な画像の例

シンプルな構図: 背景が少なくて、キャラクターとか要素が少ないもの。
- 例: 青空の下でポーズを取るキャラとか、簡単な静物画みたいなやつ。
一般的なキャラや風景: 誰もがイメージしやすいキャラクターや自然の風景。
- 例: 桜が舞ってる日本庭園とか、ファンタジーの世界っぽい風景。
トレンドに乗ったテーマ: 人気のアニメキャラやよくあるスタイルのもの。
- 例: キラキラした美少女イラストとか、きれいな風景写真風イラスト。

ここに挙げたようなテーマなら細かい指示をしなくても、AIがいい感じに仕上げてくれて、品質的に高くなることが多いです。

2. AIが苦手な画像ってどんなもの？

さて、本題の苦手な画像についてです。AIが苦手とする画像にはいくつかの特徴があります。「なんでこうなった？」って結果になりがちな画像について、具体的な生成画像と一緒に見てみましょう！

(1) 文字を含む画像

まず、AIが苦手な典型例が「文字」です。

問題点:
- 意味不明な文字列が出てきたり、フォントが崩れたりする。
- 看板とかポスターに入れたかった文字が残念な感じになる。
原因:
- AIは文字を「形」として覚えてるだけで、内容として認識していないため。
- フォントのバランスとか文字間の調整も苦手。
具体例:
- 「カフェの看板におしゃれな店名を入れたい」 → 意味不明な記号の羅列に…。

実際に生成してみた具体例が下記になります。このように日本語の文字は殆どの場合、謎の異世界文字となってしまい、読むことができません。

一方で、英語の場合は、比較的単純で短い単語であれば上手く生成されたりします。下記は「HELLO」の文字列をプロンプトに入れていて、実際に画像中の看板に違和感なく反映されていますね。

解決策:

画像中に文字をきれいに入れたい場合は以下の方法を試してみてください。

英語での表記を指定する：上述した通り、英語の方が上手く表記されやすいです。
編集ソフトを併用: 看板とかに文字を入れたい場合、まずは文字なしで生成。その後にPhotoshopとかCanvaなどの画像編集ソフトで文字を追加する方が無難です。

文字と類似した部分で、数字の生成にも難点があったりします。これについては下記記事にて解説しています。

あわせて読みたい

ChatGPTは画像生成でも数字が苦手？実例で見るAIの弱点 ChatGPTは数字の概念が苦手？　半分くらいネタになりますが、ChatGPTにおいてDALL-E3を使った画像生成をしていると、しばしば数の概念が怪しいのではないかと感じる場…

(2) 真っ直ぐな線

建物とか工業製品みたいな真っすぐな直線が必要な画像も、意外にもAIにはハードル高めな傾向があります。

問題点:
- 線が微妙に歪んだり、波打ったりする。
- 幾何学的なデザインがどうにも不自然になる。
原因:
- AIは自然な形状を優先して学習しているため、「正確に真っ直ぐな線」は再現しづらい傾向。
具体例:
- 「高層ビルの窓がきっちり並んでいるデザイン」 → 歪んだビルが完成。
- 「道路の白線がピシッと引かれている風景」 → 曲がったり、がたがたな線になってしまう。

これも実際の生成画像例を見てみましょう。下記の画像はビル群のAIイラストを生成したもので、一見すると綺麗ですが、各ビルを拡大してみていくと、本来直線であるべき窓の形状や建物の外観が歪んで曲がっています。

拡大画像。ビルの窓が歪んでいるのが分かる。

解決策:

幾何学的な指定を入れる: 「正確」「精密」「幾何学的」みたいなキーワードをプロンプトに入れると改善される場合があります。
編集ソフトで微調整: 線がどうしても歪むなら、後で編集して一手間掛けて修正するのが一番確実です。

(3) 手足の細かい動きが必要な画像

手足のような複雑な形状については、以前よりは改善されているとはいえ、まだ生成に苦戦する場合があります。特に指の重なり合いが多いと更に難易度高めです。

問題点:
- 指が多すぎる、絡みすぎる、方向が変だったり。
- 足も不自然な角度や形になりがち。
原因:
- 手足の関係性を正確に学習することが難しい。また、そもそもAIは手足の構造を理解していないから。
具体例:
- 「二人が手を取り合ってダンスしてる絵」 → 指が絡み合ってカオスに…。

これも具体例を見ていきましょう。下記のように、２人のキャラクターが指を絡め合うようなシーンだと、複雑性も高いため、上手く生成できないことが殆どです。

解決策:

ポーズを具体的に指示: 「右手でピースサイン」みたいに細かく指定すると成功率が高まります。
部分的に再生成: 上手くいかなかった部分をインペイント機能のような再編集機能を用いて修正するのも良いです。

ChatGPTにおける編集機能の使い方は下記記事にて解説していますので、よろしければこちらもご覧ください。

あわせて読みたい

ChatGPTの画像編集機能の使い方 : 簡単に完成度を高められる3つの具体例有料版のChatGPT plus (ChatGPT 4o)では、画像生成機能に加えて、生成した画像の編集機能が追加されています。本記事では、画像編集の使い方の詳細と、実際に使用頻度の…

その他、鏡に映る姿を正確に生成するのも難しいです。下記は実際の生成事例となりますが、このように手が逆になっています。

3. AIの苦手分野を克服するための工夫

AIが苦手とする画像であっても、プロンプトの工夫や、生成後の編集によって品質を高めることは可能です。

プロンプト作成のコツ

具体性を持たせる: 「真っ直ぐな線」とか「文字なしで看板だけ」みたいに詳細に書く。
要素を分ける: 難しいテーマは要素ごとに分けて生成すると、精度が上がります。
編集ツールを活用: 生成結果をベースに、編集ツールで手を加えるのも有効です！

4. 生成AIの進化と未来

画像生成AIにとって今は苦手な分野であっても、AIの進化は速いものですので、近い将来は文字もきれいに生成できたり、直線や細かいポーズも得意になるかもしれません。

ただ「今のAIの得意・不得意を理解すること」によって、苦手分野をうまくフォローしながら使いこなせば、より高品質な画像が生成できるでしょう。

5. まとめ: 画像生成AIの苦手なことを知ってうまく活用しよう！

本記事では、画像生成AIが苦手とする部分について解説を行ってきました。このように生成AIが苦手とする部分がありますので、これらを理解しておくと、「なんでこうなった！？」って驚くことも減ります。そして、工夫次第である程度はカバーも可能ですので、上手く特性を理解しながら使っていくのが重要かなと思います！

AIイラストにおけるプロンプトについては、下記記事にてまとめていますので、よろしければこちらもご覧下さい。

あわせて読みたい