DALL-E 3の「日本語プロンプト」活用例：創造性と不安定性の狭間にあるもの

2024年5月26日2024年6月25日

はじめに

　前回の記事にて、DALL-E 3で「日本語プロンプト」を強制させると、通常とは異なり、和風な出力画像となることを解説しました。そこで今回は、「日本語プロンプト」を用いた具体的な出力事例の紹介を主にしていきます。

　DALL-E 3での「日本語プロンプト」のやり方や概要については、下記にて詳しく説明していますので、興味があったら是非読んでください！

「日本語プロント」＝じゃじゃ馬説

　「日本語プロンプト」は、一言で言えばかなりの「じゃじゃ馬」です。上の記事でも少し触れましたが、プロンプトを正確に反映してくれていないですし、プロンプト解釈の幅も広いので、同じプロンプトであっても生成される画像も毎回大きく変わります。要するに、言うことを聞いてくれないことが度々あります。

　この生成画像の振れ幅の大きさは、よく言えば「創造性が高い」ですし、悪く言えば「安定性が低い」と言えます。運要素、ガチャ要素がより強いと言うと分かりやすいかもしれません。ただ、品質としては通常時と変わらず、一定以上の出力をしてくれているので、個人的にはランダム性が味わえて面白いと思っています。

具体的な画像の生成事例

　それでは、具体的な事例について説明します。ここでは、「1. 安定性の高い事例」と「2. 安定性の低い事例」に分けて説明していきましょう。

　なお、画像生成のやり方としては、ChatGPT 4oにおいて「下記について、日本語プロンプトで画像生成してください」として、日本語プロンプトを強制させています。

1. 安定性の高い事例

　四季や風景に関係することは、生成画像の内容やスタイルの振れ幅が大きいものの、プロンプトの解釈は比較的忠実で、それなり安定しています。

桜に関する出力

　前回の記事でも紹介した通りですが、桜に関してはプロンプトを守ってくれる傾向にあります。

　プロンプト：春の暖かな日差しの中、青い空の下で咲き誇る桜の木。風が吹き、花びらが舞い散る美しい風景

着物、建造物、川沿いの風景、どれも日本的な印象を感じさせます。プロンプトの意図とは少し違いますが、これはこれでありでしょう。

雪景色に関する出力

　プロンプト：冬の日本の道路、道の両側には雪の壁があって、荘厳な風景

雪の道路の情景がきれいに表現されています。これも完全にプロンプトが反映背されているわけではないのですが、日本のどこかにありそうな風景になっています。

　プロンプト：雪が降る中、ひっそりと佇んでいる小さな神社

神社というには派手すぎる何かになっていますが、それ以外の背景、雪の積もり方は悪くないかと思います。

山に関する出力

　四季が関わらない風景という観点で、山に関する出力を試してみました。

　プロンプト：濃い霧に覆われた山の中、朝日が見えはじめている

プロンプトを概ね反映しつつ、木や雲の感じから日本の風景を感じさせます。四季に限らず、「日本語プロント」での風景画像は雰囲気含めて品質が高いことが分かります。

街並みに関する出力

　風景以外はどうかということで、街並みについても試してみました。

　プロンプト：クリスマスの街、街路樹はイルミネーションで煌めいている

これは大規模なアーケード街になっているので、現実にはなさそうではありますが、都市部の街並みっぽさを感じさせてくれる内容にはなっています。

2. 安定性の低い事例

　続いて、逆にプロンプトが殆ど無視されていて、画像生成AIの独自性に任せたような出力になっている事例を挙げていきます。

文字に関する出力

　画像を文字に入れることを狙った試みです。元から、DALL-E 3をはじめとする画像生成AIが苦手とする分野ではあります。

　プロンプト：白い背景に、黒い太字で、”こんにちは”と書かれている

見てわかる通り、プロンプトはガン無視されています。このキャラクターや食事風景は、どこから出てきたのか疑問は尽きません…。ただ、単純に画像の出来栄えとして捉えると、クォリティのイラストになっているかと思います。

食事に関する出力

　日本の食文化は品質も高く、独自性がありますし、学習データとしても豊富かと思って期待していたのですが、なかなかプロンプト通りの再現にはなりませんでした。

　プロンプト：おいしそうなラーメン

ラーメン要素のない、似ても似つかない謎の料理。これは、一般人には到底発想することのできないAIならではのもののように思います。ただし内容はともかく、これもこういう画像として捉えると、果物類、トースト、食器と、どれもクオリティが高いことが分かります。

動物に関する出力

　動物についても、学習データ多いのではないかという読みでしたが、これも中々上手くいきません。

　プロンプト：動物園、2頭のパンダ

非常にシュールな画像になっています。パンダ→熊から連想されていっているように辛うじて思えます。これも例えば、「デフォルメされたクマが、動物園の池の中でストローでジュースを飲んでいているCG画像」のプロンプトに対して出力されるなら、品質的には問題はないのです。

その他

　プロンプト：除夜の鐘

近未来的な都市と日本的な街並みが融合しており、空からは隕石が降り注ぎ、町は煙に包まれています。非常に想像を掻き立てられる世界観になっていますね。これが「除夜の鐘(？)」なのです。

「日本語プロンプト」が不安定な要因

　ここまで見てきたように、「日本語プロント」は出力される画像が結構不安定になっています。その要因としては、以下が考えられます。

データ量と質の問題
　DALL-E 3のAIモデルは大量のデータセットに基づいて学習しています。日本語のデータは英語に比べて少なく、その多様性も限られています。このため、特定の表現や文脈に対する理解が不十分となることが考えられます。

日本語の持つ曖昧さ
　日本語は漢字、ひらがな、カタカナが混在しますし、更に文脈によって、同じ言葉であっても意味が大きく変わります。また、助詞の使い方など微妙なニュアンスが多いため、AIにとっては正確に意味を捉えるのが難しい場合があると考えられます。

今後の予測

技術の進化による日本語プロンプトの改善
　今後、AI技術がさらに進化することで、日本語プロンプトの精度も向上していくものと考えられます。特に、日本語データセットは拡充していきますので、今のような不安定さはいずれ失われて、プロンプトに忠実な出力になっていくのではないでしょうか。

まとめ

　今回は「日本語プロンプト」について具体例を挙げながら、その実力について確認してきました。日本の風景画を出力する場合には、和風な印象を上手く表現してくれるので、有用ではないかと感じます。また、それ以外でも生成画像が予測不可能な要素を持ちながらも、高品質で創造的な結果を生み出すという点で、非常に面白いと感じます。これらを上手く活用できると、より多様なAI画像が生み出せるのではないかと思います。