はじめに
今回は、DALL-E 3における「日本語プロンプト」について、解説していきます。「これまでも日本語でChatGPTに指示していたような…」と思われる方もいるかもしれませんが、少し毛色が違っていますので、わかりやすく説明したいと思います。
なお、基本的なプロンプトの記載の仕方は、下記記事にまとめていますので、良かったらご覧ください。
「日本語プロンプト」とは?
まず、普通にChatGPTに「日本語」で指示をしても、DALL-E3は「英語」のプロンプトで画像生成をします。どういうことかと言うと、前回の記事で画像生成のプロセスを説明しましたが、ChatGPTに指示した説明は、解読と構造化を経てから、画像生成AIであるDALL-E 3に渡されます。この過程で、英語のプロンプトに変わります。
つまり、簡単な流れとしては下記のとおりです。
・ChatGPTに「日本語」で指示
→ ChatGPTの構造化した結果「英語」に変換
→ DALL-E3は「英語」プロンプトを元にして画像生成
このことを、前回の記事の事例を用いながら、具体的に説明していきます。
ChatGPTに対して「青い空の下で咲く満開の桜の木、風に舞う花びらを描いてください。」と日本語でプロンプトを打ちます。その後、生成された画像の情報(右上のi)から、画像のプロンプトを確認していったのが下図です。
画像のプロンプトとしては「英語」記載になっていることが分かるかと思います。この例に限らず、通常の操作をしていると勝手に「英語プロンプト」によって画像生成をしますので、純粋な「日本語プロンプト」として画像生成をしていません。
そこで今回は、DALL-E3に「日本語プロンプト」で画像生成してもらう方法と、普通の方法との違い、生成した画像の具体例についての説明をしていきます。後述しますが、「日本語プロンプト」は、日本語の文化やニュアンスを直接表現できるため、特に日本の風景や文化を表現する際には有効な場合があります。
「日本語プロンプト」で画像生成する方法
実際に可能だと確認済みのやり方が2つありますので、それぞれについて説明します。
1. 直接指示する
簡便かつ有効な方法として、直接指示することが挙げられます。具体的なプロンプト事例を示していきます。
ChatGPT 4でのプロンプト:
下記について、日本語プロンプトで画像生成してください。
「 青い空の下で咲く満開の桜の木、風に舞う花びら」
この結果、生成された画像が下記になります。先ほどの画像生成時にChatGPTに指示した内容と殆ど同じにもかかわらず、生成された画像の印象は大きく変わっていることが分かります。今回の画像では桜並木になっていて、より日本的な画像の印象を強く感じます。
更にこの生成画像のプロンプトを確認すると、日本語で記述されていることが分かります。つまり、この「日本語プロンプト」をDALL-E3は用いて画像生成したということです。
2. エスケープシーケンスを使用する
少しテクニカルになりますが、エスケープシーケンスでの表記でも、「日本語プロンプト」を明示的に指示することができます。
ChatGPT 4でのプロンプト:
{
“prompt”: “\\u9752\\u3044\\u7a7a\\u306e\\u4e0b\\u3001\\u6e80\\u958b\\u306e\\u685c\\u306e\\u6728\\u304c\\u3042\\u308a\\u3001\\u98a8\\u306b\\u821e\\u3046\\u82b1\\u3073\\u3089\\u304c\\u898b\\u3048\\u308b\\u98a8\\u666f”, “size”: “1024×1024”
}
この結果、生成された画像と実際のプロンプトが下記になります。今回は山に桜が並んでいる風景が示されており、また「日本語プロント」であることが確認できます。
このように、以上の2つの方法を用いることによって、「日本語プロンプト」での画像生成が可能となります。また「英語プロンプト」と比較すると、日本の風景に近いと感じられるかと思います。
日本語プロンプトと英語プロンプトでは何が違うのか?
次に、「日本語プロンプト」と「英語プロンプト」での違いと、その要因について説明していきます。
- 学習データの違い
学習データの分布や量の差によって、日本語と英語でプロンプトへの理解に違いが生じます。英語は話者も多く、データセットが豊富ですが、日本語データセットは限られているため、日本語プロンプトが期待通りの結果を得るのが難しい場合があります。 - 文化的背景とバイアス
モデルの学習データに含まれる文化的背景だったり、バイアスがあったりするため、プロンプトの解釈や生成結果に影響を与えることがあります。たとえば、日本の桜に対するイメージと英語圏の桜に対するイメージは異なっているので、上記のような画像の違いが生まれたりします。 - コンテキストの理解
モデルがプロンプトの文脈や背景情報をどのように解釈するかが結果に影響します。日本語のプロンプトでは文脈が明確に伝わりにくい場合があり、英語の方が文脈を正確に捉えることができる場合があります。
これらのことを裏付けるのが、次で示すような生成画像になります。
ChatGPTへのプロンプト:
下記について、日本語プロンプトで画像生成してください。
「春の暖かな日差しの中、青い空の下で咲き誇る桜の木。風が吹き、花びらが舞い散る美しい風景。近くには鯉のぼりが揺れている。」
実際の生成結果は下記。かなり桜並木と和服というかなり日本的な解釈がなされているが、その一方で「花びらが舞い散る」や「こいのぼりが揺れている」といった情報をとらえきれていないのが分かります。
「日本語プロンプト」の効果的な使用場面
この「日本語プロンプト」を効果的に使用する場面としては、以下の例が挙げられます。
- 日本文化を強調したい場面
日本固有の文化や風景、伝統的なアイテムなどを描写する際には、「日本語プロンプト」によって正確なニュアンスを伝えられます。例えば、「紅葉に染まる秋の山道、落ち葉が敷き詰められた小径」というプロンプトを使うことで、日本の秋を豊かに表現できるものと思います。 - 日本語の詩的な表現を重視する場合
日本語には独特の詩的表現や美しい言い回しがあります。例えば、「静寂な竹林の中に佇む古い茶室」といったプロンプトは、詩的な風景を美しく描写できるのではないでしょうか。 - 日本人向けのコンテンツの場合
日本語プロンプトを使用することで、生成イメージがより日本人のユーザーには馴染みやすいものになります。
日本語プロンプトの具体例
いくつかの具体例を挙げて、日本語プロンプトがどのように効果的に機能するかを紹介したいと思います。
1. 日本の風景や季節の描写
プロンプト:紅葉に染まる秋の山道、落ち葉が敷き詰められた小径
美しい紅葉と落ち葉が敷き詰められた山道の風景が生成されています。日本の秋の感じが良く伝わる画像になっていると思います。
2. 日本の伝統行事や祭り
プロンプト:夏祭りの夜、屋台の明かりに照らされる浴衣姿の人々
夏祭りの夜の情景にはなっているものの、これはテキストから想起されるイメージとは合わないように思います。このように文脈理解が「英語プロンプト」よりも弱い部分は課題だと思われます。
3. 日本の伝統文化や建築
プロンプト:静寂な竹林の中に佇む古い茶室
静寂な茶室で、和風な印象は伝わるかと思います。ただ竹林でなかったりするなど、一部プロンプトは無視されています。
4. 日本の四季折々の風景
プロンプト:春の桜並木、満開の桜のトンネル
満開の桜並木が描かれ、桜のトンネルというところも部分的には描写しているのかと思います。桜に関しては、全体的に綺麗で、花弁に寄った描写も再現良く画像生成されています。
まとめ
このように、「日本語プロンプト」を使用することによって、「英語プロンプト」とは異なり、日本の文化や風景を豊かに表現することが可能になっています。課題ももちろんありますが、上手く使いこなすことが出来れば、品質的に高く、和風な文化を再現した画像が得られると思います。
コメント