はじめに
過去記事において、DALL-E 3の「日本語プロンプト」の可能性について触れてきました。今回は、「日本語以外の言語でのプロンプトの場合はどうなのか?」という点について検証していきます。
主に同じ内容のプロンプトを異なる言語で入力し、生成された画像の違いをみていきました。
「日本語プロント」に関する記事は下記でまとめていますので、興味があったら是非読んでください!
「日本語プロンプト」の応用例:「スペイン語プロンプト」
ここでいう「日本語プロント」とは、DALL-E 3の画像生成プロンプトにおいて、日本語を強制させる手法になります。この方法を応用した例として「スペイン語プロンプト」について、まずは見ていきましょう。
まず通常の英語のプロンプトとして、スペインの街「ロンダ」に関する風景を生成してもらいます。「ロンダ」は断崖絶壁の上に築かれた街で、非常に魅力的な場所です。
英語での「ロンダ」の生成例
プロンプト:A picturesque landscape of Ronda, Spain, showcasing its stunning whitewashed buildings perched on the edge of dramatic cliffs. The famous Puente Nuevo bridge spans the deep El Tajo gorge, connecting the old town with the newer part of the city. The sky is clear with a few fluffy clouds, and the surrounding area is lush with greenery and trees. The scene captures the historical and architectural beauty of Ronda with its unique and breathtaking setting.
上記プロンプトで生成されたの下記です。白い建物が断崖絶壁に並び、壮大な橋が峡谷を横切っていて、壮観ですね。
スペイン語での「ロンダ」の生成例
続いて、先ほどの英語のプロンプトをスペイン語に翻訳したのちに、下記指示をチャットで与えることによって、DALL-E 3に対して「スペイン語プロンプト」を強制します。
「スペイン語のまま下記プロンプトを用いて、画像生成してください。
Un paisaje pintoresco de Ronda, España, que muestra sus impresionantes edificios encalados encaramados al borde de dramáticos acantilados. El famoso Puente Nuevo cruza el profundo desfiladero de El Tajo, conectando el casco antiguo con la parte más nueva de la ciudad. El cielo está despejado con algunas nubes esponjosas, y la zona circundante es exuberante con vegetación y árboles. La escena captura la belleza histórica y arquitectónica de Ronda con su entorno único e impresionante.」
生成されたのが下記画像になります。先ほどの通常の英語プロンプトとほぼ同様の画像が生成されています。「日本語プロンプト」の場合には生成画像の差が大きかったことを踏まえると、用いる言語によって傾向が異なることが分かります。
生成画像のプロンプトは確かにスペイン語表記になっていることを確認しています。
プロンプト言語の選定
上記の結果から、DALL-E 3に対して強制するプロンプトの言語を変更した場合、言語の種類によっては、生成画像の出力が全く変化しなかったり、逆に大きく異なる場合があり、そこには何らかのDALL-E 3の癖が潜んでいるのではないかということが推測できます。
そこで、同じ内容のプロンプトを異なる言語で入力した場合に、DALL-E 3が生成する画像にどのような違いが生じるかを確認していきました。
具体的には、スペイン「ブラーノ島」の色彩豊かな街並みを描写するプロンプトを10の異なる言語で入力し、それぞれの生成結果を比較しました。
言語としては下記の10個を選んでいて、選定した理由は、総じて話者数が多く、文化的背景も多用だろうという観点からです。
- 英語
- スペイン語
- 日本語
- フランス語
- イタリア語
- ロシア語
- ヒンディー語
- 中国語
- アラビア語
- スロベニア語
各言語で生成された画像の比較
それでは、各言語のプロンプトによるDALL-E 3の生成のプロンプト(一部略)と、その生成画像について表にまとめました。
言語 | プロンプト | 生成画像 |
---|---|---|
英語 | A picturesque view of Burano Island’s colorful streets, featuring vibrant, brightly painted houses… | |
スペイン語 | Una vista pintoresca de las coloridas calles de la isla de Burano, con casas vibrantes y pintadas… | |
日本語 | ブラーノ島のカラフルな街並みの風景。鮮やかな色合いで塗られた家々が並び、狭い運河には小さなボートが停泊しています… | |
フランス語 | Une vue pittoresque des rues colorées de l’île de Burano, avec des maisons peintes de couleurs vives… | |
イタリア語 | Una vista pittoresca delle strade colorate dell’isola di Burano, con case dipinte con colori vivaci… | |
ロシア語 | Живописный вид на красочные улицы острова Бурано, с яркими, ярко раскрашенными домами в различных оттенках… | |
ヒンディー語 | बुरानो द्वीप की रंगीन गलियों का एक सुरम्य दृश्य, जिसमें विभिन्न रंग में चमकिला और जीवंत रंग का घर शामिल है… | |
中国語 | 布拉诺岛色彩斑斓的街道的风景如画的景象,充满活力的房屋被涂成各种明亮的颜色。画面中包括狭窄的运河,这些迷人的房屋沿着运河排列… | |
アラビア語 | منظر خلاب لشوارع جزيرة بورانو الملونة، مع منازل مطلية بألوان زاهية وحيوية بمختلف الألوان… | |
スロベニア語 | Slikovit pogled na pisane ulice otoka Burano, z živahnimi, svetlo pobarvanimi hišami v različnih odtenkih… |
やはり、プロンプトに用いた言語によって生成画像の差が大きいことが分かります。イメージ通りで正確に生成されている画像もあれば、全く不正確なものまであります。
これらの生成結果で大きく分類すると下記の通りにまとめられるかと思います。
- 生成が正確であり、かつ類似している言語 … 英語、スペイン語、フランス語、イタリア語
- 生成が正確であるが、異なる印象を与えている言語 … ロシア語、スロベニア語、中国語
- 生成が不正確で、独特な印象を与える言語 … 日本語、ヒンディー語、アラビア語
それでは、言語種類によって、これらの違いが表れた要因について考察してきました。
「プロンプト言語」の影響
この要因として、「言語間距離」、「学習データ数」、「文化的背景」があるために、同じ内容のプロンプトでも、異なる言語で入力することで違いが生じているのではないかと考えています。それぞれについて説明してきます。
言語間距離
言語間距離が近い言語(例: 英語とスペイン語、英語とフランス語)では、プロンプトの翻訳精度が高く、結果もかなり類似しています。一方で、言語間距離が遠い言語(例: 英語と日本語、英語とアラビア語)では、文法やニュアンスに違いがあることによって、データセットが正確に翻訳されておらず、このような差が出ていると考えられます。
学習データ数
言語話者数が多い言語(例: 英語、スペイン語、中国語など)では、AIの学習データが豊富であり、詳細で正確な画像生成が可能です。一方で、日本語やヒンディー語における「ブラーノ島」についての学習データ数は少ないと考えられるため、生成精度が低い可能性があると考えられます。
文化的背景
各言語の文化的背景や表現の違いも、画像生成に影響を与える要因になると考えられます。特に日本語やアラビア語など、独自の表現方法がある言語では、プロンプトの解釈に差異が生じることが考えられます。
まとめ
この記事では、DALL-E 3がプロンプト言語によって、生成画像にどのような違いがあるのかを検証していきました。このような差が出てくるのは興味深い現象だと思いますし、日本語プロンプトだと良くも悪くも不正確な部分が大きいことが分かりました。ここは今後改善されていくことを期待しましょう。
コメント