ChatGPTは数字の概念が苦手?
半分くらいネタになりますが、ChatGPTにおいてDALL-E3を使った画像生成をしていると、しばしば数の概念が怪しいのではないかと感じる場面があります。例えば、3面図の画像を生成しようとすると、下記のように5面図?が生成されたりします。
ChatGPTはテキストベースでも、簡単な計算を間違えるので、数字には弱い印象がありましたが、画像でも同じなのかと気になりました。
そこで、ChatGPT(DALL-E3)に何とかして数を数えてもらえないか、検討してみました。モデルはいつも使っている子です。蛇足ですが、GPT-4oが賢すぎて覚えてしまったのか、「いつもの女の子」と打つだけで、下記の画像が生成される状況です。
ちなみにChatGPTでの画像生成については下記記事で解説しています。
彼女は数字を数えることができない
以下に、プロンプトと画像生成した結果をまとめています。順を追って、彼女の奮闘の歴史をご覧ください。
プロンプト「1~10までの数字を数えてください」としたとき
生成例①
数字なのかすら怪しい文字が混じっており、順番もぐちゃぐちゃですね。
生成例②
8が謎に多い。しかしこれは後から振り返ると、数字の個数があっているだけ、まだ惜しいほう。
生成例③
1からすら始まっていない。他にも数多くの失敗から、10まで数えるのは無理だと断念…。
プロンプト「1~5までの数字を数えてください」としたとき
10まで数えるのは人類には早すぎたようなので、1~5までを次に試してみました。
生成例①
5までであっても厳しい現実が待ち受けます。
生成例②
どっから9が…。
生成例③
完全にあほの子に。
プロンプト「1~3までの数字を数えてください」としたとき
更にハードルを下げて、1~3までとしました。これなら問題なく生成されるはず!
どうして…。3まででも厳しい。
プロンプト「1~2までの数字を数えてください」としたとき
ついに数えられるときが。
ということで、結果は「ChatGPT(DALL-E3)は1~2までなら数えられる」ということでした!
DALL-E3は何故、数字を数えられないのか?
と、ここまで暗澹たる画像生成結果を見てきました。DALL-E3は画像生成AIとしてはかなり優秀なのに、ここまで数字を苦手としている理由は何なのか疑問に思ったので、考えられることを列挙してみます。
- 学習データがない
- DALL-E3を含めたどの画像生成モデルであっても、学習データに基づいて画像を生成するため、学習データに不足がある場合には、生成が難しいことが考えられます。特にこういった数字を数えるような画像を学習していないので、他の画像生成の要素に対して難易度が高い可能性があるかもしれません。
- プロンプトが複数の要素を含みすぎている
- 今回の事例では、数字を数えるということに加えて、キャラクターのポーズ、表情、背景など、複数の要素が絡んでいます。こういった複雑なプロンプトでは、各要素の正確性を保持しにくくなっている可能性があります。この正確性の欠如によって、特に数字の順序や間違いに繋がっているのかもしれません。
- 画像に変換するときの解釈間違い
- 言語を介しての生成モデルであるため、元々テキストとして指示を出して、画像に変換する工程が入ります。この変換の際に、AIが解釈を間違えている可能性があるかと思います。例えば、「1~3までの数値」と指示しても、「1,3の数値」として捉えている可能性があるのかもしれません。
いずれにせよ、複雑な数値を画像に入れて生成するのはまだまだ難しそうです。
コメント