はじめに
ChatGPT-4oのリリースを受けて、DALL-E3の次のモデル、つまりDALL-E4っていつ頃にリリースされるのだろうかとふと思いましたので調べてみました。
結論から言うと、まだ正式なリリース予定日は公表されていませんし、目ぼしい情報もありませんでした。ただ、これまでのリリース速度から、私は今年の秋・冬になるのではないかと予想しています。
本記事では、DALL-E 4のリリース予定の予測について説明します。
DALL-Eシリーズの過去のリリース時期
まずOpenAIからDALL-Eシリーズがリリースされた時期を振り返ってみます。これまでDALL-E 1, 2, 3がリリースされており、それらは以下のようなスケジュール・内容で公開されてきました。
- DALL-E 1:
リリース日: 2021年1月
特徴: 12億パラメータを持つ初代モデル。このときからテキストから多様な画像を生成することが可能。 - DALL-E 2:
リリース日: 2022年4月
特徴: 拡散モデルを導入した2代目モデル。画像生成の品質と精度が大幅に向上し、高解像度の画像生成や、画像編集・修正機能が強化。 - DALL-E 3:
リリース日: 2023年10月
特徴: 2024年5月時点の現行モデル。ChatGPTと統合し、プロンプト生成が直感的かつインタラクティブな点に特徴があります。理解力が高まることで、より正確な画像生成が可能に。
DALL-E 4のリリース予想
次のモデルであるDALL-E4については、OpenAIから公式発表はありません(2024年5月時点)。
噂レベルでも情報は見かけていませんが、これまでのリリースは上記の通り1~1.5年程度間隔で行っていることと、画像生成AIにおいては競合環境も厳しいことから、話題提供のためにもリリース間隔を遅くするような選択肢は恐らく取れないかと思います。
これらのことから予測するに、DALL-E4のリリースは、早くて今年の9月頃で、秋冬のどこかではリリースする可能性が高いと考えています。
技術的進歩の予想
ここからは殆ど妄想になりますが、現行モデルで生じている問題点を基にして、DALL-E 4で起こるであろう技術的進歩について考えていきます。
1. 画像生成時間の短縮
現行のDALL-E3の課題として、画像生成に時間が掛かることが挙げられます。ChatGPTのほうでは、GPT-4oにて生成速度が大きく向上しましたので、同じようなアルゴリズムが適用できるのであれば、生成時間が短縮されることが考えられます。
2. 生成される画像品質の向上
正統な進化としては、生成される画像の品質向上が挙げられます。つまり、現行のDALL-E3において生成される画像は細部やテクスチャが不鮮明だったりしますので、その部分の改善です。具体例を挙げると、指や目の描写を苦手としているのは有名で、改良されているとはいえ、まだまだ品質を高める必要がある部分です。
3. 写実的なリアルな画像がより自然に
現行のDALL-E3はどちらかと言えば、イラストやCG、絵画的な画像の生成に強みを持っていて、写真のようなリアルな画像については相対的に品質が劣る部分があると感じます。もちろん不気味の谷は超えており、遠目で見る分には違和感も少ないのですが、よく見ると特に生成される人物や物の質感に不自然さが見られます。
そのため、この点について改良していると考えられますので、DALL-E4においては、写真のようなリアル寄りの画像生成であっても自然な仕上がりとなることが予想できます。
4. 文字の正確な生成
画像生成AIは文字を画像として生成することをかなり苦手にしていて、この点についても改良が待たれる点です。英語はまだしも日本語ともなると難易度は高いと予想されますので、完全に再現することは難しいかと思いますが、現状よりは改良されるのではないかと考えています。
5. 高度なプロンプト処理
これも順当な進化になりますが、OpenAIはChatGPTという資産を持っていることが何よりも強みとなっていますので、それを生かす形で進歩すると考えています。特に、ChatGPTにおける解釈能力向上と組み合わせることによって、DALL-E側でも、より正確なプロンプトの解釈をした画像生成がなされるのではないかと思われます。具体的には、より使い手の意図を反映したような画像生成ができ、思った画像を生成するための試行回数が減ってくるのではないかと思います。
まとめ
今回は、予想ベースの話なので確たることは言えませんが、これまでの技術革新の速度から、DALL-E4にはかなり期待しています。その前にDALL-E3.5みたいな中間的なモデルが出るかもしれませんし、どうなるか楽しみですね。
コメント