2024年7月時点で一般に使用できる動画生成AIとしては、Luma AIの「Dream Machine」とRunway AIの「Gen 3 Alpha」の2モデルが最先端かつ高い性能を有しています。本記事では、これらの2モデル(Dream MachineとGen 3 Alpha)について同じプロンプトで比較し、実際の生成結果を元にしながら、それぞれのツールの強みと限界を探っていった結果を紹介します。
以前、それぞれのモデルの特徴について、簡単に比較したものが下記記事となっていますので、良かったらこちらもご覧ください。
Luma AI 「Dream Machine」、Runway AI 「Gen3 Alpha」の比較
Dream MachineとRunway Gen-3は、どちらも最新のAI動画生成モデルになります。また、大量の動画データから学習しており、指定した画像やテキストなどに基づいて、新しい動画を簡単にリアルタイムで生成することが可能です。
いずれも品質面では高いレベルにありますが、違う点も多々見受けられます。それらを表にして比較しやすいようまとめたのが下記表です。
特徴 | Dream Machine | Gen-3 Alpha |
---|---|---|
開発元 | Luma AI | Runway AI |
動画生成時間 | 5秒間の動画生成 *Extend機能で長時間に延長が可能 | 5秒、10秒の動画生成が選択可能 |
画質・一貫性 | 高品質でリアルな動画 keyframes機能で一貫性も高い | 高品質でリアルな動画。 一貫性、精巧性も高い。 |
カメラワーク | 基本的な動作 | 高度なカメラモーションが可能 |
入力方法 | テキストプロンプト、画像入力 | テキストプロンプトの入力のみ |
特殊機能 | Idea機能によるランダムプロンプト生成 Enhance機能によるプロンプト強化 | リップシンク(Lip sync)機能あり その他編集機能多い |
アクセシビリティ | 使用開始までステップが少なく、 直感的な操作が可能。 | webブラウザベースのインターフェース |
料金体系 | 基本無料(30回まで)だが、 商用利用には有料プランが必要 | 有料プランが必要 |
このように機能面、価格面などにおいて違いがあります。それぞれの使い方の詳細や機能については下記記事で解説しています。
それでは、各モデルにおいて実際に生成した動画を比較していきましょう。
同じテキストプロンプトでの生成動画の比較
ここでは、全く同一のテキストプロンプトを用いて動画を生成し、比較した結果を紹介していきます。テキストプロンプトとした理由は、2つの動画生成AIにおいて、共通して横並びで比較可能な入力方式であったためというのが大きなところです。
また試行回数によってブレはあるかと思いますが、今回は1回のみで比較しています。
東京の道路を歩く女性の動画
まずはOpeAIのSoraの発表時に使われた動画のプロンプトを使って検証します。ちなみにSoraでのイメージは下記画像の通りで、当時はAIでここまでの動画が生成出来るのかとかなりインパクトがあって、大きく話題になりました。
実際の生成動画はOpenAIのホームページをご確認下さい(https://openai.com/index/sora/)。
このプロンプトは下記であることが公表されていますので、これを使用して生成していきます。
A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. She wears a black leather jacket, a long red dress, and black boots, and carries a black purse. She wears sunglasses and red lipstick. She walks confidently and casually. The street is damp and reflective, creating a mirror effect of the colorful lights. Many pedestrians walk about.
実際に生成された動画
Luma Dream machine
Runway Gen 3 alpha
このように同じプロンプトでも結構印象は異なる動画が得られます。品質、プロンプトへの忠実さ、生成時間の各観点で、比較してまとめました。
- 動画全体の品質
-
解像度の高さ、東京の街に合わせた日本人っぽさの表現の高さは、Runway Gen-3 Alphaの方に分があるように感じます。Dream machineもリアルさは高いのですが画質が荒い感じがしますね。一方で、Gen-3 Alphaは映画的なリアルさを感じます。
- プロンプトへの忠実さ
-
Dream machineの方がプロンプトに対する忠実さは高いです。Gen 3 Alphaでは、サングラスや赤いドレスが無視され、また路面の濡れた状態の表現もなされていません。
- 生成時間
-
Dream machineは2分30秒かかったのに対して、Gen 3 Alphaは1分55秒でした。どちらも順番待ちには入っていないので、純粋な生成時間になっているはずです。また、複数動画を生成していても、体感的にはGen 3 Alphaの方が短時間で生成できている印象でした。
以上から総合的に見ていくと、この動画に関しては、Runway Gen 3 alphaの方に軍配が上がるのではないでしょうか。
雪原を走るマンモスの動画
同じくSoraからもう一例比較してみます。こちらも有名な動画ですが、マンモスが雪原を走って近づいてくる映像になっています。
このプロンプトも開示されていて、下記となっています。
Several giant wooly mammoths approach treading through a snowy meadow, their long wooly fur lightly blows in the wind as they walk, snow covered trees and dramatic snow capped mountains in the distance, mid afternoon light with wispy clouds and a sun high in the distance creates a warm glow, the low camera view is stunning capturing the large furry mammal with beautiful photography, depth of field.
本プロンプトを使用して同様に生成したのが下記動画です。
Luma Dream machine
Runway Gen 3 alpha
この例では結構テイストの異なる動画が生成されています。Dream machineはCGアニメ風になっており、Runway Gen 3は実写になっています。色合いが違いすぎて甲乙付けづらいですが、Runway Gen 3の方は主役となる被写体がマンモスとして認識できないので、そこは減点大きい気はします。
こうして比較してみたときに、逆説的ではあるのですが、Soraの完成度の高さを感じる部分はあります。
大きな波を乗りこなすサーファーの動画
ここからはオリジナルのプロンプトで比較していきたいと思います。まずはある程度ダイナミックな動きを伴う動画生成という観点で、サーフィンの動画を生成して比較してみました。プロンプトは下記の通りです。
A surfing competition scene. Surfers ride big waves, and the camera follows the swift and dynamic movements of the surfers and the waves.
生成した動画がこちらです。
Luma Dream machine
Runway Gen 3 alpha
どちらも動きが大きく、プロンプトを再現した動画になっています。ただ、ダイナミックさ、画質、色鮮やかさなど複数の観点から、Runwayの方が魅力的な動画に感じますね。
感情のこもった女性のスピーチの動画
続いて、感情表現についてはどうなのか見ていきましょう。プロンプトは下記の通り、女性の感情的なスピーチで、女性の顔をアップにした動画を想定したものです。
A young woman giving an emotional speech. The camera zooms in on her face, capturing subtle changes in her emotions (tears).
Luma Dream machine
Runway Gen 3 alpha
Dream machineの方がプロンプトに忠実で、かなり感情表現が豊かな動画になっています。一方でGen 3 alphaはスピーチもしていないですし、感情表現自体が少ないですので、こういう表情の描写が不得意なのかなという印象を持ってしまいます。
昼から夜に移り変わる高層ビルのドローンでの動画
次はカメラワークと景色の変化についてという観点で、下記のプロンプトにて試してみました。
A scene of a bustling cityscape shot by a drone. The drone smoothly navigates between skyscrapers, transitioning from day to night
生成した動画は下記の通りです。
Luma Dream machine
Runway Gen 3 alpha
この動画に関しては、Runway Gen3 Alphaの方がはっきりとクオリティ高いと感じます。夕焼け、照明の灯ったビルの夜景がそれぞれ綺麗に描写されていますし、それらの移り変わりもかなり自然に見えます。
女性が話すだけのアニメシーン
最後は、どちらのモデルも不得意とするアニメーション動画で比較しました。プロンプトは簡素に話しているだけの女性としており、下記を用いています。
Anime scene, girl is simply talking.
Luma Dream machine
Runway Gen 3 alpha
いずれも全体的に動きは少ないですが、Dream Machineの方が顔の動きや口の動きは自然のように感じます。Runway Gen 3は髪の毛の動きや口の動きが結構ぎこちなく感じます。
生成結果に対する総評
以上のように、6個のプロンプトを用いて動画生成して、各モデルについて比較してみました。
全体的な品質だけ考えると、Runway Gen 3の方が高画質で、品質の高い動画が多いように感じました。プロンプト無視は結構生じているのですが、映画やハイビジョンを思わせる動画になっているため、許せてしまう部分も多いように思います。一方でプロンプトの忠実さ、感情表現の豊かさの観点ではDream Machineに強みがあるように思いました。
またDream machineはテキストベースよりは、画像からの動画生成(image to video)で本領発揮するように思いますので、そういう点では少しアンフェアな比較だったかもしれません。この辺については、下記記事で詳しく紹介していますので、興味がありましたらご覧ください。
まとめ
今回の記事では、Luma Dream MachineとRunway Gen 3 Alphaの比較を、具体的な動画を交えて比較してきました。どういう動画を生成したいか、適したプロンプトを選べているか、という部分で、優劣は変わりうる印象は正直あります。現状だとどちらも優れている部分があって、一長一短なのは拭えないのかなと思います。
ただモデルによって生成される動画のクセみたいなものがあるので、それを理解した上で選んで使っていくのが良いかなと思います。
コメント