Luma Dream Machineは、AIを活用して画像やイラストから高品質な動画を生成できることを、前回の下記記事で紹介しました。本記事では、画像・イラストを元にした動画生成(img2video)する際のコツと、具体例について解説します。
「Luma Dream Machine」の動画生成時の傾向
Luma Dream Machineの動画生成をやってみると、得手不得手がはっきりしているように感じましたので、紹介していきます。無料で生成できる枠は限られている(30本/月)ので、この辺の情報を生かして頂けると嬉しいです。
ポジティブな面
総じて言えることは、実写系の動画はクオリティが高めな印象です。動画としての破綻も比較的少ないい傾向にあります。動作が大きくなっても、違和感も少ないことが多いかと思います。
具体的には下記事例について、後ほど具体的な生成動画を紹介します。
- リアルな人物の動画
- 風景の動画
- 動物(特に猫や犬)の動画
ネガティブな面
先ほどとは逆で、アニメ系の動画生成はかなり弱い印象です。何かしら破綻することが多く、上手くいったものも動きが少ない場合が多いかと思いかなと思います。おそらく、学習データに結構偏りがあるのかなと感じています。
また、画面が上下左右に動くだけ(パン)の場合も結構あります。あとは、同じ画像を元にしても、全く異なる動画になることがあり、画像生成AI以上にガチャ要素が高くなっています。
ネガティブな面をまとめると下記の通りで、こちらも後ほど具体的な生成動画を紹介します。
- アニメ系の動画
- 困ったら画面をパンしがち
- ガチャ要素が強い
動画生成の具体例
それでは、動画生成の具体例を元にして説明していきましょう。以下、全て画像やイラストからの動画生成事例になっています。
リアルな人物の動画
まず最初の元画像は下記の「桜の木の下の和服の女性」です。これはDALL-E 3で画像生成しています。
この画像について、テキストプロンプト「As the camera begins to move, it performs a smooth, rotating motion while gradually zooming in on the woman」として入力したのが、下記動画になります。
これは結構上手くいった例で、女性の首の動きや瞬きなど動きがあって、カメラワークもある割には、破綻がない仕上がりになっています。肌や服の質感も不自然さが出ていないですよね。桜についても、手前側の動きと奥側の動きに違和感がなく、遠近感が上手く出ているかと思います。
風景の動画
これも同様にDALL-E 3で生成した、桜と雪の画像をベースにして、動画生成しています。先ほどとは異なり、こちらはテキストプロンプトは併用していません。
階段を降りているような動画になっており、これも結構自然な動画になっているかと思います。強いて言えば、前半で全体的に白っぽかった風景が、後半でははっきりしているような印象へと移り変わっている点が気になるくらいでしょうか。
動物の動画
これも同様にDALL-E 3で生成した画像を元にしています。こちらはテキストプロンプトとして「The camera starts with a wide shot, capturing the expanse of the grass and the surrounding nature. As the camera begins to move, it performs a gentle rotating motion while gradually zooming in on the cat.」を入力しています。
これはかなりリアルにできていて、動きも自然でネコとしては破綻がないように思います。よく見ると草が貫通していたりするのですが、そこまで気にならないですね。不満があるとしたら、この事例ではテキストプロンプトが殆ど効いてないくらいなものです。
他にも犬も同様のクオリティで生成できたのですが、鳥(鷹)は上手く動画化できなかったので、ここに学習データの偏りがあるように思います。恐らくペットとして一定量の蓄積があるのが大きいのかなと推測しています。
アニメ系の動画
アニメ系はかなり鬼門でした。以下、(1)比較的ましな例、(2)失敗例、(3)成功例、についてそれぞれ挙げていきますが、正直成功例は数限られています。
(1) 比較的ましな例
これもDALL-E 3で生成した画像をテキストプロンプト併用で動画生成した事例になります。
背景の遠近感や、川の流れについては、まあ自然かと思いますが、少女の振り向いた時の顔が崩れ気味ですし、最初のフレームとは印象が変わっています。他にも色々生成している中で感じたことは、表情が少し古いアニメのものになりがちです。これも学習データの偏りを感じます。
(2) 失敗例
これも元画像は同様です。
謎のポーズをしてどっかに飛んでいくという、かなりアクロバットな動画になっています。元画像が躍動感がありすぎたのかもしれませんが、もはや理解が追い付かないシュールさがあります。
(3) 成功例
これもDALL-E 3で生成した画像を元にしていて、テキストプロンプトはなしです。
正直、人物の動きが小さいから破綻していない部分はあるのですが、それでも良い出来かなと思います。ズームインしていくと、髪の毛が広がっていき、少し目が吊り上がっていくのは、迫力があるかなと思います。
困ったら画面をパンしがち
例えば下記が良い例なのですが、ただ上下か左右にパンするだけの動画になる場合がまあまああります。元画像にもよるのかもしれませんが、下記画像は何回やっても、キャラクターは動きませんでした。
ガチャ要素が強い
下記の2動画はいずれも同じ元画像から生成したもので、どちらもテキストプロンプトなしです。こんな感じで、同じ画像ベースでも全く違う動画が生成されます。これをテキストで上手く制御できれば良いのですが、まだまだ難しそうな印象を受けます。
まとめ
Luma Dream Machineは、画像やイラストからリアルな動画を生成する強力なツールですが、その利用にはいくつかのコツがあります。リアルな人物や風景、動物の描写に優れている一方で、アニメキャラクターの生成には注意が必要かなと思います。成功率を上げたいならば、上手いやり方が出てくるまでは、アニメ系は避けた方が無難かもしれません。
コメント