Luma Dream Machineでアニメ動画生成が失敗する要因とプロンプトのコツ

Luma Dream Machineは高品質な動画を生成することで注目を浴びています。しかしアニメ動画を生成しようとすると、期待通りの結果が得られない場合が多い印象があります。そこで本記事では、Luma Dream Machineでアニメ動画生成が失敗する要因と、その対策としてのプロンプトのコツについて詳しく解説します。

目次

Luma Dream Machineでアニメ動画生成が失敗する要因

まず、多数の失敗を経た経験から、アニメ動画が上手くいかずに、破綻を起こしやすい要因を5点について説明していきます。

1 元画像の複雑さ

画像やイラストから動画生成する場合、元画像が複雑だと、AIが詳細を正確に再現するのが困難になります。特に、複雑な要素や背景を含む画像においては、生成プロセス中に情報の一部が失われたり、不正確に再現されたりすることがあります。

具体的な事例を確認してきましょう。まずChatGPTを用いて生成した、情報量の多い画像を元にして、動画を生成していきます。

これをテキストプロンプトなしで動画生成したのが下記になります。このように、基本的にズームインしているだけの動画なのですが、どんどん背景の情報が失われ、アニメのエンディングのような謎の文字が現れてきます。複雑な情報を保持してきれていない典型的な例かなと思います。

2 テキストプロンプトの複雑さ

テキストプロンプトが長大で、複雑になっている場合も、AIが意図を正確に理解できずに、不適切な結果を生むことがあります。おそらく、テキストが長すぎる場合、5秒間という短い時間の動画にすることがそもそも困難で、失敗につながるのではないかと思います。

こちらも具体例を挙げていきます。プロンプトとして、”A young girl is seen performing a joyous banzai pose while laughing heartily. Suddenly, she realizes something, causing her to blush deeply and turn her eyes away. Embarrassed, she swiftly turns around and runs off into the distance.”という少し長めのテキストを入力して、かつ画像をアップロードして生成したのが下記動画になります。

アニメから実写に変化していますし、服装も制服からワンピースへといつの間にか変わっています。ナチュラルな変化なので、こういう動画としてはもしかしたらありなのかもしれませんが、通常アニメ動画として一貫性が欲しいときには適さないかと思います。

3 学習データの偏り

動画生成に限りませんが、AIモデルの性能は、学習データに大きく依存します。データセットに偏りがあると、生成結果に影響が出てきて、特定の画風が強調されたりします。

例えば、Dream Machineにおいては、指示しないとリアル寄りな動画になりがちですし、また西洋的な人物や服装になる傾向があります。

恐らくDream Machineの学習データとして、①日本の動画が少ない、②アニメ系も豊富ではない、という2点が考えられ、このこともアニメ動画の難しさに拍車を掛けていると思われます。

4 Enhance promptの問題

Dream Machineには「Enhance prompt」というプロントを強化する仕様が、デフォルトでチェックに入っています。内部にてどういう処理がなされているかは明らかになっていませんが、動きが大きくなるメリットもある反面、破綻した動画となるリスクもあります。そのため、場面に応じた使いこなしが必要となります。

こちらも具体的にみていきましょう。画像+テキスト「she is talking, in the falling flower」で統一して、Enhance promptありなしで確認した結果になります。

①Enhanceあり…最初、右下に流れる謎のカメラワークがあります。更に途中から場面が切り替わり、全く別の画像に変わっています。

②Enhanceなし…正直talkingというプロンプトは無視されているのですが、キャラクターや花びらが結構動いている割には、破綻があまり見られません。出来栄えとしては結構良いほうかと思います。

5 手の動きを再現できない

手の動き、特に指先の動作の生成があまり上手くいきません。これは画像生成AIにおいても同様でしたが、やはりAIにとって形状が複雑ですし、重なり合い方を上手く認識するのは困難なようです。画像生成AIにおいてはかなり改善されてきていますので、同様にいずれ改善されるとは思いますが、現状では複雑な手の動きは避けた方がよいでしょう。

これも具体例を挙げていきます。下記動画は良い例で、右手がぼやけていたり、頻繁に形状が変化していて、まともに生成が出来ていません。それ以外の動きは悪くないため、よりこの課題が分かりやすくなっています。

アニメ動画生成において、用いる画像やプロンプトのコツ

以上を踏まえて、どうしたら上手く動画生成できるのかについて説明してきます。基本的には失敗事例の要因を排除することが重要です。以下に3つの方向性と番外編(?)を説明します。

1 元画像の簡素化

シンプルな元画像を使用することによって、破綻のない動画生成がしやすくなる傾向があります。たとえば複雑なオブジェクトだったり、背景を減らして、主要なキャラクターに焦点を当てやすくすることで、AIが重要な情報を正確に解析しやすくなります。指先が含まれる動画も避けた方が無難です。

こちらも具体例を挙げて、説明していきましょう。元画像として、モノクロかつ背景もなく、キャラクターの上半身だけという比較的シンプルなものを用意します。これに対して、プロンプト「She is smiling」としてEnhanceありとして生成したのが下記の動画となります。

そこまで複雑な動きはないものの、プロンプトを反映していますし、大きな破綻も見られません。

2 テキストプロンプトの簡素化

プロンプトについても同様になりますが、複雑で長大な内容は避けて、シンプルにした方が無難です。長くて複雑な指示は解釈するのが難しく、結果として生成が失敗する可能性があります。

こちらも例を挙げつつ、確認していきましょう。プロンプト「she is singing」でEnhance promptありとして生成した動画が下記になります。キャラクターや背景の花に動きが結構ありますが、殆ど破綻は見られません。今回の事例は、元画像が上半身だけでシンプルなことも有利に働いているかと思います。

3 Enahance promptを使わない

そもそもEnhance Promptを使わないことも有効な手段です。失敗する要因の方で説明した通り、Enhance Promptの有無で破綻のしやすさが変わります。そこまで大きな動きを求めないならば、いっそ使わない方が良いかと思います。

番外編: ガチャ要素に身を委ねる

さて、ここまでの流れをぶった切ることになりますが、現状だと結局ガチャ要素が強いのは否めません。上手くいくかは賭けになりますが、試行回数を増やすことで当てに行くことも可能です。

下の動画が良い事例で、元のイラストは複雑性が高めの画像で、苦手な指先も含まれていて、かつEnhance Promptもありでプロンプト「She is singing」として生成した動画になります。このように、上手くいかない要素が多数組み込まれているにも関わらず、悪くない出来となっています。

まとめ

本記事では、Luma Dream Machineでアニメ動画生成が失敗する主な要因と、それを防ぐためのコツについて解説しました。基本的には、「元画像の簡素化」、「プロンプトの簡素化」、「Enhance Promptをしない」という戦略を組み合わせるのが、アニメ動画生成においてはベターかと思います。

恐らくは今後のアップデートや、他の動画生成AI(SoraやRunway Gen 3)との競争の中で、このような課題が解決されていって、クォリティは向上していくかなと思います。

よかったらシェアしてね!
  • URLをコピーしました!
  • URLをコピーしました!

コメント

コメントする

CAPTCHA


目次