最近の画像生AI界隈では、Nano Banana Proが人気ですよね。
私もよく使うのですが、Geminiの無料版だけだと生成枠が足りなくなるため、他のプラットフォームを使うことがあって、その中でPollo AIを使ったりしています。
さて、そんなPollo AIから新しい動画生成AIである「Pollo 2.0」が出てきましたので、今回はその紹介をしていきます。
今回も依頼案件にはなるのですが、実際に使ってみた使用感も踏まえつつ、レビューしていきたいなと思います。
特に、Pollo 2.0 がどんなモデルで、どこが強くて、どこがまだ工夫が必要なのかについて触れていきます。
〇Pollo 2.0へのリンク
https://tinyurl.com/5bhk39m6
〇前回の記事はこちら

目次
- 1.動画生成AI「Pollo 2.0」とは?何ができるの?
- 2.何が新しいの?Pollo 2.0 の特徴を整理
- (1) 完全な「音付き」モデル
- (2) 既存動画の「延長」ができる
- (3)低コストで実用的な動画が生成できる
- 3.実際にPollo 2.0を使ってみた感想・レビュー
- まとめ:Pollo 2.0 は「AIイラストの次の一歩」を軽くしてくれるモデル
1.動画生成AI「Pollo 2.0」とは?何ができるの?
まずはPollo 2.0はPollo AIからリリースされた動画生成AIモデルです。
概要をまとめると下記の通りとなりますね。
- 開発元:Pollo AI(シンガポールのCOCOSOFT Technology)
- 種類:Pollo AI独自開発の動画生成モデル
- 立ち位置:Sora 2 / Veo 3.1などと並んで比較される「ショート動画モデル」
なお、Pollo AI自体は、各種の画像生成AI(Nano Banana / Flux / Midjourney / Imagen 4など)や動画生成AI(Veo 3 / Sora 系 / Kling / Runway Gen-3 / Hailuo など)といった、複数の有名モデルを一つの UI で選べるマルチプラットフォームという立ち位置です。
生成AIを色々と使い比べる上では、重宝するサービスになっています。
その中で「Pollo 2.0」というのは、自社サービスとして存在しているわけですね。
また2.0というナンバリングが示すように、前モデル(Pollo 1.6)があります。
Pollo 1.6との違いはいくつかあって、例えば、生成速度が2倍以上速くなっていたり、後述するように音声付きで出力できるようになったことが主な違いです。
このPollo 2.0が0から開発した完全な独自モデルなのか、あるいは既存の何らかのモデルを内部で使っているのかは個人的には興味あるところではあるのですが、詳細が公開されておらず不明です。
2.何が新しいの?Pollo 2.0 の特徴を整理
続いて、Pollo AIの公式リリースをざっくりまとめていくと、特徴は下記に集約されるかと思います。
(1) 完全な「音付き」モデル
Pollo 2.0の大きな特徴は音声まわりになります。
具体的な音源としては、BGMだったり、環境音(雨の音・カフェのざわめき など)、あるいは効果音(足音・ドアの開閉 など)ですね。
これらを、映像の内容と同期したかたちで自動生成してくれます。
こうした音付きの動画生成は最近増えてきていて、Sora 2やVeo 3.1が有名どころですね。
なので、この辺りのモデルが主要な比較対象になってくるのかなと思います。
音がつくと、今までの「無音動画 → 別ツールでフリーBGM探して → タイミング合わせて…」という編集作業がほぼ一撃で終わるので、そこは動画作成においてかなり楽ですよね。
また、音声が必要ない場合は、音声なしのパターンも選択することが可能です。
クレジットを節約したい場合は、こちらも選択肢になりますね。
(2) 既存動画の「延長」ができる
Pollo 2.0 には、既存の動画をそのまま伸ばすVideo Extension(延長)機能があります。
〇動画延長機能へのリンク
https://tinyurl.com/mue48z77
延長機能自体は最近の動画生成AIでは大抵あるのですが、下記の2点にPollo 2.0の特徴があるように思います。
1つはPollo 2.0で生成した動画以外であっても、動画をアップロードすることで、その続きを生成できること。
もう一つは延長時間が1~7秒という、細かい秒数単位で指定することが可能なこと。
これらの特徴は、他の動画生成AIではあまり見かけない部分ではありますね。
上手く動画の冒頭部分だけ作れているものがあれば、結構自由度高めで続きの生成が可能になるものと思います。
(3)低コストで実用的な動画が生成できる
Pollo 2.0はコスト的には安価であることがうたわれています。
実際にPollo AIで生成する場合、Sora 2とVeo 3.1が4秒でそれぞれ30、45クレジット掛かるところ、10クレジットになるため、確かにクレジット的には安価で生成が可能です。
またデモを見る限りは、ダイナミックな動画よりは、ゆっくりとした繊細な動画の生成が得意のように見受けられます。
特に、1枚のイラストから、カメラが少しずつ寄っていく様子だったり、背景の光がふわっと揺れるような描写は上手いように感じます。
3.実際にPollo 2.0を使ってみた感想・レビュー
さて、それでは実際の使い勝手を見ていきましょう。
まずは使い方になります。
基本的には、画像を参照して、動作をテキストプロンプトに打ち込むだけです。
他の動画生成AIを使っていく流れを大きくは変わりません。
またPollo AIでは、テキストに翻訳を掛けることができますので、プロンプトは基本的に日本語で問題ありません。

また、設定上は「オーディオ生成の有無」、「動画の長さ」、「出力する動画の本数」、「解像度」といったところが選べます。
こういった抑えるべき部分は抑えられているように思いますね。

さて、今回は下記のウサギの画像を検証用にMidjourneyで生成していますので、これを実際に動画化していきましょう。

動画生成時の動きに関しては、下記のプロンプトを用いています。
画像に合わせて、動きとして全体的にゆっくりめを意識したものですね。
うさぎが、木のぬくもりある小さなキッチンで、銅のポットからゆっくりとコーヒーをカップに注いでいる。蒸気が柔らかく立ち上る。
その後、両手でカップを持ち上げ、あたたかい一口をそっと飲む。
霜のついた窓の外では雪が静かに舞い、空気にはきらめきとボケが漂う幻想的な雰囲気。
カメラワークは、スロードリーインから始まり、やさしいオービットの後、うさぎが飲む瞬間にティルトアップ。
そうして実際に、Pollo 2.0で作成して出来上がった動画が下記になります。
生成時間は、おそらく混雑具合にもよるかと思いますが、1分も掛からなかったので早いほうかなと思います。
まずざっと見た感じ、全体的な動きは悪くないですよね。
例えば立ち上る湯気の質感だったり、コーヒーを飲むときのウサギの表情や動きについては、結構繊細さが垣間見えるように感じられます。
細かいことを言うと、ポットを置いてる場所とかは気になっちゃいますが、そこまで違和感ないですね。
またプロンプト精度の観点で見ていきますね。
まずウサギの動作に関しては、概ねプロンプト通りの動きをしているかなと思います。ここは優秀ですね。
一方でカメラワークに関しては、ドリーインまではしているものの、その後の動きは指示に沿ってできていないですね。試行回数とプロンプトの工夫次第で解決するかもしれませんが、少し複雑な動きは再現が難しいかもしれません。
続いて、もう1つ別の動画を作成してみました。
先程は音声なしで作っていたものなのですが、こちらは音声付きで生成しています。
こちらは少し動きを強めて、踊らせたものですね。

この動画もダンスしてて、動きがあるのは良い点かなと思います。
音声も、画像に合った落ち着いたメロディーに仕上がっているかと思いますよね。
一発でこうした音付きの動画として生成されるのはありがたいですよね。
ただ、音楽のクオリティはSuno AIとか音楽生成AIの方がクオリティ高いかなとは思います。
まとめ:Pollo 2.0 は「AIイラストの次の一歩」を軽くしてくれるモデル
ここまで見てきたように、Pollo 2.0 は
- Sora 2 / Veo 3.1 クラスを狙いに行っている
- 役割としてはコスパの良いショート動画つくり
- 特に 「静止画の世界に 10秒だけ時間を流す」のが得意
という立ち位置のモデルです。
まずは自分のキャラや世界観を、ちょっとだけ動かしてみたい、という最初の一歩を軽くしてくれる存在かなと感じました。
もちろん、モデルによって得手不得手はありますので完璧ではないです。
それでも、音付き、コスパ良し、延長時間が選べる、という三拍子は、AIイラストの延長線上で動画を始めるには十分すぎるスペックですよね。
もし「自分の世界を少しだけ動かしてみたいな」と思っていたら、Pollo 2.0 はその実験台として、かなりちょうどいい相棒になるかもしれません 。
〇Pollo 2.0へのリンク
https://tinyurl.com/5bhk39m6
ということで、今回は動画生成AIのPollo 2.0の紹介でした。
参考になったら嬉しいです。
それではまた。


コメント