今回はXに搭載されている生成AI「Grok 2」について、わかりやすくご紹介していきます!Grok 2はX(旧Twitter)のAI開発会社であるxAIが提供するAIで、中でも画像生成能力について注目を浴びています。本記事では、Grok 2の概要や使い方、そして他の画像生成AIとの違いについても、具体例を交えながら解説していきます。
Xに搭載されたGrokとは?
Grok 2は、xAIが提供する次世代の生成AIです。単的に言うと、テキストと画像の両方を生成できるマルチモーダルAIとなります。基本的なUIはチャット形式で、テキストベースでの回答をしてくれつつ、画像生成ができる点はChatGPTやGeminiに類似している部分がありますね。
特に画像生成に関しては、「FLUX.1」という最新の画像生成エンジンを搭載しており、高精度でリアルな画像生成が得意です。Flux.1は「Stable Diffusion」の開発者たちによって設立されたBlack Forest Labs(ブラックフォレストラボ)によって開発されているため、複雑な画像だったり、細部の表現することに優れています。そのため、幅広い種類の画像を生成することが可能となっています。
Grok 2の注目ポイント
Grok 2の強みは画像生成だけではなく、推論、読解、数学、科学など幅広い能力にも優れています。下記は主要生成AIのELO Ratingを示していますが、ChatGPTやGemini、Claudeといった有名どころと比較してもその性能は同程度の水準にあります。
また以下に、Grok 2の注目すべきポイントをいくつか挙げていきましょう。
リアルタイム情報の統合
Grok 2はXのリアルタイム情報を活用できるため、最新のトピックやトレンドに関する情報に関しての応答が可能です。回答の中で、かなりリアルタイムな情報を反映した回答がなされることがありますし、関連するポストが出てくることもあります。
多様なモード
Grok 2には、ユーザーのニーズに応じて複数のモードが備わっています。例えば、「ユーモアモード」では軽いジョークを交えた回答が得られるので、回答内容が比較的軽い感じになります。ただ「ユーモアモード」では、翻訳したような文体が強く感じられますので、その点には注意が必要です。
Grok 2の使い方
続いて、Grok 2の使い方について説明していきます。まずGrok 2自体は、Xのプレミアムまたはプレミアムプラスのユーザーのみが利用できます。下記に示す通り、プレミアムは980円/月、プレミアムプラスは1960円/月となっています。grok 2を使用する目的であれば、プレミアムの方で十分です。

Grok 2へは、XアプリのGrokタブからアクセスすることが可能です(下記の左サイドバー上)。あとは中央の入力欄にプロンプト(指示事項)を入力するだけで使用可能です。

Grok 2の画像生成(FLUX.1)の特徴
続いて、Grok 2の画像生成機能(FLUX.1)に絞って、その特徴と制約事項や注意点について見ていきましょう。現時点(2024年10月)では、下記の特徴と注意点があると考えています。
主な特徴
- 生成速度が速い
- プロンプト入力後から画像生成まで数秒以内で、生成待ちのストレスが殆どない。
- 高品質で、特にリアル系に強い
- 基本的に幅広いジャンルの画像生成が可能だが、特にリアルな写真風の描写が得意。風景や人物などの精細な描写が可能。
- 日本語プロンプトにも対応(ただし改善の余地あり)
- プロンプトを日本語で入力しても概ね反映される。
- 一方で、単語によっては英訳が不適切であったり、そもそも反映されない場合もあり。
- 直感的で生成が簡単
- チャットベースのUIにテキストベースで指示するだけであり簡単。
制約や注意点
- 生成枚数は1枚ずつ
- 一度に複数枚生成するような仕様ではない。
- 画像サイズが変えられない
- やや横長サイズの1024×768ピクセルのみで、サイズ変更は不可。
- 機能が少ない
- 他の画像生成AIと比較すると、機能が少ない(例:インペイント編集がない、モデルがない、シード値が使えない)
- 出力可能な枚数に制約
- 2時間で20枚までの画像生成の制約がある
- プロンプトの文字数制限がきつめ
- プロンプトとして実際に反映されるのは500字以下程度
- 出力される画像の制約が緩い
- 自由度は比較的高めだが、出力した画像が既存の画像に類似しているかは確認する必要がある(仮に依拠性がなかったとしても、安全を見たほうが好ましい)
Grok 2での画像生成(FLUX.1)の事例
それでは、実際に生成した事例について見ていきましょう。今回はプロンプトを適宜変えながら、生成しています。「アニメ系」と「リアル系」に分けて、いずれも人物中心の画像を作成した事例について、下記で紹介していきます。
アニメ系のAIイラスト
特にプロンプトで画風を指定しない場合は、ありがちなアニメ系の画像になりますが、プロンプトを変更すれば色々と画風に幅が出てきます。少しリアル系のテイストを持たせた方が、高品質な画像が出力しやすい印象がありますね。









なお画風のプロンプトについては、下記記事にて紹介していますので、こちらもご覧ください。画像生成AIの種類の差によってプロンプトの反映の仕方はやや異なりますが、基本的にはChatGPT(DALL E3)と大きく変わりませんので、参考になるかと思います。


リアル系の画像
リアル系についてはかなり得意としていて、リアリティの高い画像を生成してくれます。特に生成AIが苦手としている、髪や肌の質感が自然で、また光の反射の仕方も柔らかさがあります。暗めの画像でも高画質な点にも特徴がありますね。



Grok 2の画像生成AI(FLUX.1)と他の画像生成AIとの比較
最後に、Grok 2の画像生成に関して、同じプロンプトにおいて他の画像生成との比較を行いましたので、生成例を紹介していきます。ここでは、ChatGPT (DALL E3)、にじジャーニー(Midjourny)との比較を行っています。なお、それぞれの使い方や特徴については下記記事にて紹介していますので、こちらもご覧ください。


それでは以下で2つのプロンプト例にて生成した結果を紹介します。
比較用プロンプト例 1 セーラー服の少女
一つ目の例は下記のような、比較的平易なプロンプトを用いた例です。
日本語:長いポニーテールの黒髪に赤い髪飾りをつけている女子。青いセーラー服を着て、学校の屋上で、風に髪がなびいている。背景には青空と流れる雲。スタイルは典型的な現代アニメ風で、少しメランコリックな表情。
prompt : high school girl with long black ponytail, red hair accessory, wearing a blue sailor uniform, on a school rooftop, hair flowing in the wind, blue sky and clouds in the background, typical modern anime style, slightly melancholic expression
生成結果は下記になっていて、左からGrok 2, ChatGPT, にじジャーニーとなっています。



- プロンプトへの忠実度:いずれの生成AIにおいてもプロンプトに対して忠実な結果と言えます。
- 画像の質:好みの問題はありますが、にじジャーニーは繊細かつ表現力高めで、それ比べるとGrok 2はややクラシックな印象を受けます。
比較用プロンプト例 2 猫耳の少女
2つ目の例は下記のような、若干複雑めのプロンプトとしています。
日本語:猫耳と尻尾を持つ少女。アニメ風。銀髪のストレートヘアで、ピンク色のカチューシャを着用。白とピンクの可愛らしいドレス。背景はカフェで、テーブルにはケーキがある。彼女は微笑みながら客にサービスしている。
prompt : cat-eared and tailed girl with silver straight hair, wearing a pink hairband, in a cute white and pink dress, serving a customer with a smile in a cafe setting, with a cake on the table. Emphasize the anime-style cuteness
同様に、左からGrok 2, ChatGPT, にじジャーニーの生成例となっています。



- プロンプトへの忠実度:いずれの生成AIにおいてもプロンプトに対して概ね忠実です。にじジャーニーだけ尻尾が反映されていない点くらいです。
- 画像の質:これも画風が違うので甲乙つけがたいですが、grok 2がイメージにはイメージに近いかなと思います。
このように同じプロンプトで比較してきましたが、最初の生成事例で見たように、grok 2でも画風の幅や表現の仕方はプロンプトで変更の余地があるため、この比較結果が全てではありません。どの画像生成AIでもプロンプトを極めていけば、高いレベルに持っていけるものと思います。
まとめ
本記事ではGrok 2の解説、特に画像生成について解説してきました。Grok 2は、テキストプロンプトから簡単に高品質な画像を生成できるだけでなく、他のAIと比較してもリアルタイム情報の統合やモードの多様さなど、優れた点が多い生成AIです。画像生成の速度、質、そして柔軟性においてGrok 2は非常にバランスが取れているかと思います。
AIイラストのプロンプトに関しては、下記記事でまとめていますので、よろしければこちらもどうぞ。

コメント