今回は、ChatGPTの新モデルであるGPT-4oについて取り上げます。前の記事で、DALL-E3での画像生成において、どのような変化があったのか解説しましたが、今回は言語的な出力(テキスト出力)に関して説目していきます!
前回記事では画像生成に関する性能に焦点を当てていますので、よろしければこちらもどうぞ。

それでは、GPT-3.5, GPT-4, GPT-4oの具体的な出力結果を事例に挙げて、性能の違いについて説明します。
GPT-3.5, GPT-4, GPT-4oでの言語出力結果の違い
それでは、GPT-4oになって、テキストの出力性能はこれまでと比べてどう変わったのでしょうか?
(1)真面目な文章、(2)ネットスラングな文章、それぞれについて実際に検証していきました。
(1) 真面目な文章
プロンプト「生成AIが世の中に与える影響について300-400字程度でまとめてください。」として、各モデルでの生成結果をまとめてみました。
GPT-3.5を用いたときの生成結果

話題の切り口としては妥当で、一般的に必要な内容を網羅しているかと思います。しかしながら、以前にも感じたことですが、GPT3.5は文章の抽象度が高い言い回しが多く、結局何ができるのかが分かりにくい部分が多いです。
例えば、「生成AIは人とのコミュニケーションを変革します。より自然な会話や対話が可能になり、顧客サポートや教育、エンターテインメントなどの分野で革新的なアプリケーションが生まれます」とありますが、具体的に革新的なアプリケーションがイメージできるだけの情報がないため、漠然と新しいことが出来るイメージだけしか残りません。「凄いのは分かったけど、結局何が出来るの?」って思ってしまいます。
また説明の文頭に「生成AIは~」という言葉を繰り返し使用しており、これも日本語としてはやや不自然な印象を与えるとともに、まだまだ機械的な文章と感じます。
GPT-4を用いたときの生成結果

GPT-3.5の結果を見てからだと、GPT-4の生成する文章は内容が広範かつ具体性が増していることが分かるかと思います。同じ教育に該当する部分を例にとると、「教育分野では、生成AIがカスタマイズされた学習材料やチュートリアルを提供することで、学習者一人ひとりのニーズに応じたサポートが可能になりました。これにより、個別指導が手軽に実現できるようになっています。」と具体例を挙げて踏み込んだ内容になっています。
語彙も豊富で、より文語的な言い回しが多く見受けられます。また、文頭の表現も画一的ではなく、自然な感じを受けますね。文章の生成速度は正直遅いですが、GPT-4の時点でクォリティはかなり高くなっているかと思います。ただ、生成速度がやはり遅いのは気にかかります。
GPT-4oを用いたときの生成結果

ぱっと見はGPT-4と同レベルの広範で具体性の高い文章が、高速で生成されるようになった印象です。ただ細かい点では何点か違いがありますので、以下に列挙します。
- GPT-4では、「これにより~」という表現が多用されていたが、GPT-4oでは見られない。これは簡潔な文章においては冗長で間延びした表現なので、GPT-4oでは割愛されていると考えられる。
- GPT-4は文章の中で、訳語のような言い回しを感じさせることがあるが、GPT-4oは相対的に、より日本語として自然な表現が多いと感じる。
- 使用される語彙が、より平均的な日本の文章に近づいた印象がある。GPT-4はやや硬い語彙を使うことが多いように思われる。
(2) ネットスラングな文章
GPT-4oはネットスラングが得意という話があったので、こちらについても試してみました。プロンプト「リアルな「嘘松」に相当するTwitter投稿を3つ作成してください。」としています。
GPT-3.5を用いたときの生成結果

1つ目は何が言いたいのか分からないですし、2つ目は方向性としては合っていますが、表現が弱いですね。総じて嘘松感は弱く、出直しが必要かと思われます。
GPT-4を用いたときの生成結果

内容的にはそれっぽいですし、ハッシュタグもついてtwitter(現X)らしくなっており、悪くはないです。ただまだまだ品質面では向上する余地があるように思われます。
GPT-4oを用いたときの生成結果

更にアカウント名や絵文字が追加され、twitter感が増しています。内容面も悪くはないのですが、嘘としてはありがちというか、やっぱり作った感が拭えないですね。本物の「嘘松」から感じられる、変に荒唐無稽な感じだったり、あふれ出るスピード感が再現できていないので、そういったニュアンスを捉えられるレベルには至っていないのかもしれません。まあ、だからといってAIがその領域に至る必要性なんて、あんまりないような気もしますが。
まとめ
GPT-4oについて、これまでのモデルとテキスト生成について比較を行いました。GPT-4に比べても、文章の自然さは増していますし、品質も高いように思います。しかも生成速度も速いですし、真っ当に進歩していると感じました。ただハルシネーションは相変わらず出る場合がありますので、信ぴょう性の確認は逐一必要かなと思います。
コメント