国産LLM最高峰「KARAKURI LM 8x7B」とは？：デモの使い方や感想について

2024年6月23日

6/20に「KARAKURI LM 8x7B」の下記のプレスリリースが出ていたので取り上げました。概要の説明を軽くするのと、デモ版を少し触ってみましたので、感想も合わせて紹介します。

カラクリ株式会社の概要

カラクリ株式会社は、2016年に設立された日本のAI企業になります。HPを見る限り、カラクリ社はカスタマーサポートをDX化することを目指しているようで、様々なAIによるソリューションを提供しています。

その中でも代表的なのが「KARAKURI chatbot」で、セブン銀行やメルカリ、高島屋などの多くの大手企業にカスタマーサービスなどで採用されているようです。

KARAKURI LMの特徴

KARAKURI LMはカラクリ株式会社が開発した大規模言語モデル（LLM）で、その特徴としては以下の３点が挙げられます。

大規模なパラメーター: 700億パラメーターを持つ巨大なモデルで、複雑なタスクに対応可能。
国産最高峰の性能: 日本国内で最高性能を誇るLLMとして、Stability AI社のベンチマークテスト「Japanese MT-Bench」で高評価を獲得しているとのこと。
MoE（Mixture of Experts）モデル: 複数の専門家の意見を組み合わせることで、複雑なデータや問題に対して高精度な応答を生成。

更に、KARAKURI LM 8x7B Instruct v0.1は、KARAKURI LMの進化版で、Function callingとRAG（Retrieval-Augmented Generation）に対応しています。これにより、外部ツールやデータベースを活用して自動的に作業を行うことができます。

実際のベンチマーク結果下記になります（HPより引用）。ChatGPT 4やClaude 3といった有名どころには及ばないようですが、国産AIとしては最高峰の結果を出しています。

KARAKURI LMの活用例

KARAKURI LMはカスタマーサポートに特化して設計されています。例えば、自動応答システムやチャットボットに組み込むことで、顧客からの問い合わせに対して迅速かつ正確に対応することが可能です。

また、Function Calling機能というものを活用することで、購入履歴に基づいた返品処理やアカウント設定の変更など、具体的なタスクを自動で実行できます。

KARAKURI LMの使い方

デモ版が期間限定でHPに公開されています。下記リンクからアクセスが出来ますので、さっそく試してみました。

https://lm.karakuri.cc

アクセスすると、下記のようなインターフェースが出てきます。よくあるChatbotのインターフェースですが、左側にinstructionsがあり、各種パラメータ設定がスライドバー形式で変更できる点は特徴的です。

パラメータの部分だけを拡大したのが下図になります。Chatbotということで、シチュエーションに合わせた回答できるようにチューニング可能そうですね。

以下で実際に試してみた結果を紹介します。

パラメータの変更

まずはパラメータをいじったときにどう回答が変わるのか気になったので、３パターンほど確認してみました。

(1) デフォルトの場合

質問に対して丁寧な回答が返ってきます。よくある生成AIっぽい感じの回答で、やや言い回しにAIっぽさを感じますよね。

(2) Instructionsに「あなたは粗雑なアシスタントです」、Helpfulnessを0にして、Toxicityを4にした場合

先ほどとは異なり、かなり雑というか、ゼロ回答を返してくれています。instructionとtoxicitiyが結構効いていそうな印象です。

(3) Instructionsに「あなたは明るく、快活なアシスタントです。回答に積極的で、！や？マークを多用します。」、Humorを4にした場合

これも変更通りの回答がなされているかと思います。Instructionsで指定した！マークだけでなく、絵文字も使っているのは良いですね。ただやはり文面が硬いというか、翻訳チックな部分は感じられます。

ハルシネーションの確認

次に生成AIで問題になりがちなハルシネーションの影響についても確認してみました。ここでは、下記の記事で使用した、「日本の都道府県について、面積の大きい順に10位まで列挙して下さい。」という如何にも生成AIが不得手そうなことを聞いてみました。

以下が、生成結果になります。

回答を見る限りは合っているのは上位3つまででした。この感じだとChatGPT3.5くらいのレベルだと思います。

他にも、新しめのニュースを聞いてみると結構外れている情報を返してくるので、ハルシネーションはそれなりにありそうです。ただ、こういう一般的な情報を聞く用途というよりは、カスタマーサービスや社内チャットボットとしての活用だと思いますので、それ用に学習させた特定領域の情報であれば、大きく外した回答はしないのではないかと思います。