メインコンテンツまでスキップ

🌟 2-4 生成AIモデルの特徴

生成AIの最適なモデルを選ぶ

生成AIには様々なモデルがあり、どれが一番良いのか迷う方も多いのではないでしょうか?AskDonaでも、GeminiChatGPTClaude など主要なモデルをご利用いただけますが、「結局どれが一番いいのか?」という質問をよくいただきます。

実際のところ、日々新しい高性能モデルが登場する中で、生成AIを単純に比較するのは容易ではありません。それぞれのモデルには得意・不得意があり、ユーザーの好みや用途によって最適なモデルは異なります。

生成AIモデル選びは、スマートフォンの機種選びに似ています。どのメーカーのスマートフォンも基本的に電話やアプリが使えますが、性能や機能を細かく見ていくと違いがあるのと同様に、生成AIモデルも、それぞれ異なる特徴を持っています。


生成AIモデルの性能比較

LLMの性能を客観的に比較・評価する方法はいくつかあります。

  • Chatbot Arena: Chatbot Arena: AI業界で有名なLLM性能比較プラットフォーム。Chatbot Arena LLM Leaderboard で最新のランキングを確認できます。
ちなみに

2024年11月19日現在、Google社の最新モデル「Gemini-Exp-1114」がOpenAI社のモデルを抜き1位を獲得していることがSNSでは話題となっており、Chatbot Arenaは最新モデルの性能を示す登竜門的な存在となっています。

  • コンテキストウィンドウ: 生成AIが一度に処理できる情報量。

    • Gemini (1Mトークン) > Claude (200Kトークン) > GPT-4o (128Kトークン)
    • 理論的には、Geminiはより多くの情報を保持・処理できます。
  • コード生成 (HumanEval): コーディング能力を測るベンチマーク。

    • Claude (92%) > GPT-4o (90.2%) > Gemini (71.9%)
  • 大規模マルチタスク言語理解 (MMLU): 様々な科目におけるLLMの理解度を測るベンチマーク。

    • GPT-4oClaude 3.5 Sonnet は同等のスコア。一般的な推論タスクにはどちらも有効。
HumanEvalとは?

HumanEval(ヒューマンエバル)は、人工知能(AI)や機械学習の分野で使用される評価指標の一つです。特に、AIモデルのプログラミング能力を測定するためのベンチマークとして広く活用されています。

  • 「Human」は人間を、「Eval」はevaluation(評価)の略を意味します。
  • HumanEvalは、関数の説明文やドキュメントを基に、AIモデルにプログラムコードを生成させ、その正確性を評価します。

この評価方法は、AIモデルのコード生成能力を人間のプログラマーのスキルと比較する上で重要な指標です。さらに、様々な大規模言語モデル(LLM)の性能比較にも使用されています。

例えば、HumanEvalを利用して、あるAIモデルが与えられた課題に対してどれだけ正確にプログラムを生成できるかを数値化し、他のモデルと比較することができます。このように、AIモデルの能力を定量的に把握するための重要なツールとして注目されています。


モデル選択時のポイント

回答に満足できない場合はいくつかのモデルを試してみることを推奨しています。特にコーディングなど正解が存在するときは、モデルの推論力が試させる場合が多いです。みなさんもお気に入りのモデルを見つけられるようどんどん色んなモデルを試してみてくださいね。