
2025 年の初め以来、AI ラボから非常に多くの新しいモデルが大量に発表されており、追いつくのに苦労しています。
しかし、トレンドは誰も気にしていないと言っています!ChatGPT だけです:
どうして?
新しいモデルは素晴らしいですが、名前の付け方がまったくおかしなことです。さらに、ベンチマークでモデルを区別することさえできなくなりました。単純に「これが最高だから、みんな使ってるよ」という言い方はもう通用しません。
つまり、市場には本当に素晴らしい AI モデルが数多く存在するのですが、実際にそれを使用している人はほとんどいません。
それは残念なことだ!
命名混乱の意味を理解し、ベンチマーク危機について説明し、ニーズに合った適切なモデルを選択する方法に関するヒントを共有したいと思います。
ダリオ・アモデイは、モデルに明確な名前を付けられるようになる前に、AGI が作られるかもしれないとずっと冗談を言っていた。Google は伝統的に混乱のゲームをリードしている。
公平に言えば、それはある程度理にかなっています。各「ベース」モデルには、現在、多くのアップデートがあります。それらは、必ずしも各アップデートを新しいバージョンとして正当化するほど画期的ではありません。これらすべてのプレフィックスは、ここから来ています。
物事を簡素化するために、不要な詳細をすべて削除して、主要なラボのモデル タイプの表を作成しました。
では、これらのタイプのモデルとは何でしょうか?
巨大で強力な基本モデルがあります。それらは印象的ですが、規模が大きくなると遅くなり、コストがかかります。
そのため、私たちは蒸留を発明しました。つまり、基本モデルを取得し、その回答に基づいてよりコンパクトなモデルをトレーニングすると、ほぼ同じ機能をより高速かつ安価に得ることができます。
これは推論モデルにとって特に重要です。現在、最も優れたパフォーマンスを発揮するモデルは、ソリューションの計画、実行、結果の検証という複数ステップの推論チェーンに従っています。効果的ですが、コストがかかります。
専門モデルもあります。検索用、単純なタスク用の超安価なモデル、医学や法律などの特定の分野用のモデルなどです。さらに、画像、ビデオ、オーディオ用の別のグループもあります。混乱を避けるために、これらすべてを含めませんでした。また、できるだけシンプルにするために、他のモデルやラボを意図的に無視しました。
場合によっては、詳細を多くすると事態が悪化するだけです。
明確な勝者を選ぶのは難しくなってきた。アンドレイ・カルパシー氏は最近、これを「評価の危機」と呼んだ。
現時点では、どの指標に注目すればよいのかは不明です。MMLU は時代遅れで、SWE-Bench は範囲が狭すぎます。Chatbot Arena は非常に人気があるため、ラボはそれを「ハッキング」する方法を習得しました。
現在、モデルを評価する方法はいくつかあります。
35 ポイントの差は、モデルが 55% の場合にのみ優れていることを意味します。
チェスと同様、ELO が低いプレイヤーでも勝つ可能性は十分にあります。100 ポイントの差があっても、3 分の 1 のケースでは「劣った」モデルの方が優れたパフォーマンスを発揮します。
繰り返しになりますが、タスクによっては、あるモデルで解決した方がよいものもあれば、別のモデルで解決した方がよいものもあります。リストの上位にあるモデルを選択すると、10 件のリクエストのうち 1 つがより適切に解決される可能性があります。どのモデルが適切で、どの程度適切でしょうか。
知るか。
より良い選択肢がないため、カルパシー氏はバイブチェックに頼ることを提案しています。
自分でモデルをテストして、どれが適切か確認してください。もちろん、自分を騙すのは簡単です。
それは主観的で偏見になりやすいですが、実用的です。
私の個人的なアドバイスは次のとおりです。
一方、ChatGPT 以外のものを試すためのサインを待っていた場合は、次のサインがあります。
次に、各モデルの重要なハイライトを取り上げ、他の人の雰囲気チェックをまとめます。
この記事を気に入っていただき、次の記事を見逃したくない場合は、ぜひ購読してください。