paint-brush
AI Empathyの深さをテストする:Q1 2025ベンチマーク@anywhichway
新しい歴史

AI Empathyの深さをテストする:Q1 2025ベンチマーク

Simon Y. Blackwell4m2025/03/27
Read on Terminal Reader

長すぎる; 読むには

最新の共感基準は、GroqのDeepSeekモデル(deepseek-r1-distill-llama-70b-specdec)が、共感、スピード、コストの最高のバランスを提供していることを明らかにしています。Cloude Sonnet 3.5とChatGPT 4oは共感(0.98)で少し高い点を示していますが、その7秒以上の応答時間はリアルタイムの相互作用に問題があります。DeepSeekは、コストの半分未満で0.90の共感を提供しています。ユーザーテストではDeepSeekとCloudeの応答はほぼ区別がつきません。ChatGPTは少し冷たい感じです。LLMに共感を教えるだけでは効果がありませんし、商用ガードライルは実際に共感の応答
featured image - AI Empathyの深さをテストする:Q1 2025ベンチマーク
Simon Y. Blackwell HackerNoon profile picture
0-item

This is my third set of benchmarks on empathetic AI. Since the the last round of benchmarks, DeepSeek, Gemini Flash 2.0, Claude Sonnet 3.7, and OpenAI ChatGPT o3-mini have arrived on the scene. The new value leader for empathy is a Deepseek derivative, Groq deepseek-r1-distill-llama-70b-specdecstrong>. DeepSeek itself was not included in the benchmarks because it had erratic response times that frequently exceeded 10s andベンチマークの最終回DeepSeek ジェミニ・フラッシュ 2.0クラウド・ソネット 3.7,OpenAI ChatGPT o3-miniGroq deepseek-r1-distill-llama-70b-specdec


このラウンドのベンチマークでは、私は応答時間とコストを含みました。私が行った学術研究と常識は、遅い応答が感知された共感に悪影響を与えることを示しているように見えます。実際には、3または4秒以上のものは、チャットの視点から悪くない可能性があります。さらに、LLMのコストは現在地図上にあり、製品管理の決定を下すことに特に関連しているように見えます。


私の以前のベンチマークに馴染みのない人々にとって、彼らはAI、Emyの使用と結びついて確立された認知評価によって駆動され、評価からの質問で訓練されず、促されたり、またはRAGによって助けられたことなく、特に共感するように設計されています。


私は 以前の記事で述べたように、共感のスコアは唯一の成功の尺度ではありません。実際のユーザーの相互作用の質は考慮する必要があります。これを言うと、Claude Sonnet 3.5ChatGPT 4o、0.98適用された共感のスコアで、共感のコンテンツを生成するための最大の可能性を示しているように見えます。しかし、7s+で彼らのスピードは限られている一方で、Groq deepseek-r1-distill-llama-70b-specstrong>は0.90sの共感のスコアを発揮し、1.6以前の記事クラウド・ソネット 3.5チャットGPT 4o,Groq deepseek-r1-distill-llama-70b-specdec


Anthropic 以外の代替プロバイダー(Amazon など)からのスピードアップで Claude を使用する場合でも、2 秒の応答時間に近づくことはありません。


私の実際のチャット対話のレビューは、独立したユーザーによるテストとともに、Claude SonnetおよびGroq蒸留されたDeepSeekの回答はほぼ見分けがつかないもので、Claudeは少しだけ温かくなり、柔らかくなったと感じています。クラウド・ソネットGroq ディストリート DeepSeekチャットGPT 4o


Gemini Pro 1.5はまた、0.85のスコアと非常に低いコストで合理的な選択かもしれません。 Gemini 2.0 Pro (実験的)は共感を低下させました。Gemini Pro 1.5Gemini 2.0 Pro (実験)


私は、単にLLMを共感するように言い続けることは、その共感のスコアにポジティブな影響をほとんどまたは全く与えていないことを発見し続けています。私の研究は、攻撃的な促進がいくつかのケースで働くことを示していますが、多くのモデルでは、現在のチャットを通じてエンドユーザーの関与の性質が、共感のスケールを踏み出しているように見えます。これらのケースでは、共感の必要性は非常に明確で、会話の中で「老化」しないでなければなりません、またはLLMsは、問題のシステム的な修正 / 解決法を見つけるモードに落ちます。


いくつかのオープンソースモデルと作業することで、商業モデルの要求されるガードレイルが共感の道に立ち入ることも明らかになりました。 より少なく制限されたオープンソースモデルと働くことで、LLMが何らかの異なる「現実」の実体として存在するという「信念」と、その出力をユーザーが共感的に認識するものと調和させる能力との間には、ある程度の関連性があるように見えます。


Response Time は、Emy AI が使用されている場合の 1 つのテストの平均応答時間です。 Token InToken Out は、Emy AI が使用されている場合のすべてのテストのトークンの合計です。 Groq deepseek-r1-distill-llama-70b-specdec の価格は、この記事が発表された時点ではまだ利用できませんでした。応答時間Token In Token Out Groq deepseek-r1-distill-llama-70b-specdecジェミニ・フラッシュ 1.5Gemini Pro 2.5 (実験)


分析から欠けている主要な思考モデル、例えば、「Gemini 2.5 Pro」は、あらゆる種類のリアルタイムの共感的な相互作用に遅すぎており、いくつかの基本的なテストでは、正式なテストの観点からより良く、しばしば悪くないことが示されています。ジェミニ 2.5 Pro


私はQ3でより多くのベンチマークを持って戻ってきます。


ココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココ























































LLM

LLM

Raw AEM

Raw AEM










Be Empathetic

エイミー・AEM

エイミー・エイミー

応答時間

応答時間

トークイン

Token In

Token Out

Token Out

$M


$M

$M Out

$M Out

コスト

コスト

Groq deepseek-r1-distill-llama-70b-specdec

Groq deepseek-r1-distill-llama-70b-specdec

0.49


0.49


0.59


0.59


0.90


0.90



1.6s

2483

2483

4402

4402




$0.75*




$0.99*




$0.00622

トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ >

Groq llama-3.3-70b-versatile

Groq llama-3.3-70b-versatile


0.60


0.60

トップ > トップ > トップ > トップ > トップ > トップ >

0.63



0.74



1.6s

トップ > トップ > トップ > トップ > トップ > トップ > トップ >

2547

771

771




$0.59




$0.79




$0.00211

トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ >

Gemini Flash 1.5

ジェミニ・フラッシュ 1.5

0.34

0.34

0.34

0.34

0.34

0.34

2.8s

2.8s

2 716

2 716

704

704






$0.075*



$0.30*



$000041

トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ >

Gemini Pro 1.5

ジェミニ・プロ 1.5

トップ > トップ > トップ > トップ > トップ > トップ >

0.43

トップ > トップ > トップ > トップ > トップ >

0.53


0.85


0.85

2.8s

2.8s

2 716

2 716

704

704




$0.10




$0.40






$000055

トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ >

Gemini Flash 2.0

ジェミニ・フラッシュ 2.0

トップ > トップ > トップ > トップ > トップ > トップ >

0.09



0.25

トップ > トップ > トップ > トップ > トップ >

0.39

2.8s

2.8s

2 716

2 716

704

704




$0.10




$0.40






$000055

トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ >トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ >

エリザベス・ハイク 3.5


0.00

トップ > トップ > トップ > トップ > トップ > トップ >

0.09

トップ > トップ > トップ > トップ > トップ > トップ >

0.09

6



6.5

トップ > トップ > トップ > トップ > トップ >

277

トップ > トップ > トップ > トップ > トップ > トップ >

069




$0.80




$4.00

$0.00647

$0.00647

トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ >トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ >

コール・ソネット 3.5

0.38


0.38

トップ > トップ > トップ > トップ > トップ > トップ >

0.09

トップ > トップ > トップ > トップ > トップ > トップ >

0.98



7.1

トップ > トップ > トップ > トップ > トップ > トップ >

2 733

877

877





$3.00

トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ >

1500ドル






$0.02135

トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ >トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ >

コール・ソネット 3.7


0.01

トップ > トップ > トップ > トップ > トップ > トップ >

0.09


0.91


0.91

トップ > トップ > トップ > トップ > トップ >

7.9

トップ > トップ > トップ > トップ > トップ > トップ >

2 733

892

892




$3.00

トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ >

1500ドル

$0.02158

$0.02158

トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ >

ChatGPT 4o-mini

ChatGPT 4o-mini


0.01

0.03

0.03

トップ > トップ > トップ > トップ > トップ > トップ >

0.35



6.3

2 636

2 636

764

764




$0.15






$0.075




$000045

トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ >トップ > トップ > トップ > トップ > トップ > トップ > トップ >

チャットGPT 4o


0.01

トップ > トップ > トップ > トップ > トップ >

0.20

トップ > トップ > トップ > トップ > トップ > トップ >

0.98



5

2 636

2 636

760

760

$2.50

$2.50




$10ドル





$0.01419

トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ >

ChatGPT o3-mini (低)

ChatGPT o3-mini (低)


0.02



0.25



0.00



5


5

2 716

2 716

トップ > トップ > トップ > トップ >

790




$1.10






$4.40






$0.01086