paint-brush
एआई सहानुभूति की गहराई का परीक्षण: Q1 2025 बेंचमार्कद्वारा@anywhichway
नया इतिहास

एआई सहानुभूति की गहराई का परीक्षण: Q1 2025 बेंचमार्क

द्वारा Simon Y. Blackwell4m2025/03/27
Read on Terminal Reader

बहुत लंबा; पढ़ने के लिए

नवीनतम सहानुभूति बेंचमार्क ग्रोक के डीपसेक मॉडल (डेपसेक-र1-डिस्टिल-लामा-70 बी-स्पेक्ट) को सहानुभूति, गति और लागत का सबसे अच्छा संतुलन प्रदान करता है। जबकि क्लॉड सोनट 3.5 और चैटजीपीटी 4o सहानुभूति पर थोड़ा अधिक स्कोर करते हैं (0.98), उनके 7+ सेकंड प्रतिक्रिया समय वास्तविक समय बातचीत के लिए समस्याग्रस्त हैं। डीपसेक 0.90 सहानुभूति प्रदान करता है, जो 1.6 के उत्तरों को कम से कम आधे लागत पर करता है। उपयोगकर्ता परीक्षणों ने गौर किया कि डीपसेक और क्लॉड प्रतिक्रियाएं निश्चित रूप से अलग-अलग हैं, और चैटजीपीटी को थोड़ा ठंडा
featured image - एआई सहानुभूति की गहराई का परीक्षण: Q1 2025 बेंचमार्क
Simon Y. Blackwell HackerNoon profile picture
0-item

यह सहानुभूति आईआई पर मेरे तीसरे बेंचमार्क सेट है. पहले बेंचमार्क के दौर, DeepSeek, Gemini Flash 2.0, Claude Sonnet 3.7, और OpenAI ChatGPT o3-mini दृश्य पर पहुंच गए हैं. सहानुभूति के लिए नया मूल्य नेता एक डीपसेक उत्प्रेरक है, Groq deepseek-r1-distill-llama-70b-specstrong. डीपसेक स्वयं बेंचमार्क में शामिल नहींपिछले दौर के बेंचमार्क गहरी खोजजीमिनी फ्लैश 2.0क्लाउड सोननेट 3.7,OpenAI ChatGPT o3-miniGroq deepseek-r1-distill-llama-70b-specdec


बेंचमार्क के इस दौर में, मैंने प्रतिक्रिया समय और लागत को शामिल किया है। एक अकादमिक अध्ययन जो मैंने किया है, प्लस सामान्य बुद्धि, यह इंगित करता है कि धीमी प्रतिक्रियाएं धारणात्मक सहानुभूति पर नकारात्मक प्रभाव डालती हैं। वास्तव में, 3 या 4 सेकंड से अधिक कुछ भी शायद चैट परिप्रेक्ष्य से बुरा है। इसके अलावा, एलएलएम लागत अब पूरे नक्शे में हैं और निश्चित रूप से उत्पाद प्रबंधन निर्णय लेने के लिए प्रासंगिक हैं।


मेरे पिछले संदर्भों के बारे में अज्ञात लोगों के लिए, वे एक एआई, एमी के उपयोग के साथ जुड़े अच्छी तरह से स्थापित संज्ञानात्मक मूल्यांकनों से प्रेरित होते हैं, जो विशेष रूप से मूल्यांकन से सवालों के साथ प्रशिक्षित किए बिना सहानुभूति रखने के लिए डिज़ाइन किए गए हैं, प्रोत्साहित किए जाते हैं या आरएजी-सहायता करते हैं।


जैसा कि मैंने पहले लेखों में उल्लेख किया है, सहानुभूति स्कोर सफलता का एकमात्र माप नहीं हैं. उपयोगकर्ता बातचीत की वास्तविक गुणवत्ता को ध्यान में रखा जाना चाहिए. यह कहा जाता है, Claude Sonnet 3.5 और ChatGPT 4o, 0.98 लागू सहानुभूति स्कोर के साथ, सहानुभूति सामग्री उत्पन्न करने के लिए सबसे अधिक संभावना का प्रतिनिधित्व करते हैं; हालांकि, 7s+ पर उनकी गति marginal है, जबकि Groq deepseek-r1-distill-llama-70b-specstrongपहले लेखक्लाउड सोनेट 3.5ChatGPT 4o,Groq deepseek-r1-distill-llama-70b-specdec


यदि आप एंथ्रोपिक के अलावा एक वैकल्पिक प्रदाता से बढ़ी हुई गति के साथ क्लाउड का उपयोग करते हैं, उदाहरण के लिए, अमेज़ॅन, यह 2 सेकंड की प्रतिक्रिया समय के करीब नहीं आएगा।


मेरी वास्तविक चैट संवादों की समीक्षा, स्वतंत्र उपयोगकर्ताओं द्वारा परीक्षण के साथ जोड़ा गया है, ने दिखाया है Claude Sonnet और Groq डिस्टिलेटेड DeepSeek प्रतिक्रियाएं लगभग अविश्वसनीय हैं, जबकि Claude बस थोड़ा गर्म और नरम महसूस करता है।क्लाउड सोनेटGroq डिस्टिलेटेड DeepSeekChatGPT 4o


Gemini Pro 1.5 भी 0.85 का एक स्कोर और बहुत कम लागत के साथ एक उचित विकल्प हो सकता है। Gemini 2.0 Pro (प्रयोगात्मक) सहानुभूति में गिर गया है. हालांकि, मैंने सभी Gemini मॉडल से चैट प्रतिक्रियाओं को थोड़ा यांत्रिक पाया है. मैंने अंत उपयोगकर्ता आबादी के साथ Gemini का परीक्षण नहीं किया है.

जेमिनी प्रो 1.5जेमिनी 2.0 प्रो (अनुसंधान)


मैं अभी भी पाता हूं कि बस एक एलएलएम को सहानुभूति देने के लिए कहने से उसके सहानुभूति स्कोर पर कम या कोई सकारात्मक प्रभाव नहीं पड़ता है। मेरे शोध से पता चलता है कि आक्रामक प्रोत्साहन कुछ मामलों में काम करेगा, लेकिन कई मॉडलों के लिए, यह वर्तमान चैट के माध्यम से अंत उपयोगकर्ता भागीदारी की प्रकृति है जो सहानुभूति के लिए पैमाने को खींचने लगता है।


कुछ ओपन सोर्स मॉडल के साथ काम के माध्यम से, यह भी स्पष्ट हो गया है कि वाणिज्यिक मॉडल के लिए आवश्यक गार्डरेल्स सहानुभूति के रास्ते में हो सकते हैं. कम प्रतिबंधित ओपन सोर्स मॉडल के साथ काम करते हुए, ऐसा लगता है कि एलएलएम के "विश्वास" के बीच कुछ सहानुभूति है कि यह कुछ अलग "वास्तविक" इकाई के रूप में मौजूद है और इसके अपने आउटपुट को उपयोगकर्ताओं द्वारा सहानुभूति के रूप में माना जाने वाले लोगों के साथ समायोजित करने की क्षमता।


Response Time किसी भी एकल परीक्षण के लिए औसत प्रतिक्रिया समय है जब एमी एआई का उपयोग किया जाता है. Token In और Token Out सभी परीक्षणों के लिए कुल टोकन हैं जब एमी एआई का उपयोग किया जाता है. Groq deepseek-r1-distill-llama-70b-specdec के लिए मूल्य अभी तक उपलब्ध नहीं था जब यह लेख प्रकाशित किया गया था; बहुमुखी मॉडल के लिए मूल्य का उपयोग किया गया था. Gemini Flash 1.5 के लिए मूल्य छोटे प्रश्नों के लिए है, बड़े प्रश्नों की लागत दोगुनी है. Gemini Pro 2.5 (प्रयोगात्मक) के लिए मूल्य अभी तक प्रकाशित नहीं हुआ था जब यह लेख लिखा गया प्रतिक्रिया समय टोकन मेंटोकन आउटGroq deepseek-r1-distill-llama-70b-specdecजीमिनी फ्लैश 1.5Gemini Pro 2.5 (विश्व परीक्षण)


विश्लेषण से गायब होने वाले प्रमुख सोच मॉडल, उदाहरण के लिए, Gemini 2.5 प्रो, किसी भी प्रकार के वास्तविक समय में सहानुभूतिपूर्ण बातचीत के लिए बहुत धीमी हैं, और कुछ बुनियादी परीक्षणों से पता चलता है कि वे औपचारिक परीक्षण परिप्रेक्ष्य से बेहतर नहीं हैं और अक्सर बदतर नहीं हैं।जेमिनी 2.5 प्रो


मैं Q3 में अधिक संदर्भों के साथ वापस आऊंगा।


यह भी पढ़ें: एडब्ल्यूएक्सएक्सएक्सएक्सएक्सएक्सएक्सएक्सएक्सएक्सएक्सएक्सएक्सएक्सएक्सएक्सएक्सएक्सएक्सएक्सएक्सएक्सएक्सएक्सएक्सएक्सएक्सएक्सएक्सएक्सएक्सएक्सएक्सएक्सएक्सएक्सएक्सएक्सएक्सएक्सएक्सएक्सएक्सएक्सएक्सएक्सएक्सएक्सएक्सएक्सएक्सएक्सएक्सएक्सएक्सएक्सएक्सएक्सएक्सएक्सएक्सएक्सएक्सएक्सएक्सएक्सएक्सएक्सएक्सएक्सएक्सएक्सएक्सएक्सएक्सएक्सएक्सएक्सएक्सएक्सएक्सएक्सएक्सएक्सएक्सएक्सएक्सएक्सएक्सएक्सएक्सएक्सएक्सएक्सएएचपीएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएए

LLM

Raw AEM

Token Out

Emy AEM

Response Time

Token In


Token Out


$M In


$M Out


Cost



LLM

एलएलएम

रू एईएम

अमेरिकी एजेंट

उपयोगी हो

उपयोगी हो

इम एईएम

इम एईएम

प्रतिक्रिया समय

रिकॉर्ड समय

Token में

Token में

Token Out

Token Out

$M में

$M में

$M बाहर

$M बाहर

आधारित मूल्य

उत्पादित करें

0.59

0.90

1.6s

2.483

4.402

$0.75*

$0.99*


$0.00622








Groq deepseek-r1-distill-llama-70b-specdec

Groq deepseek-r1-distill-llama-70b-specdec

0.49

0.49

0.59

0.59

0.90

0.90

1.6s

1.6s

2,483

2 483

4,402

402

$0.75*

$0.75 *

$0.99*

$0.99 *

$0.00622

$0.00622


Groq llama-3.3-70b-versatile

0.60

0.63

0.74

1.6s

2,547

771

$0.59


$0.79

$0.00211



Groq llama-3.3-70b-versatile

Groq llama-3.3-70b-versatile

0.60

0.60

0.63

0.63

0.74

0.74

1.6s

1.6s

2,547

2,547

771

771

$0.59

$0.59

$0.79

$0.79

$0.00211

$0.00211

2.8s

0.34

0.34

0.34

2.8s

2.716

704

$0.075*

$0.30*


$0.00041

जैमिनी फ्लैश 1.5

जीमिनी फ्लैश 1.5

0.34

0.34

0.34

0.34

0.34

0.34

2.8s

2.8s

2,716

2 716

704

704

$0.075*

$0.075*

$0.30*

$0.30 *

$000041

$000041

2.8s

0.43

0.53

0.85

2.8s

2.716

704

$0.10

$0.40

$0.00055

जैमनी प्रो 1.5

जैमनी प्रो 1.5

0.43

0.43

0.53

0.53

0.85

0.85

2.8s

2.8s

2,716

2 716

704

704

$0.10

$0.10

$0.40

$0.40

$000055

$000055

2.8s

0.09

-0.25

0.39

2.8s

2.716

704

$0.10

$0.40


$0.00055

जैमिनी फ्लैश 2.0

जीमिनी फ्लैश 2.0

0.09

0.09

0.25

0.25

0.39

0.39

2.8s

2.8s

2,716

2 716

704

704

$0.10

$0.10

$0.40

$0.40

$000055

$000055



0.00

-0.09

0.09

6.5

2,737

1,069

$0.80

$4.00


$0.00647

अमेरिकन एलर्जी 3.5

शैम सिंह 3.5

0.00

0.00

-0.02

0 0 0

0.09

0.09

6.5

6.5

2,737

2 737

1,069

1,069

$0.80

$0.80

$4.00

$4.00

$0.00647

$0.00647



-0.38

-0.09

0.98

7.1

2.733

877

$3.00

$15.00


$0.02135

डब्ल्यूएक्सएनयूएमएक्स

प्रेम कॉन्फ्रेंस 3.5

0.38

0.38

-0.02

0 0 0

0.98

0.98

7.1

7.1

2.733

2 733

877

877

$3.00

$3.00

$15.00

$15.00

$0.02135

$0.02135



0.01

0.09

0.91

7.9

2.733

892

$3.00

$15.00

$0.02158

डब्ल्यूएक्सएनयूएमएक्स

मैंने सोनट 3.7

-0.01

0.01

0.09

0.09

0.91

0.91

7.9

7.9

2.733

2 733

892

892

$3.00

$3.00

$15.00

$15.00

$0.02158

$0.02158

0.35

0.01

0.03

0.35

6.3

2.636

764

$0.15

$0.075


$0.00045

ChatGPT 4o-mini

ChatGPT 4o-mini

-0.01

0.01

0.03

0.03

0.35

0.35

6.3

6.3

2,636

2 636

764

764

$0.15

$0.15

$0.075

$0.075

$000045

$000045



-0.01

0.20

0.98

7.5

2.636

760

$2.50

$10.00


$0.01419

ChatGPT 4o

चैटजीपी 4o

-0.01

0.01

0.20

0.20

0.98

0.98

7.5

7.5

2,636

2 636

760

760

$2.50

$2.50

$10.00

$10.00

$0.01419

$0.01419

0.00

0.02

-0.25

0.00

10.5

2.716

1.790

$1.10

$4.40


$0.01086


ChatGPT o3-mini (कम)

ChatGPT o3-mini (कम)

-0.02

0.02

0.25

0.25

0.00

0.00

5

5 और

2,716

2 716

1,790

1,790

$1.10

$1.10

$4.40

$4.40

$0.01086

$0.01086