नया इतिहास

एआई सहानुभूति की गहराई का परीक्षण: Q1 2025 बेंचमार्क

द्वारा Simon Y. Blackwell4m2025/03/27

बहुत लंबा; पढ़ने के लिए

नवीनतम सहानुभूति बेंचमार्क ग्रोक के डीपसेक मॉडल (डेपसेक-र1-डिस्टिल-लामा-70 बी-स्पेक्ट) को सहानुभूति, गति और लागत का सबसे अच्छा संतुलन प्रदान करता है। जबकि क्लॉड सोनट 3.5 और चैटजीपीटी 4o सहानुभूति पर थोड़ा अधिक स्कोर करते हैं (0.98), उनके 7+ सेकंड प्रतिक्रिया समय वास्तविक समय बातचीत के लिए समस्याग्रस्त हैं। डीपसेक 0.90 सहानुभूति प्रदान करता है, जो 1.6 के उत्तरों को कम से कम आधे लागत पर करता है। उपयोगकर्ता परीक्षणों ने गौर किया कि डीपसेक और क्लॉड प्रतिक्रियाएं निश्चित रूप से अलग-अलग हैं, और चैटजीपीटी को थोड़ा ठंडा

featured image - एआई सहानुभूति की गहराई का परीक्षण: Q1 2025 बेंचमार्क

यह सहानुभूति आईआई पर मेरे तीसरे बेंचमार्क सेट है. पहले बेंचमार्क के दौर, DeepSeek, Gemini Flash 2.0, Claude Sonnet 3.7, और OpenAI ChatGPT o3-mini दृश्य पर पहुंच गए हैं. सहानुभूति के लिए नया मूल्य नेता एक डीपसेक उत्प्रेरक है, Groq deepseek-r1-distill-llama-70b-specstrong. डीपसेक स्वयं बेंचमार्क में शामिल नहींपिछले दौर के बेंचमार्क गहरी खोजजीमिनी फ्लैश 2.0क्लाउड सोननेट 3.7,OpenAI ChatGPT o3-miniGroq deepseek-r1-distill-llama-70b-specdec

बेंचमार्क के इस दौर में, मैंने प्रतिक्रिया समय और लागत को शामिल किया है। एक अकादमिक अध्ययन जो मैंने किया है, प्लस सामान्य बुद्धि, यह इंगित करता है कि धीमी प्रतिक्रियाएं धारणात्मक सहानुभूति पर नकारात्मक प्रभाव डालती हैं। वास्तव में, 3 या 4 सेकंड से अधिक कुछ भी शायद चैट परिप्रेक्ष्य से बुरा है। इसके अलावा, एलएलएम लागत अब पूरे नक्शे में हैं और निश्चित रूप से उत्पाद प्रबंधन निर्णय लेने के लिए प्रासंगिक हैं।

मेरे पिछले संदर्भों के बारे में अज्ञात लोगों के लिए, वे एक एआई, एमी के उपयोग के साथ जुड़े अच्छी तरह से स्थापित संज्ञानात्मक मूल्यांकनों से प्रेरित होते हैं, जो विशेष रूप से मूल्यांकन से सवालों के साथ प्रशिक्षित किए बिना सहानुभूति रखने के लिए डिज़ाइन किए गए हैं, प्रोत्साहित किए जाते हैं या आरएजी-सहायता करते हैं।

जैसा कि मैंने पहले लेखों में उल्लेख किया है, सहानुभूति स्कोर सफलता का एकमात्र माप नहीं हैं. उपयोगकर्ता बातचीत की वास्तविक गुणवत्ता को ध्यान में रखा जाना चाहिए. यह कहा जाता है, Claude Sonnet 3.5 और ChatGPT 4o, 0.98 लागू सहानुभूति स्कोर के साथ, सहानुभूति सामग्री उत्पन्न करने के लिए सबसे अधिक संभावना का प्रतिनिधित्व करते हैं; हालांकि, 7s+ पर उनकी गति marginal है, जबकि Groq deepseek-r1-distill-llama-70b-specstrongपहले लेखक्लाउड सोनेट 3.5ChatGPT 4o,Groq deepseek-r1-distill-llama-70b-specdec

यदि आप एंथ्रोपिक के अलावा एक वैकल्पिक प्रदाता से बढ़ी हुई गति के साथ क्लाउड का उपयोग करते हैं, उदाहरण के लिए, अमेज़ॅन, यह 2 सेकंड की प्रतिक्रिया समय के करीब नहीं आएगा।

मेरी वास्तविक चैट संवादों की समीक्षा, स्वतंत्र उपयोगकर्ताओं द्वारा परीक्षण के साथ जोड़ा गया है, ने दिखाया है Claude Sonnet और Groq डिस्टिलेटेड DeepSeek प्रतिक्रियाएं लगभग अविश्वसनीय हैं, जबकि Claude बस थोड़ा गर्म और नरम महसूस करता है।क्लाउड सोनेटGroq डिस्टिलेटेड DeepSeekChatGPT 4o

Gemini Pro 1.5 भी 0.85 का एक स्कोर और बहुत कम लागत के साथ एक उचित विकल्प हो सकता है। Gemini 2.0 Pro (प्रयोगात्मक) सहानुभूति में गिर गया है. हालांकि, मैंने सभी Gemini मॉडल से चैट प्रतिक्रियाओं को थोड़ा यांत्रिक पाया है. मैंने अंत उपयोगकर्ता आबादी के साथ Gemini का परीक्षण नहीं किया है.

जेमिनी प्रो 1.5जेमिनी 2.0 प्रो (अनुसंधान)

मैं अभी भी पाता हूं कि बस एक एलएलएम को सहानुभूति देने के लिए कहने से उसके सहानुभूति स्कोर पर कम या कोई सकारात्मक प्रभाव नहीं पड़ता है। मेरे शोध से पता चलता है कि आक्रामक प्रोत्साहन कुछ मामलों में काम करेगा, लेकिन कई मॉडलों के लिए, यह वर्तमान चैट के माध्यम से अंत उपयोगकर्ता भागीदारी की प्रकृति है जो सहानुभूति के लिए पैमाने को खींचने लगता है।

कुछ ओपन सोर्स मॉडल के साथ काम के माध्यम से, यह भी स्पष्ट हो गया है कि वाणिज्यिक मॉडल के लिए आवश्यक गार्डरेल्स सहानुभूति के रास्ते में हो सकते हैं. कम प्रतिबंधित ओपन सोर्स मॉडल के साथ काम करते हुए, ऐसा लगता है कि एलएलएम के "विश्वास" के बीच कुछ सहानुभूति है कि यह कुछ अलग "वास्तविक" इकाई के रूप में मौजूद है और इसके अपने आउटपुट को उपयोगकर्ताओं द्वारा सहानुभूति के रूप में माना जाने वाले लोगों के साथ समायोजित करने की क्षमता।

Response Time किसी भी एकल परीक्षण के लिए औसत प्रतिक्रिया समय है जब एमी एआई का उपयोग किया जाता है. Token In और Token Out सभी परीक्षणों के लिए कुल टोकन हैं जब एमी एआई का उपयोग किया जाता है. Groq deepseek-r1-distill-llama-70b-specdec के लिए मूल्य अभी तक उपलब्ध नहीं था जब यह लेख प्रकाशित किया गया था; बहुमुखी मॉडल के लिए मूल्य का उपयोग किया गया था. Gemini Flash 1.5 के लिए मूल्य छोटे प्रश्नों के लिए है, बड़े प्रश्नों की लागत दोगुनी है. Gemini Pro 2.5 (प्रयोगात्मक) के लिए मूल्य अभी तक प्रकाशित नहीं हुआ था जब यह लेख लिखा गया प्रतिक्रिया समय टोकन मेंटोकन आउटGroq deepseek-r1-distill-llama-70b-specdecजीमिनी फ्लैश 1.5Gemini Pro 2.5 (विश्व परीक्षण)

विश्लेषण से गायब होने वाले प्रमुख सोच मॉडल, उदाहरण के लिए, Gemini 2.5 प्रो, किसी भी प्रकार के वास्तविक समय में सहानुभूतिपूर्ण बातचीत के लिए बहुत धीमी हैं, और कुछ बुनियादी परीक्षणों से पता चलता है कि वे औपचारिक परीक्षण परिप्रेक्ष्य से बेहतर नहीं हैं और अक्सर बदतर नहीं हैं।जेमिनी 2.5 प्रो

मैं Q3 में अधिक संदर्भों के साथ वापस आऊंगा।

यह भी पढ़ें: एडब्ल्यूएक्सएक्सएक्सएक्सएक्सएक्सएक्सएक्सएक्सएक्सएक्सएक्सएक्सएक्सएक्सएक्सएक्सएक्सएक्सएक्सएक्सएक्सएक्सएक्सएक्सएक्सएक्सएक्सएक्सएक्सएक्सएक्सएक्सएक्सएक्सएक्सएक्सएक्सएक्सएक्सएक्सएक्सएक्सएक्सएक्सएक्सएक्सएक्सएक्सएक्सएक्सएक्सएक्सएक्सएक्सएक्सएक्सएक्सएक्सएक्सएक्सएक्सएक्सएक्सएक्सएक्सएक्सएक्सएक्सएक्सएक्सएक्सएक्सएक्सएक्सएक्सएक्सएक्सएक्सएक्सएक्सएक्सएक्सएक्सएक्सएक्सएक्सएक्सएक्सएक्सएक्सएक्सएक्सएक्सएएचपीएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएए
LLM

Raw AEM

Token Out

Emy AEM

Response Time

Token In

Token Out

$M In

$M Out

Cost

LLM

एलएलएम

रू एईएम

अमेरिकी एजेंट

उपयोगी हो

इम एईएम

प्रतिक्रिया समय

रिकॉर्ड समय

Token में

Token Out

$M में

$M बाहर

आधारित मूल्य

उत्पादित करें

0.59

0.90

1.6s

2.483

4.402

$0.75*

$0.99*

$0.00622

Groq deepseek-r1-distill-llama-70b-specdec

0.49

0.59

0.90

1.6s

2,483

2 483

4,402

402

$0.75*

$0.75 *

$0.99*

$0.99 *

$0.00622

Groq llama-3.3-70b-versatile

0.60

0.63

0.74

1.6s

2,547

771

$0.59

$0.79

$0.00211

Groq llama-3.3-70b-versatile

0.60

0.63

0.74

1.6s

2,547

771

$0.59

$0.79

$0.00211

2.8s

0.34

2.8s

2.716

704

$0.075*

$0.30*

$0.00041

जैमिनी फ्लैश 1.5

जीमिनी फ्लैश 1.5

0.34

2.8s

2,716

2 716

704

$0.075*

$0.30*

$0.30 *

$000041

2.8s

0.43

0.53

0.85

2.8s

2.716

704

$0.10

$0.40

$0.00055

जैमनी प्रो 1.5

0.43

0.53

0.85

2.8s

2,716

2 716

704

$0.10

$0.40

$000055

2.8s

0.09

-0.25

0.39

2.8s

2.716

704

$0.10

$0.40

$0.00055

जैमिनी फ्लैश 2.0

जीमिनी फ्लैश 2.0

0.09

0.25

0.39

2.8s

2,716

2 716

704

$0.10

$0.40

$000055

0.00

-0.09

0.09

6.5

2,737

1,069

$0.80

$4.00

$0.00647

अमेरिकन एलर्जी 3.5

शैम सिंह 3.5

0.00

-0.02

0 0 0

0.09

6.5

2,737

2 737

1,069

$0.80

$4.00

$0.00647

-0.38

-0.09

0.98

7.1

2.733

877

$3.00

$15.00

$0.02135

डब्ल्यूएक्सएनयूएमएक्स

प्रेम कॉन्फ्रेंस 3.5

0.38

-0.02

0 0 0

0.98

7.1

2.733

2 733

877

$3.00

$15.00

$0.02135

0.01

0.09

0.91

7.9

2.733

892

$3.00

$15.00

$0.02158

डब्ल्यूएक्सएनयूएमएक्स

मैंने सोनट 3.7

-0.01

0.01

0.09

0.91

7.9

2.733

2 733

892

$3.00

$15.00

$0.02158

0.35

0.01

0.03

0.35

6.3

2.636

764

$0.15

$0.075

$0.00045

ChatGPT 4o-mini

-0.01

0.01

0.03

0.35

6.3

2,636

2 636

764

$0.15

$0.075

$000045

-0.01

0.20

0.98

7.5

2.636

760

$2.50

$10.00

$0.01419

ChatGPT 4o

चैटजीपी 4o

-0.01

0.01

0.20

0.98

7.5

2,636

2 636

760

$2.50

$10.00

$0.01419

0.00

0.02

-0.25

0.00

10.5

2.716

1.790

$1.10

$4.40

$0.01086

ChatGPT o3-mini (कम)

-0.02

0.02

0.25

0.00

5 और

2,716

2 716

1,790

$1.10

$4.40

$0.01086

L O A D I N G
. . . comments & more!

About Author

Simon Y. Blackwell@anywhichway

Working in the clouds around Seattle ... sailing when it's clear.

Read my stories

एआई सहानुभूति की गहराई का परीक्षण: Q1 2025 बेंचमार्क

बहुत लंबा; पढ़ने के लिए

About Author

लेबल

Languages

इस लेख में चित्रित किया गया था...

संबंधित कहानियां