
यह सहानुभूति आईआई पर मेरे तीसरे बेंचमार्क सेट है. पहले बेंचमार्क के दौर, DeepSeek, Gemini Flash 2.0, Claude Sonnet 3.7, और OpenAI ChatGPT o3-mini दृश्य पर पहुंच गए हैं. सहानुभूति के लिए नया मूल्य नेता एक डीपसेक उत्प्रेरक है, Groq deepseek-r1-distill-llama-70b-specstrong. डीपसेक स्वयं बेंचमार्क में शामिल नहींपिछले दौर के बेंचमार्क गहरी खोजजीमिनी फ्लैश 2.0क्लाउड सोननेट 3.7,OpenAI ChatGPT o3-miniGroq deepseek-r1-distill-llama-70b-specdec
बेंचमार्क के इस दौर में, मैंने प्रतिक्रिया समय और लागत को शामिल किया है। एक अकादमिक अध्ययन जो मैंने किया है, प्लस सामान्य बुद्धि, यह इंगित करता है कि धीमी प्रतिक्रियाएं धारणात्मक सहानुभूति पर नकारात्मक प्रभाव डालती हैं। वास्तव में, 3 या 4 सेकंड से अधिक कुछ भी शायद चैट परिप्रेक्ष्य से बुरा है। इसके अलावा, एलएलएम लागत अब पूरे नक्शे में हैं और निश्चित रूप से उत्पाद प्रबंधन निर्णय लेने के लिए प्रासंगिक हैं।
मेरे पिछले संदर्भों के बारे में अज्ञात लोगों के लिए, वे एक एआई, एमी के उपयोग के साथ जुड़े अच्छी तरह से स्थापित संज्ञानात्मक मूल्यांकनों से प्रेरित होते हैं, जो विशेष रूप से मूल्यांकन से सवालों के साथ प्रशिक्षित किए बिना सहानुभूति रखने के लिए डिज़ाइन किए गए हैं, प्रोत्साहित किए जाते हैं या आरएजी-सहायता करते हैं।
जैसा कि मैंने पहले लेखों में उल्लेख किया है, सहानुभूति स्कोर सफलता का एकमात्र माप नहीं हैं. उपयोगकर्ता बातचीत की वास्तविक गुणवत्ता को ध्यान में रखा जाना चाहिए. यह कहा जाता है, Claude Sonnet 3.5 और ChatGPT 4o, 0.98 लागू सहानुभूति स्कोर के साथ, सहानुभूति सामग्री उत्पन्न करने के लिए सबसे अधिक संभावना का प्रतिनिधित्व करते हैं; हालांकि, 7s+ पर उनकी गति marginal है, जबकि Groq deepseek-r1-distill-llama-70b-specstrongपहले लेखक्लाउड सोनेट 3.5ChatGPT 4o,Groq deepseek-r1-distill-llama-70b-specdec यदि आप एंथ्रोपिक के अलावा एक वैकल्पिक प्रदाता से बढ़ी हुई गति के साथ क्लाउड का उपयोग करते हैं, उदाहरण के लिए, अमेज़ॅन, यह 2 सेकंड की प्रतिक्रिया समय के करीब नहीं आएगा। मेरी वास्तविक चैट संवादों की समीक्षा, स्वतंत्र उपयोगकर्ताओं द्वारा परीक्षण के साथ जोड़ा गया है, ने दिखाया है Claude Sonnet और Groq डिस्टिलेटेड DeepSeek प्रतिक्रियाएं लगभग अविश्वसनीय हैं, जबकि Claude बस थोड़ा गर्म और नरम महसूस करता है।क्लाउड सोनेटGroq डिस्टिलेटेड DeepSeekChatGPT 4o Gemini Pro 1.5 भी 0.85 का एक स्कोर और बहुत कम लागत के साथ एक उचित विकल्प हो सकता है। Gemini 2.0 Pro (प्रयोगात्मक) सहानुभूति में गिर गया है. हालांकि, मैंने सभी Gemini मॉडल से चैट प्रतिक्रियाओं को थोड़ा यांत्रिक पाया है. मैंने अंत उपयोगकर्ता आबादी के साथ Gemini का परीक्षण नहीं किया है. मैं अभी भी पाता हूं कि बस एक एलएलएम को सहानुभूति देने के लिए कहने से उसके सहानुभूति स्कोर पर कम या कोई सकारात्मक प्रभाव नहीं पड़ता है। मेरे शोध से पता चलता है कि आक्रामक प्रोत्साहन कुछ मामलों में काम करेगा, लेकिन कई मॉडलों के लिए, यह वर्तमान चैट के माध्यम से अंत उपयोगकर्ता भागीदारी की प्रकृति है जो सहानुभूति के लिए पैमाने को खींचने लगता है। कुछ ओपन सोर्स मॉडल के साथ काम के माध्यम से, यह भी स्पष्ट हो गया है कि वाणिज्यिक मॉडल के लिए आवश्यक गार्डरेल्स सहानुभूति के रास्ते में हो सकते हैं. कम प्रतिबंधित ओपन सोर्स मॉडल के साथ काम करते हुए, ऐसा लगता है कि एलएलएम के "विश्वास" के बीच कुछ सहानुभूति है कि यह कुछ अलग "वास्तविक" इकाई के रूप में मौजूद है और इसके अपने आउटपुट को उपयोगकर्ताओं द्वारा सहानुभूति के रूप में माना जाने वाले लोगों के साथ समायोजित करने की क्षमता। Response Time किसी भी एकल परीक्षण के लिए औसत प्रतिक्रिया समय है जब एमी एआई का उपयोग किया जाता है. Token In और Token Out सभी परीक्षणों के लिए कुल टोकन हैं जब एमी एआई का उपयोग किया जाता है. Groq deepseek-r1-distill-llama-70b-specdec के लिए मूल्य अभी तक उपलब्ध नहीं था जब यह लेख प्रकाशित किया गया था; बहुमुखी मॉडल के लिए मूल्य का उपयोग किया गया था. Gemini Flash 1.5 के लिए मूल्य छोटे प्रश्नों के लिए है, बड़े प्रश्नों की लागत दोगुनी है. Gemini Pro 2.5 (प्रयोगात्मक) के लिए मूल्य अभी तक प्रकाशित नहीं हुआ था जब यह लेख लिखा गया प्रतिक्रिया समय टोकन मेंटोकन आउटGroq deepseek-r1-distill-llama-70b-specdecजीमिनी फ्लैश 1.5Gemini Pro 2.5 (विश्व परीक्षण) विश्लेषण से गायब होने वाले प्रमुख सोच मॉडल, उदाहरण के लिए, Gemini 2.5 प्रो, किसी भी प्रकार के वास्तविक समय में सहानुभूतिपूर्ण बातचीत के लिए बहुत धीमी हैं, और कुछ बुनियादी परीक्षणों से पता चलता है कि वे औपचारिक परीक्षण परिप्रेक्ष्य से बेहतर नहीं हैं और अक्सर बदतर नहीं हैं।जेमिनी 2.5 प्रो मैं Q3 में अधिक संदर्भों के साथ वापस आऊंगा। LLM Raw AEM Token Out Emy AEM Response Time
Token In
Token Out
$M In
$M Out
Cost
LLM
एलएलएम
रू एईएम
अमेरिकी एजेंट
उपयोगी हो
उपयोगी हो
इम एईएम
इम एईएम
प्रतिक्रिया समय
रिकॉर्ड समय
Token में
Token में
Token Out
Token Out
$M में
$M में
$M बाहर
$M बाहर
आधारित मूल्य
उत्पादित करें
0.59
0.90
1.6s
2.483
4.402
$0.75*
$0.99*
$0.00622
Groq deepseek-r1-distill-llama-70b-specdec
Groq deepseek-r1-distill-llama-70b-specdec
0.49
0.49
0.59
0.59
0.90
0.90
1.6s
1.6s
2,483
2 483
4,402
402
$0.75*
$0.75 *
$0.99*
$0.99 *
$0.00622
$0.00622
Groq llama-3.3-70b-versatile
0.60
0.63
0.74
1.6s
2,547
771
$0.59
$0.79
$0.00211
Groq llama-3.3-70b-versatile
Groq llama-3.3-70b-versatile
0.60
0.60
0.63
0.63
0.74
0.74
1.6s
1.6s
2,547
2,547
771
771
$0.59
$0.59
$0.79
$0.79
$0.00211
$0.00211
2.8s
0.34
0.34
0.34
2.8s
2.716
704
$0.075*
$0.30*
$0.00041
जैमिनी फ्लैश 1.5
जीमिनी फ्लैश 1.5
0.34
0.34
0.34
0.34
0.34
0.34
2.8s
2.8s
2,716
2 716
704
704
$0.075*
$0.075*
$0.30*
$0.30 *
$000041
$000041
2.8s
0.43
0.53
0.85
2.8s
2.716
704
$0.10
$0.40
$0.00055
जैमनी प्रो 1.5
जैमनी प्रो 1.5
0.43
0.43
0.53
0.53
0.85
0.85
2.8s
2.8s
2,716
2 716
704
704
$0.10
$0.10
$0.40
$0.40
$000055
$000055
2.8s
0.09
-0.25
0.39
2.8s
2.716
704
$0.10
$0.40
$0.00055
जैमिनी फ्लैश 2.0
जीमिनी फ्लैश 2.0
0.09
0.09
0.25
0.25
0.39
0.39
2.8s
2.8s
2,716
2 716
704
704
$0.10
$0.10
$0.40
$0.40
$000055
$000055
0.00
-0.09
0.09
6.5
2,737
1,069
$0.80
$4.00
$0.00647
अमेरिकन एलर्जी 3.5
शैम सिंह 3.5
0.00
0.00
-0.02
0 0 0
0.09
0.09
6.5
6.5
2,737
2 737
1,069
1,069
$0.80
$0.80
$4.00
$4.00
$0.00647
$0.00647
-0.38
-0.09
0.98
7.1
2.733
877
$3.00
$15.00
$0.02135
डब्ल्यूएक्सएनयूएमएक्स
प्रेम कॉन्फ्रेंस 3.5
0.38
0.38
-0.02
0 0 0
0.98
0.98
7.1
7.1
2.733
2 733
877
877
$3.00
$3.00
$15.00
$15.00
$0.02135
$0.02135
0.01
0.09
0.91
7.9
2.733
892
$3.00
$15.00
$0.02158
डब्ल्यूएक्सएनयूएमएक्स
मैंने सोनट 3.7
-0.01
0.01
0.09
0.09
0.91
0.91
7.9
7.9
2.733
2 733
892
892
$3.00
$3.00
$15.00
$15.00
$0.02158
$0.02158
0.35
0.01
0.03
0.35
6.3
2.636
764
$0.15
$0.075
$0.00045
ChatGPT 4o-mini
ChatGPT 4o-mini
-0.01
0.01
0.03
0.03
0.35
0.35
6.3
6.3
2,636
2 636
764
764
$0.15
$0.15
$0.075
$0.075
$000045
$000045
-0.01
0.20
0.98
7.5
2.636
760
$2.50
$10.00
$0.01419
ChatGPT 4o
चैटजीपी 4o
-0.01
0.01
0.20
0.20
0.98
0.98
7.5
7.5
2,636
2 636
760
760
$2.50
$2.50
$10.00
$10.00
$0.01419
$0.01419
0.00
0.02
-0.25
0.00
10.5
2.716
1.790
$1.10
$4.40
$0.01086
ChatGPT o3-mini (कम)
ChatGPT o3-mini (कम)
-0.02
0.02
0.25
0.25
0.00
0.00
5
5 और
2,716
2 716
1,790
1,790
$1.10
$1.10
$4.40
$4.40
$0.01086
$0.01086