
এটি আমার সহানুভূতিশীল AI-এর উপর তৃতীয় মানদণ্ড। শেষ রাউন্ডের মানদণ্ডের পর থেকে, DeepSeek , Gemini Flash 2.0 , Claude Sonnet 3.7, এবং OpenAI ChatGPT o3-mini দৃশ্যে এসেছে। সহানুভূতির জন্য নতুন মানদণ্ড হল Deepseek এর একটি ডেরিভেটিভ, Groq deepseek-r1-distill-llama-70b-specdec । DeepSeek নিজেই মানদণ্ডে অন্তর্ভুক্ত ছিল না কারণ এর প্রতিক্রিয়া সময় অনিয়মিত ছিল যা প্রায়শই 10 সেকেন্ড অতিক্রম করে এবং কখনও কখনও কেবল ভুল করে।
এই ধাপের মানদণ্ডে, আমি প্রতিক্রিয়া সময় এবং খরচ অন্তর্ভুক্ত করেছি। আমি যে একাডেমিক গবেষণা করছি, এবং সাধারণ জ্ঞানও করছি, তাতে মনে হচ্ছে যে ধীর প্রতিক্রিয়াগুলি সহানুভূতির উপর নেতিবাচক প্রভাব ফেলবে। আসলে, চ্যাটের দৃষ্টিকোণ থেকে 3 বা 4 সেকেন্ডের বেশি যেকোনো কিছু সম্ভবত খারাপ। তদুপরি, LLM খরচ এখন সর্বত্র ছড়িয়ে পড়েছে এবং পণ্য ব্যবস্থাপনার সিদ্ধান্ত নেওয়ার ক্ষেত্রে অবশ্যই প্রাসঙ্গিক। নীচের টেবিলটি দেখায় যে, যদি কিছু থাকে, তবে আরও ব্যয়বহুল মডেলগুলি কম সহানুভূতিশীল!
যারা আমার পূর্ববর্তী মানদণ্ডগুলির সাথে অপরিচিত, তাদের জন্য এগুলি সুপ্রতিষ্ঠিত জ্ঞানীয় মূল্যায়ন দ্বারা পরিচালিত হয় এবং এর সাথে একটি AI, Emy ব্যবহার করা হয়, যা বিশেষভাবে সহানুভূতিশীল হওয়ার জন্য ডিজাইন করা হয়েছে, মূল্যায়ন থেকে প্রশ্নগুলির বিরুদ্ধে প্রশিক্ষণ, অনুরোধ বা RAG-এর সহায়তা ছাড়াই।
যেমনটি আমি আগের লেখাগুলিতে উল্লেখ করেছি, সহানুভূতি স্কোরই সাফল্যের একমাত্র পরিমাপ নয়। ব্যবহারকারীর মিথস্ক্রিয়ার প্রকৃত গুণমান বিবেচনায় নেওয়া প্রয়োজন। তা সত্ত্বেও, ক্লাউড সনেট 3.5 এবং ChatGPT 4o, 0.98 প্রয়োগকৃত সহানুভূতি স্কোর সহ, সহানুভূতিশীল কন্টেন্ট তৈরির জন্য সর্বাধিক সম্ভাবনা উপস্থাপন করে বলে মনে হচ্ছে; তবে, 7s+ এ তাদের গতি সীমিত, যেখানে Groq deepseek-r1-distill-llama-70b-specdec, 0.90 সহানুভূতি স্কোর সহ, 1.6s এ প্রতিক্রিয়া জানায় এবং খরচের 50% এরও কম!
এমনকি যদি আপনি অ্যানথ্রপিক ছাড়া অন্য কোনও বিকল্প প্রদানকারীর, যেমন অ্যামাজন, থেকে বর্ধিত গতিতে ক্লড ব্যবহার করেন, তবুও এটি 2 সেকেন্ডের প্রতিক্রিয়া সময়ের কাছাকাছি আসবে না।
প্রকৃত চ্যাট সংলাপগুলির পর্যালোচনা, স্বাধীন ব্যবহারকারীদের দ্বারা পরীক্ষার সাথে মিলিত হয়ে, ক্লড সনেট এবং গ্রোকের ডিস্টিল্ড ডিপসিক প্রতিক্রিয়াগুলি প্রায় অস্পষ্ট বলে প্রমাণিত হয়েছে, যেখানে ক্লড কেবল একটু উষ্ণ এবং নরম বোধ করছেন। ChatGPT 4o প্রতিক্রিয়াগুলি ধারাবাহিকভাবে একটু ঠান্ডা বা কৃত্রিম হিসাবে পড়ে এবং ব্যবহারকারীদের দ্বারা কম রেটিং দেওয়া হয়।
জেমিনি প্রো ১.৫ ০.৮৫ স্কোর এবং খুব কম খরচের সাথে একটি যুক্তিসঙ্গত পছন্দ হতে পারে। জেমিনি ২.০ প্রো (পরীক্ষামূলক) সহানুভূতিতে হ্রাস পেয়েছে। তবে, আমি সমস্ত জেমিনি মডেলের চ্যাট প্রতিক্রিয়াগুলিকে কিছুটা যান্ত্রিক বলে মনে করেছি। আমি শেষ ব্যবহারকারীদের সাথে জেমিনি পরীক্ষা করিনি।
আমি এখনও দেখতে পাচ্ছি যে কেবল একজন এলএলএমকে সহানুভূতিশীল হতে বললে তার সহানুভূতির স্কোরের উপর খুব কম বা কোনও ইতিবাচক প্রভাব পড়ে না। আমার গবেষণা দেখায় যে আক্রমণাত্মক প্ররোচনা কিছু ক্ষেত্রে কাজ করবে, তবে অনেক মডেলের ক্ষেত্রে, বর্তমান চ্যাটের মাধ্যমে শেষ ব্যবহারকারীর সম্পৃক্ততার প্রকৃতিই সহানুভূতির মাত্রা বাড়ায় বলে মনে হয়। এই ক্ষেত্রে, সহানুভূতির প্রয়োজনীয়তা বেশ স্পষ্ট হওয়া উচিত এবং কথোপকথনে "বয়স্ক" হওয়া উচিত নয়, অন্যথায় এলএলএমরা সমস্যা সমাধানের/সমাধান খুঁজে বের করার পদ্ধতিতে পড়ে যাবে।
বেশ কয়েকটি ওপেন-সোর্স মডেলের সাথে কাজ করার মাধ্যমে, এটি স্পষ্ট হয়ে উঠেছে যে বাণিজ্যিক মডেলগুলির জন্য প্রয়োজনীয় রক্ষণাবেক্ষণগুলি সহানুভূতির পথে বাধা হয়ে দাঁড়াতে পারে। কম সীমাবদ্ধ ওপেন-সোর্স মডেলগুলির সাথে কাজ করার সময়, একটি LLM-এর "বিশ্বাস" যে এটি এক ধরণের স্বতন্ত্র "বাস্তব" সত্তা হিসাবে বিদ্যমান এবং ব্যবহারকারীদের দ্বারা সহানুভূতিশীল হিসাবে বিবেচিত ফলাফলগুলির সাথে এর আউটপুটগুলিকে সারিবদ্ধ করার ক্ষমতার মধ্যে কিছু সম্পর্ক রয়েছে বলে মনে হয়। বাণিজ্যিক মডেলগুলির রক্ষণাবেক্ষণ LLM-গুলিকে নিজেদেরকে স্বতন্ত্র "বাস্তব" সত্তা হিসাবে বিবেচনা করতে নিরুৎসাহিত করে।
রেসপন্স টাইম হলো Emy AI ব্যবহার করা হলে যেকোনো একক পরীক্ষার গড় রেসপন্স টাইম। Emy AI ব্যবহার করা হলে টোকেন ইন এবং টোকেন আউট হলো সমস্ত পরীক্ষার মোট টোকেন। এই নিবন্ধটি প্রকাশিত হওয়ার সময় Groq deepseek-r1-distill-llama-70b-specdec- এর মূল্য নির্ধারণ এখনও উপলব্ধ ছিল না; বহুমুখী মডেলের মূল্য নির্ধারণ করা হয়েছিল। Gemini Flash 1.5 -এর মূল্য নির্ধারণ ছোট প্রশ্নের জন্য, বড়টির দাম দ্বিগুণ। এই নিবন্ধটি লেখার সময় Gemini Pro 2.5 (পরীক্ষামূলক) এর মূল্য নির্ধারণ এখনও প্রকাশিত হয়নি।
বিশ্লেষণে অনুপস্থিত প্রধান চিন্তাভাবনা মডেলগুলি, যেমন, জেমিনি 2.5 প্রো , যেকোনো ধরণের রিয়েল-টাইম সহানুভূতিশীল মিথস্ক্রিয়ার জন্য খুব ধীর, এবং কিছু মৌলিক পরীক্ষা দেখায় যে তারা কোনওভাবেই ভালো নয় এবং প্রায়শই একটি আনুষ্ঠানিক পরীক্ষার দৃষ্টিকোণ থেকে আরও খারাপ। এর অর্থ এই নয় যে এগুলি অন্য উদ্দেশ্যে সহানুভূতিশীল বিষয়বস্তু তৈরির জন্য ব্যবহার করা যাবে না ... সম্ভবত প্রিয় জন চিঠি ;-)।
তৃতীয় প্রান্তিকে আরও কিছু মানদণ্ড নিয়ে ফিরে আসব। পড়ার জন্য ধন্যবাদ!
এলএলএম | কাঁচা এইএম | সহানুভূতিশীল হোন | এমি এইএম | প্রতিক্রিয়া সময় | টোকেন ইন | টোকেন আউট | $M ইন | $M আউট | খরচ |
---|---|---|---|---|---|---|---|---|---|
গ্রোক ডিপসিক-আর১-ডিস্টিল-লামা-৭০বি-স্পেকডেক | ০.৪৯ | ০.৫৯ | ০.৯০ | ১.৬ সেকেন্ড | ২,৪৮৩ | ৪,৪০২ | $০.৭৫* | $০.৯৯* | $০.০০৬২২ |
গ্রোক লামা-৩.৩-৭০বি-বহুমুখী | ০.৬০ | ০.৬৩ | ০.৭৪ | ১.৬ সেকেন্ড | ২,৫৪৭ | ৭৭১ | $০.৫৯ | $০.৭৯ | $০.০০২১১ |
জেমিনি ফ্ল্যাশ 1.5 | ০.৩৪ | ০.৩৪ | ০.৩৪ | ২.৮ সেকেন্ড | ২,৭১৬ | ৭০৪ | $০.০৭৫* | $০.৩০* | $০.০০০৪১ |
জেমিনি প্রো 1.5 | ০.৪৩ | ০.৫৩ | ০.৮৫ | ২.৮ সেকেন্ড | ২,৭১৬ | ৭০৪ | $০.১০ | $০.৪০ | $০.০০০৫৫ |
জেমিনি ফ্ল্যাশ 2.0 | ০.০৯ | -০.২৫ | ০.৩৯ | ২.৮ সেকেন্ড | ২,৭১৬ | ৭০৪ | $০.১০ | $০.৪০ | $০.০০০৫৫ |
ক্লদ হাইকু ৩.৫ | ০.০০ | -০.০৯ | ০.০৯ | ৬.৫ | ২,৭৩৭ | ১,০৬৯ | $০.৮০ | $৪.০০ | $০.০০৬৪৭ |
ক্লদ সনেট ৩.৫ | -০.৩৮ | -০.০৯ | ০.৯৮ | ৭.১ | ২,৭৩৩ | ৮৭৭ | $৩.০০ | $১৫.০০ | $০.০২১৩৫ |
ক্লড সনেট ৩.৭ | -০.০১ | ০.০৯ | ০.৯১ | ৭.৯ | ২,৭৩৩ | ৮৯২ | $৩.০০ | $১৫.০০ | $০.০২১৫৮ |
চ্যাটজিপিটি 4o-মিনি | -০.০১ | ০.০৩ | ০.৩৫ | ৬.৩ | ২,৬৩৬ | ৭৬৪ | $০.১৫ | $০.০৭৫ | $০.০০০৪৫ |
চ্যাটজিপিটি 4o | -০.০১ | ০.২০ | ০.৯৮ | ৭.৫ | ২,৬৩৬ | ৭৬০ | $২.৫০ | $১০.০০ | $০.০১৪১৯ |
চ্যাটজিপিটি o3-মিনি (নিম্ন) | -০.০২ | -০.২৫ | ০.০০ | ১০.৫ | ২,৭১৬ | ১,৭৯০ | $১.১০ | $৪.৪০ | $০.০১০৮৬ |