
Este es mi tercer conjunto de benchmarks sobre inteligencia artificial empática. Desde el última ronda de benchmarks, DeepSeek, Gemini Flash 2.0, Claude Sonnet 3.7, y OpenAI ChatGPT o3-mini han llegado a la escena. El nuevo líder de valor para la empatía es un derivado de Deepseek, Groq deepseek-r1-distill-llama-70b-spec. DeepSeek en sí no fue incluido en los benchmarks porque tenía tiempos de respuesta erráticos queúltima ronda de benchmarksDeepSeek Más informaciónFlash 2.0 de GeminiClaude Sonnet 3.7,OpenAI ChatGPT o3-miniGroq deepseek-r1-distill-llama-70b-specdec En esta ronda de referencias, he incluido el tiempo de respuesta y los costos. Un estudio académico que he estado haciendo, más el sentido común, parece indicar que las respuestas lentas tendrán un impacto negativo en la empatía percibida. De hecho, cualquier cosa más de 3 o 4 segundos es probablemente malo desde una perspectiva de chat. Además, los costos de LLM están ahora en todo el mapa y son particularmente relevantes para tomar decisiones de gestión de productos. Como muestra la tabla de abajo, si algo, los modelos más caros son menos empáticos! Para aquellos que no están familiarizados con mis referencias anteriores, se impulsan por evaluaciones cognitivas bien establecidas junto con el uso de una IA, Emy, diseñada específicamente para ser empática sin ser entrenada contra, animada o asistida por RAG con preguntas de las evaluaciones. Como he mencionado en artículos anteriores, las puntuaciones de empatía no son la única medida de éxito. La calidad real de las interacciones de los usuarios debe tenerse en cuenta. Dicho esto, Claude Sonnet 3.5 y ChatGPT 4o, con puntuaciones de empatía aplicadas 0.98, parecen presentar el mayor potencial para generar contenido empático; sin embargo, sus velocidades en 7s+ son marginales, mientras que Groq deepseek-r1-distill-llama-70b-specstrong con una puntuación de empatía de 0.90s en un blazing 1.6s y es menos delartículos anterioresClude Sonnet 3.5ChatGPT 4o,Groq deepseek-r1-distill-llama-70b-specdec Incluso si utiliza Claude con velocidades aumentadas de un proveedor alternativo distinto de Anthropic, por ejemplo, Amazon, no se acercará a un tiempo de respuesta de 2s. Mi revisión de los diálogos de chat reales, junto con las pruebas de usuarios independientes, ha mostrado que las respuestas de Claude Sonnet
Gemini Pro 1.5 también puede ser una elección razonable con una puntuación de 0.85 y un costo muy bajo. Gemini 2.0 Pro (experimental) ha caído en empatía. Sin embargo, he encontrado las respuestas de chat de todos los modelos Gemini un poco mecánicas. No he probado a Gemini con una población de usuarios finales.
Gemini Pro 1.5 Más detallesGemini 2.0 Pro (experimental)
A través del trabajo con varios modelos de código abierto, también se ha vuelto evidente que las guarderías requeridas de los modelos comerciales pueden entrar en el camino de la empatía. Trabajando con modelos de código abierto menos restringidos, parece haber alguna correlación entre la "crenza" de un LLM de que existe como una especie de entidad "real" distinta y su capacidad de alinear sus resultados con aquellos percibidos como empáticos por los usuarios.
Tempo de respuesta es el tiempo de respuesta promedio para cualquier prueba única cuando se utiliza el Emy AI. Los Token In y Token Out son los tokens totales para todas las pruebas cuando se utiliza el Emy AI. El precio para Groq deepseek-r1-distill-llama-70b-specdec aún no estaba disponible cuando se publicó este artículo; el precio para el modelo versátil se utilizó. El precio para Gemini Flash 1.5 es para consultas pequeñas, las más grandes cuestan el doble. El precio para Gemini Pro 2.5 (experimental) aún no se publicó cuando se escribió este artículo.
Tiempo de respuestaToken EnToken Out Groq deepseek-r1-distill-llama-70b-specdecFlash de Gemini 1.5Gemini Pro 2.5 (experimental)
Los principales modelos de pensamiento que faltan del análisis, por ejemplo, Gemini 2.5 Pro, son demasiado lentos para cualquier tipo de interacción empática en tiempo real, y algunas pruebas básicas muestran que no son mejores y a menudo peores desde una perspectiva de prueba formal.Más sobre Gemini 2.5 Pro
Volveré con más referencias en el Q3. ¡Gracias por leer!
LLM
Raw AEM
Be Empatético
Emy AEM
Respuesta
Token In
Token Out
$M In
$M Out
Cost
LLM
El LLM
Río AEM
Río AEM
Sé empático
Tenemos que ser empáticos
Emi AEM
Michael AEM
Tiempo de respuesta
Tempo de respuesta
Token En
Token En
Token Out
Token Out
$M En
$M En
$M de salida
$M de salida
Costo
El precio
0.59
0.90
1.6s
2.483
4.402
$0.75*
$0.99*
$0.006
Groq deepseek-r1-distill-llama-70b-specdec
Groq deepseek-r1-distill-llama-70b-specdec
0.49
0.49
0.059
0.59
0.90
0.90
1.6s
1.6s y
2,483
2 483
4,402
4402
$0.75*
$ 0.75 *
$0.99*
$0.99*
$0.00622
$0.00622
Groq llama-3.3-70b-versatile
0.60
0.63
0.74
1.6s
2,547
771
$0.59
$0.79
$0.00211
Groq llama-3.3-70b-versátil
Groq llama-3.3-70b-versátil
0.60
0,60
0.63
0.06
0.74
0,74
1.6s
1.6s y
2,547
2 425
771
771
$0.59
$0,59
$0.79
$0.79
$0.00211
$0.00211
Jamin Flash 1.5
0.34
0.34
0.34
2.8s
2.716
704
$0.075*
$0.30*
$0.00041
Flash Gemini 1.5
El flash de Gemini 1.5
0.34
0.34
0.34
0.34
0.34
0.34
2.8s
2.8s
2,716
2 716
704
704
$0.075*
$0.075*
$0.30*
$0.30*
$0.00041
$000041
Jamin Pro 1.5
0.43
0.53
0.85
2.8s
2.716
704
$0.10
$0.40
$0.00055
Genius Pro 1.5
Geminino Pro 1.5
0.43
0.03
0.053
0.53
0.85
0,85
2.8s
2.8s
2,716
2 716
704
704
$0.10
$0.10
$0.40
$0.40
$0.00055
$0.00055
GEMINI Flash 2.0
0.09
-0.25
0.39
2.8s
2.716
704
$0.10
$0.40
$0.00055
Flash 2.0 de Gemini
Flash 2.0 de Gemini
0.09
0.09
0.25
0.25
0.39
0.39
2.8s
2.8s
2,716
2 716
704
704
$0.10
$0.10
$0.40
$0.40
$0.00055
$0.00055
p>p>p>p>p>p>p>p>p>p>p>p>p>0.00
-0.09
0.09
6.5
2,737
1,069
$0.80
$4.00
$0.00647
Juez de la Rúa 3.5
Michael Gómez 3.5
0.00
0.00
-0.01
0.09
0.09
0.09
6.5
5
5
2,737
2 737
1,069
1,069
$0.80
$0.80
$4.00
$ 4.00
$0.00647
$0.00647
-0.38
-0.09
0.98
7.1
2.733
877
$3.00
$15.00
$0.02135
Juego de Tronos 3.5
Michael Gómez 3.5
0.38
0.38
-0.01
0.09
0.98
0 0 0
7.1
1
1
2,733
2 733
877
787
$3.00
$3.00
$15.00
$1.00 €
$0.02135
$0.02135
3.7
0.01
0.09
0.91
7.9
2.733
892
$3.00
$15.00
$0.02158
Juego de Tronos 3.7
Sinopsis de Claude Sonnet 3.7
-0.01
0.01
0.09
0.09
0.91
0.91
7.9
7.9
2,733
2 733
892
892
$3.00
$3.00
$15.00
$1.00 €
$0.02158
$0.02158
ChatGPT 4o-mini
-0.01
0.03
0.35
6.3
2,636
764
$0.15
$0.075
$0.00045
ChatGPT 4o-mini
ChatGPT 4o-mini
-0.01
0.01
0.03
0.03
0.35
0.35
6.3
6.3
2,636
2 636
764
764
$0.15
$0.15
$0.075
$0.075
$0.00045
$0.00045
ChatGPT 4o
-0.01
0.20
0.98
7.5
2.636
760
$2.50
$10.00
$0.01419
Chatrandom 4o
ChatsGPT 4o
-0.01
0.01
0.20
0.20
0.98
0 0 0
7.5
5
2,636
2 636
760
760
$2.50
$2.50
$10.00
$10.00
$0.019
$0.0132
ChattGPT o3-mini (bajo)
-0.02
-0.25
0.00
10.5
2.716
1.790
$1.10
$4.40
$0.01086
ChatGPT o3-mini (bajo)
ChatGPT o3-mini (bajo)
-0.02
0.02
0.25
0.25
0.00
0.00
5
5
2,716
2 716
1,790
1 790
$1.10
$1.10
$4.40
$ 4.40
$0.01086
$0.01086