Nueva Historia

Testando las profundidades de la empatía de IA: Q1 2025 Benchmarks

por Simon Y. Blackwell4m2025/03/27

Demasiado Largo; Para Leer

Los últimos índices de empatía revelan que el modelo de DeepSeek de Groq (deepseek-r1-distill-llama-70b-specdec) ofrece el mejor equilibrio de empatía, velocidad y coste. Mientras que Claude Sonnet 3.5 y ChatGPT 4o ponen un poco más alto en empatía (0,98), sus tiempos de respuesta de 7+ segundos son problemáticos para interacciones en tiempo real. DeepSeek proporciona 0.90 empatía con respuestas de 1.6 a menos de la mitad del coste. Las pruebas de usuarios confirman que las respuestas de DeepSeek y Claude son casi indistinguibles, con ChatGPT sintiéndose un poco más frías. Simplemente instruir a los LLMs a ser empáticos resulta ineficaz, y los rayos comerciales pueden realmente obstaculizar las respuestas empáticas

featured image - Testando las profundidades de la empatía de IA: Q1 2025 Benchmarks

Este es mi tercer conjunto de benchmarks sobre inteligencia artificial empática. Desde el última ronda de benchmarks, DeepSeek, Gemini Flash 2.0, Claude Sonnet 3.7, y OpenAI ChatGPT o3-mini han llegado a la escena. El nuevo líder de valor para la empatía es un derivado de Deepseek, Groq deepseek-r1-distill-llama-70b-spec. DeepSeek en sí no fue incluido en los benchmarks porque tenía tiempos de respuesta erráticos queúltima ronda de benchmarksDeepSeek Más informaciónFlash 2.0 de GeminiClaude Sonnet 3.7,OpenAI ChatGPT o3-miniGroq deepseek-r1-distill-llama-70b-specdec

En esta ronda de referencias, he incluido el tiempo de respuesta y los costos. Un estudio académico que he estado haciendo, más el sentido común, parece indicar que las respuestas lentas tendrán un impacto negativo en la empatía percibida. De hecho, cualquier cosa más de 3 o 4 segundos es probablemente malo desde una perspectiva de chat. Además, los costos de LLM están ahora en todo el mapa y son particularmente relevantes para tomar decisiones de gestión de productos. Como muestra la tabla de abajo, si algo, los modelos más caros son menos empáticos!

Para aquellos que no están familiarizados con mis referencias anteriores, se impulsan por evaluaciones cognitivas bien establecidas junto con el uso de una IA, Emy, diseñada específicamente para ser empática sin ser entrenada contra, animada o asistida por RAG con preguntas de las evaluaciones.

Como he mencionado en artículos anteriores, las puntuaciones de empatía no son la única medida de éxito. La calidad real de las interacciones de los usuarios debe tenerse en cuenta. Dicho esto, Claude Sonnet 3.5 y ChatGPT 4o, con puntuaciones de empatía aplicadas 0.98, parecen presentar el mayor potencial para generar contenido empático; sin embargo, sus velocidades en 7s+ son marginales, mientras que Groq deepseek-r1-distill-llama-70b-specstrong con una puntuación de empatía de 0.90s en un blazing 1.6s y es menos delartículos anterioresClude Sonnet 3.5ChatGPT 4o,Groq deepseek-r1-distill-llama-70b-specdec

Incluso si utiliza Claude con velocidades aumentadas de un proveedor alternativo distinto de Anthropic, por ejemplo, Amazon, no se acercará a un tiempo de respuesta de 2s.

Mi revisión de los diálogos de chat reales, junto con las pruebas de usuarios independientes, ha mostrado que las respuestas de Claude Sonnet

y de Groq destiladas DeepSeek
son casi indistinguibles, con Claude sintiéndose sólo un poco más cálido y suave. ChatGPT 4o respuestas se leen consistentemente como un poco frío o artificial y son clasificadas de forma más baja por los usuarios.

Clude SonnetGroq destilado DeepSeekChatGPT 4o

Gemini Pro 1.5 también puede ser una elección razonable con una puntuación de 0.85 y un costo muy bajo. Gemini 2.0 Pro (experimental) ha caído en empatía. Sin embargo, he encontrado las respuestas de chat de todos los modelos Gemini un poco mecánicas. No he probado a Gemini con una población de usuarios finales.

Gemini Pro 1.5 Más detallesGemini 2.0 Pro (experimental)

Mi investigación muestra que la exhortación agresiva funcionará en algunos casos, pero para muchos modelos, es estrictamente la naturaleza del compromiso del usuario final a través del chat actual que parece apuntar las escalas a la empatía. En estos casos, la necesidad de empatía debe ser bastante clara y no “envejecida” en la conversación, o los LLM caen en el modo de solución sistemática del problema / encontrar una solución.

A través del trabajo con varios modelos de código abierto, también se ha vuelto evidente que las guarderías requeridas de los modelos comerciales pueden entrar en el camino de la empatía. Trabajando con modelos de código abierto menos restringidos, parece haber alguna correlación entre la "crenza" de un LLM de que existe como una especie de entidad "real" distinta y su capacidad de alinear sus resultados con aquellos percibidos como empáticos por los usuarios.

Tempo de respuesta es el tiempo de respuesta promedio para cualquier prueba única cuando se utiliza el Emy AI. Los Token In y Token Out son los tokens totales para todas las pruebas cuando se utiliza el Emy AI. El precio para Groq deepseek-r1-distill-llama-70b-specdec aún no estaba disponible cuando se publicó este artículo; el precio para el modelo versátil se utilizó. El precio para Gemini Flash 1.5 es para consultas pequeñas, las más grandes cuestan el doble. El precio para Gemini Pro 2.5 (experimental) aún no se publicó cuando se escribió este artículo.

Tiempo de respuestaToken EnToken Out Groq deepseek-r1-distill-llama-70b-specdecFlash de Gemini 1.5Gemini Pro 2.5 (experimental)

Los principales modelos de pensamiento que faltan del análisis, por ejemplo, Gemini 2.5 Pro, son demasiado lentos para cualquier tipo de interacción empática en tiempo real, y algunas pruebas básicas muestran que no son mejores y a menudo peores desde una perspectiva de prueba formal.Más sobre Gemini 2.5 Pro

Volveré con más referencias en el Q3. ¡Gracias por leer!

LLM

Raw AEM

Be Empatético

Emy AEM

Respuesta

Token In

Token Out

$M In

$M Out

Cost

LLM
El LLM

Río AEM
Río AEM

Sé empático
Tenemos que ser empáticos

Emi AEM
Michael AEM

Tiempo de respuesta
Tempo de respuesta

Token En
Token En

Token Out

Token Out

$M En
$M En

$M de salida
$M de salida

Costo
El precio

0.59

0.90

1.6s

2.483

4.402

$0.75*

$0.99*

$0.006

Groq deepseek-r1-distill-llama-70b-specdec
Groq deepseek-r1-distill-llama-70b-specdec

0.49
0.49

0.059
0.59

0.90
0.90

1.6s
1.6s y

2,483
2 483

4,402
4402

$0.75*
$ 0.75 *

$0.99*
$0.99*

$0.00622
$0.00622

Groq llama-3.3-70b-versatile

0.60

0.63

0.74

1.6s

2,547

771

$0.59

$0.79

$0.00211

Groq llama-3.3-70b-versátil
Groq llama-3.3-70b-versátil

0.60

0,60

0.63
0.06

0.74
0,74

1.6s
1.6s y

2,547
2 425

771
771

$0.59
$0,59

$0.79
$0.79

$0.00211
$0.00211

Jamin Flash 1.5

0.34

0.34

0.34

2.8s

2.716

704

$0.075*

$0.30*

$0.00041

Flash Gemini 1.5
El flash de Gemini 1.5

0.34
0.34

0.34
0.34

0.34
0.34

2.8s
2.8s

2,716
2 716

704
704

$0.075*
$0.075*

$0.30*

$0.30*

$0.00041
$000041

Jamin Pro 1.5

0.43

0.53

0.85

2.8s

2.716

704

$0.10

$0.40

$0.00055

Genius Pro 1.5
Geminino Pro 1.5

0.43
0.03

0.053
0.53

0.85
0,85

2.8s
2.8s

2,716
2 716

704
704

$0.10
$0.10

$0.40
$0.40

$0.00055
$0.00055

GEMINI Flash 2.0

0.09

-0.25

0.39

2.8s

2.716

704

$0.10

$0.40

$0.00055

Flash 2.0 de Gemini
Flash 2.0 de Gemini

0.09
0.09

0.25

0.25

0.39
0.39

2.8s
2.8s

2,716
2 716

704
704

$0.10
$0.10

$0.40
$0.40

$0.00055
$0.00055

p>p>p>p>p>p>p>p>p>p>p>p>p>0.00

-0.09

0.09

6.5

2,737

1,069

$0.80

$4.00

$0.00647

Juez de la Rúa 3.5
Michael Gómez 3.5

0.00
0.00

-0.01
0.09

0.09
0.09

6.5
5
5

2,737
2 737

1,069
1,069

$0.80
$0.80

$4.00
$ 4.00

$0.00647
$0.00647

-0.38

-0.09

0.98

7.1

2.733

877

$3.00

$15.00

$0.02135

Juego de Tronos 3.5
Michael Gómez 3.5

0.38
0.38

-0.01
0.09

0.98
0 0 0

7.1
1
1

2,733
2 733

877
787

$3.00
$3.00

$15.00
$1.00 €

$0.02135
$0.02135

3.7

0.01

0.09

0.91

7.9

2.733

892

$3.00

$15.00

$0.02158

Juego de Tronos 3.7
Sinopsis de Claude Sonnet 3.7

-0.01
0.01

0.09
0.09

0.91
0.91

7.9
7.9

2,733
2 733

892
892

$3.00
$3.00

$15.00
$1.00 €

$0.02158
$0.02158

ChatGPT 4o-mini

-0.01

0.03

0.35

6.3

2,636

764

$0.15

$0.075

$0.00045

ChatGPT 4o-mini
ChatGPT 4o-mini

-0.01
0.01

0.03
0.03

0.35
0.35

6.3
6.3

2,636
2 636

764
764

$0.15
$0.15

$0.075
$0.075

$0.00045
$0.00045

ChatGPT 4o

-0.01

0.20

0.98

7.5

2.636

760

$2.50

$10.00

$0.01419

Chatrandom 4o
ChatsGPT 4o

-0.01
0.01

0.20
0.20

0.98
0 0 0

7.5
5

2,636
2 636

760
760

$2.50
$2.50

$10.00
$10.00

$0.019
$0.0132

ChattGPT o3-mini (bajo)

-0.02

-0.25

0.00

10.5

2.716

1.790

$1.10

$4.40

$0.01086

ChatGPT o3-mini (bajo)
ChatGPT o3-mini (bajo)

-0.02
0.02

0.25

0.25

0.00
0.00

5

5

2,716
2 716

1,790
1 790

$1.10
$1.10

$4.40
$ 4.40

$0.01086
$0.01086

L O A D I N G
. . . comments & more!

About Author

Simon Y. Blackwell@anywhichway

Working in the clouds around Seattle ... sailing when it's clear.

Read my stories

Testando las profundidades de la empatía de IA: Q1 2025 Benchmarks

Demasiado Largo; Para Leer

About Author

ETIQUETAS

Languages

ESTE ARTÍCULO FUE PRESENTADO EN...

HISTORIAS RELACIONADAS