paint-brush
Testando las profundidades de la empatía de IA: Q1 2025 Benchmarkspor@anywhichway
Nueva Historia

Testando las profundidades de la empatía de IA: Q1 2025 Benchmarks

por Simon Y. Blackwell4m2025/03/27
Read on Terminal Reader

Demasiado Largo; Para Leer

Los últimos índices de empatía revelan que el modelo de DeepSeek de Groq (deepseek-r1-distill-llama-70b-specdec) ofrece el mejor equilibrio de empatía, velocidad y coste. Mientras que Claude Sonnet 3.5 y ChatGPT 4o ponen un poco más alto en empatía (0,98), sus tiempos de respuesta de 7+ segundos son problemáticos para interacciones en tiempo real. DeepSeek proporciona 0.90 empatía con respuestas de 1.6 a menos de la mitad del coste. Las pruebas de usuarios confirman que las respuestas de DeepSeek y Claude son casi indistinguibles, con ChatGPT sintiéndose un poco más frías. Simplemente instruir a los LLMs a ser empáticos resulta ineficaz, y los rayos comerciales pueden realmente obstaculizar las respuestas empáticas
featured image - Testando las profundidades de la empatía de IA: Q1 2025 Benchmarks
Simon Y. Blackwell HackerNoon profile picture
0-item

Este es mi tercer conjunto de benchmarks sobre inteligencia artificial empática. Desde el última ronda de benchmarks, DeepSeek, Gemini Flash 2.0, Claude Sonnet 3.7, y OpenAI ChatGPT o3-mini han llegado a la escena. El nuevo líder de valor para la empatía es un derivado de Deepseek, Groq deepseek-r1-distill-llama-70b-spec. DeepSeek en sí no fue incluido en los benchmarks porque tenía tiempos de respuesta erráticos queúltima ronda de benchmarksDeepSeek Más informaciónFlash 2.0 de GeminiClaude Sonnet 3.7,OpenAI ChatGPT o3-miniGroq deepseek-r1-distill-llama-70b-specdec


En esta ronda de referencias, he incluido el tiempo de respuesta y los costos. Un estudio académico que he estado haciendo, más el sentido común, parece indicar que las respuestas lentas tendrán un impacto negativo en la empatía percibida. De hecho, cualquier cosa más de 3 o 4 segundos es probablemente malo desde una perspectiva de chat. Además, los costos de LLM están ahora en todo el mapa y son particularmente relevantes para tomar decisiones de gestión de productos. Como muestra la tabla de abajo, si algo, los modelos más caros son menos empáticos!


Para aquellos que no están familiarizados con mis referencias anteriores, se impulsan por evaluaciones cognitivas bien establecidas junto con el uso de una IA, Emy, diseñada específicamente para ser empática sin ser entrenada contra, animada o asistida por RAG con preguntas de las evaluaciones.


Como he mencionado en artículos anteriores, las puntuaciones de empatía no son la única medida de éxito. La calidad real de las interacciones de los usuarios debe tenerse en cuenta. Dicho esto, Claude Sonnet 3.5 y ChatGPT 4o, con puntuaciones de empatía aplicadas 0.98, parecen presentar el mayor potencial para generar contenido empático; sin embargo, sus velocidades en 7s+ son marginales, mientras que Groq deepseek-r1-distill-llama-70b-specstrong con una puntuación de empatía de 0.90s en un blazing 1.6s y es menos delartículos anterioresClude Sonnet 3.5ChatGPT 4o,Groq deepseek-r1-distill-llama-70b-specdec


Incluso si utiliza Claude con velocidades aumentadas de un proveedor alternativo distinto de Anthropic, por ejemplo, Amazon, no se acercará a un tiempo de respuesta de 2s.


Mi revisión de los diálogos de chat reales, junto con las pruebas de usuarios independientes, ha mostrado que las respuestas de Claude Sonnet

y de Groq destiladas DeepSeek

son casi indistinguibles, con Claude sintiéndose sólo un poco más cálido y suave. ChatGPT 4o respuestas se leen consistentemente como un poco frío o artificial y son clasificadas de forma más baja por los usuarios.

Clude SonnetGroq destilado DeepSeekChatGPT 4o


Gemini Pro 1.5 también puede ser una elección razonable con una puntuación de 0.85 y un costo muy bajo. Gemini 2.0 Pro (experimental) ha caído en empatía. Sin embargo, he encontrado las respuestas de chat de todos los modelos Gemini un poco mecánicas. No he probado a Gemini con una población de usuarios finales.

Gemini Pro 1.5 Más detallesGemini 2.0 Pro (experimental)


Mi investigación muestra que la exhortación agresiva funcionará en algunos casos, pero para muchos modelos, es estrictamente la naturaleza del compromiso del usuario final a través del chat actual que parece apuntar las escalas a la empatía. En estos casos, la necesidad de empatía debe ser bastante clara y no “envejecida” en la conversación, o los LLM caen en el modo de solución sistemática del problema / encontrar una solución.



A través del trabajo con varios modelos de código abierto, también se ha vuelto evidente que las guarderías requeridas de los modelos comerciales pueden entrar en el camino de la empatía. Trabajando con modelos de código abierto menos restringidos, parece haber alguna correlación entre la "crenza" de un LLM de que existe como una especie de entidad "real" distinta y su capacidad de alinear sus resultados con aquellos percibidos como empáticos por los usuarios.


Tempo de respuesta es el tiempo de respuesta promedio para cualquier prueba única cuando se utiliza el Emy AI. Los Token In y Token Out son los tokens totales para todas las pruebas cuando se utiliza el Emy AI. El precio para Groq deepseek-r1-distill-llama-70b-specdec aún no estaba disponible cuando se publicó este artículo; el precio para el modelo versátil se utilizó. El precio para Gemini Flash 1.5 es para consultas pequeñas, las más grandes cuestan el doble. El precio para Gemini Pro 2.5 (experimental) aún no se publicó cuando se escribió este artículo.

Tiempo de respuestaToken EnToken Out Groq deepseek-r1-distill-llama-70b-specdecFlash de Gemini 1.5Gemini Pro 2.5 (experimental)


Los principales modelos de pensamiento que faltan del análisis, por ejemplo, Gemini 2.5 Pro, son demasiado lentos para cualquier tipo de interacción empática en tiempo real, y algunas pruebas básicas muestran que no son mejores y a menudo peores desde una perspectiva de prueba formal.Más sobre Gemini 2.5 Pro


Volveré con más referencias en el Q3. ¡Gracias por leer!




































































LLM

Raw AEM

Be Empatético

Emy AEM

Respuesta


Token In

Token Out


$M In


$M Out


Cost



LLM

El LLM

Río AEM

Río AEM

Sé empático

Tenemos que ser empáticos

Emi AEM

Michael AEM

Tiempo de respuesta

Tempo de respuesta

Token En

Token En

Token Out


Token Out

$M En

$M En

$M de salida

$M de salida

Costo

El precio

0.59

0.90

1.6s

2.483

4.402

$0.75*

$0.99*

$0.006













Groq deepseek-r1-distill-llama-70b-specdec

Groq deepseek-r1-distill-llama-70b-specdec

0.49

0.49

0.059

0.59

0.90

0.90

1.6s

1.6s y

2,483

2 483

4,402

4402

$0.75*

$ 0.75 *

$0.99*

$0.99*

$0.00622

$0.00622

Groq llama-3.3-70b-versatile

0.60

0.63

0.74

1.6s

2,547

771

$0.59

$0.79


$0.00211



Groq llama-3.3-70b-versátil

Groq llama-3.3-70b-versátil

0.60

0,60

0.63

0.06

0.74

0,74

1.6s

1.6s y

2,547

2 425

771

771

$0.59

$0,59

$0.79

$0.79

$0.00211

$0.00211

Jamin Flash 1.5

0.34

0.34

0.34

2.8s

2.716

704

$0.075*

$0.30*

$0.00041

Flash Gemini 1.5

El flash de Gemini 1.5

0.34

0.34

0.34

0.34

0.34

0.34

2.8s

2.8s

2,716

2 716

704

704

$0.075*

$0.075*

$0.30*



$0.30*

$0.00041

$000041

Jamin Pro 1.5

0.43

0.53

0.85

2.8s

2.716

704

$0.10

$0.40


$0.00055

Genius Pro 1.5

Geminino Pro 1.5

0.43

0.03

0.053

0.53

0.85

0,85

2.8s

2.8s

2,716

2 716

704

704

$0.10

$0.10

$0.40

$0.40

$0.00055

$0.00055

GEMINI Flash 2.0

0.09

-0.25

0.39

2.8s

2.716

704

$0.10

$0.40


$0.00055

Flash 2.0 de Gemini

Flash 2.0 de Gemini

0.09

0.09

0.25

0.25

0.39

0.39

2.8s

2.8s

2,716

2 716

704

704

$0.10

$0.10

$0.40

$0.40

$0.00055

$0.00055

p>p>p>p>p>p>p>p>p>p>p>p>p>0.00

-0.09

0.09

6.5

2,737

1,069

$0.80

$4.00


$0.00647

Juez de la Rúa 3.5

Michael Gómez 3.5

0.00

0.00

-0.01

0.09

0.09

0.09

6.5

5

5

2,737

2 737

1,069

1,069

$0.80

$0.80

$4.00

$ 4.00

$0.00647

$0.00647




-0.38

-0.09

0.98

7.1

2.733

877

$3.00

$15.00


$0.02135

Juego de Tronos 3.5

Michael Gómez 3.5

0.38

0.38

-0.01

0.09

0.98

0 0 0

7.1

1

1

2,733

2 733

877

787

$3.00

$3.00

$15.00

$1.00 €

$0.02135

$0.02135

3.7

0.01

0.09

0.91

7.9

2.733

892

$3.00

$15.00


$0.02158

Juego de Tronos 3.7

Sinopsis de Claude Sonnet 3.7

-0.01

0.01

0.09

0.09

0.91

0.91

7.9

7.9

2,733

2 733

892

892

$3.00

$3.00

$15.00

$1.00 €

$0.02158

$0.02158

ChatGPT 4o-mini

-0.01

0.03

0.35

6.3

2,636

764

$0.15

$0.075

$0.00045

ChatGPT 4o-mini

ChatGPT 4o-mini

-0.01

0.01

0.03

0.03

0.35

0.35

6.3

6.3

2,636

2 636

764

764

$0.15

$0.15

$0.075

$0.075

$0.00045

$0.00045

ChatGPT 4o

-0.01

0.20

0.98

7.5

2.636

760

$2.50

$10.00


$0.01419

Chatrandom 4o

ChatsGPT 4o

-0.01

0.01

0.20

0.20

0.98

0 0 0

7.5

5

2,636

2 636

760

760

$2.50

$2.50

$10.00

$10.00

$0.019

$0.0132

ChattGPT o3-mini (bajo)

-0.02

-0.25

0.00

10.5

2.716

1.790

$1.10

$4.40


$0.01086



ChatGPT o3-mini (bajo)

ChatGPT o3-mini (bajo)

-0.02

0.02

0.25

0.25

0.00

0.00

5



5

2,716

2 716

1,790

1 790

$1.10

$1.10

$4.40

$ 4.40

$0.01086

$0.01086