
El método de consenso desempeña un papel fundamental en la anotación de datos cuando es necesario garantizar una alta precisión y reducir la subjetividad en el etiquetado. Según la experiencia de Keymakr, implementar un enfoque de consenso con múltiples expertos en casos específicos puede reducir los errores de anotación entre un 30 y un 50 %. El consenso minimiza errores, automatiza el control de calidad y facilita la creación de conjuntos de datos de referencia, especialmente crucial en áreas de alta responsabilidad como la medicina y la conducción autónoma.
Tatiana Verbitskaya, arquitecta de soluciones técnicas en Keymakr , habla sobre cómo funciona este método y los proyectos en los que se ha aplicado con éxito.
El consenso se logra recabando las opiniones de múltiples expertos. Al definir los datos de "verdad fundamental", es fundamental establecer un estándar de precisión consensuado. El consenso es crucial al entrenar un modelo con datos subjetivos, como el color y la forma, o cuando se requiere una alta precisión. Este método se utiliza activamente en las etapas iniciales, cuando el modelo aún no se ha entrenado con suficientes datos o cuando se necesita entrenamiento adicional, especialmente para casos específicos (p. ej., juicios subjetivos). Además, el consenso es crucial en proyectos a gran escala, como la anotación de datos para vehículos autónomos o la monitorización del transporte, ya que mejora la precisión y reduce los errores.
Líderes tecnológicos globales como Google, Tesla, Amazon y Meta utilizan activamente la anotación por consenso para mejorar el rendimiento de los modelos de IA. Google Health, por ejemplo, aplica múltiples anotaciones de radiólogos a las radiografías para mejorar la precisión diagnóstica. Tesla utiliza el consenso para etiquetar los datos de las cámaras del piloto automático, lo que reduce los errores de entrenamiento en la conducción autónoma. Amazon SageMaker Ground Truth incorpora la anotación por consenso en PLN, visión artificial y análisis de imágenes satelitales, mientras que Meta la emplea para proyectos de reconocimiento facial y de objetos.
Una de las aplicaciones más cruciales del consenso es la anotación de imágenes médicas para el diagnóstico de enfermedades. Los expertos afirman que los diagnósticos de los radiólogos pueden variar hasta en un 20-30%, lo que afecta directamente los resultados de los pacientes. Cuando se emplea un enfoque basado en el consenso —donde varios radiólogos anotan las imágenes de forma independiente y sus aportaciones se agregan según una puntuación ponderada por la experiencia— la precisión de la anotación puede mejorarse hasta en un 40%.
Keymakr aplica activamente este enfoque en proyectos médicos complejos. Como resultado, esto ayuda a garantizar un etiquetado preciso de imágenes para modelos de IA entrenados para detectar patologías complejas. En este caso, el proceso se desarrolló utilizando la plataforma Keylabs , donde es posible comparar las opiniones de varios expertos, identificar discrepancias y generar conjuntos de datos de alta precisión. Este enfoque aumenta significativamente la fiabilidad de los algoritmos utilizados en el diagnóstico automatizado, minimizando el riesgo de diagnósticos erróneos.
Actualmente, Keymakr colabora con SoundAware , una empresa que implementa tecnología de reconocimiento automático de música para identificar el uso de música protegida por derechos de autor. El equipo revisa 10 000 URL para evaluar la presencia de material protegido por derechos de autor.
Las plataformas de video están repletas de contenido que puede incluir material del autor, como música, escenas de películas o fragmentos de programas de televisión. Debido a la gran cantidad de datos y a la naturaleza subjetiva de la interpretación de los derechos de autor, analizar manualmente cada video resulta poco práctico.
Sin embargo, Keymakr identifica casos en los que el contenido protegido por derechos de autor se utiliza o modifica de maneras que los sistemas automatizados aún no pueden detectar con fiabilidad. Estos incluyen parodias, fan art y homenajes.
Para eliminar la subjetividad, Keymakr emplea un enfoque basado en el consenso: cada vídeo es evaluado por múltiples expertos independientes que responden las siguientes preguntas:
Sobre la base de las respuestas de los expertos, se toma una decisión final sobre los posibles problemas de derechos de autor.
Estos proyectos son esenciales para hacer cumplir los derechos de autor y garantizar que los titulares de los derechos reciban una compensación justa. Además, este proceso ayuda a las empresas especializadas en monitoreo de contenido a perfeccionar sus algoritmos y acelerar la detección de material protegido por derechos de autor.
El consenso también se aplica ampliamente en el entrenamiento de IA para vehículos autónomos, en particular en el reconocimiento de objetos en carretera (p. ej., otros vehículos, peatones, señales de tráfico). Por ejemplo, una cámara podría captar a un peatón en movimiento y los anotadores humanos podrían discrepar sobre si el objeto es una persona o una sombra. El consenso garantiza un etiquetado preciso en estos escenarios.
El equipo de Keymakr trabajó recientemente en el análisis de videos grabados por cámaras para rastrear vehículos. Era necesario rastrear el movimiento del vehículo a través de varias cámaras en un cruce y asegurar que el sistema identificara correctamente el mismo vehículo en diferentes fotogramas.
Las cámaras grabaron un mismo objeto (coche) en varios puntos. Varios expertos visualizaron el vídeo desde diferentes cámaras. Evaluaron si se trataba del mismo coche, ya que podría haber diferencias en la percepción de su apariencia (por ejemplo, por color o marca). La información se utilizó para entrenar el modelo si cinco anotadores confirmaban la identidad del objeto. De lo contrario, estos datos se habrían excluido del conjunto de datos. Esto ha reducido el número de falsas alarmas y ha aumentado la precisión de los sistemas de reconocimiento de vehículos, lo cual es importante para los sistemas de seguridad urbana y los sistemas de control automático del tráfico.
El mismo enfoque se puede aplicar para identificar personas en centros comerciales o en la calle. Las cámaras capturan el movimiento analizando, por ejemplo, el color de la ropa, la altura u otras características. Este método se utiliza para:
El futuro de la anotación de datos basada en consenso es prometedor, especialmente a medida que los modelos de IA se vuelven más complejos y el volumen de datos crece. Se proyecta que el mercado global de anotación y etiquetado de datos alcance los 3600 millones de dólares para 2027, y muchas empresas están adoptando la verificación de anotaciones multicapa para mejorar la calidad de los datos. Los estudios demuestran que los modelos entrenados con conjuntos de datos con anotación de consenso muestran una precisión significativamente mayor que los modelos entrenados con etiquetado de una sola fuente.
A pesar del desarrollo de la anotación automática y la IA generativa, el factor humano sigue siendo clave: la subjetividad y los desacuerdos en la anotación requieren una validación en varias etapas. Por lo tanto, se seguirá utilizando el método de consenso, lo que garantiza la fiabilidad de los datos y reduce los errores en áreas críticas como los sistemas autónomos, la medicina y el análisis financiero.