La necesaria calidad de los datos para la IA

PrintMailRate-it

Publicado el 14.12.2023


Cuando hablamos de inteligencia artificial (IA) lo primero que debemos procurarnos es el sentido crítico y, como diría Hegel, deberíamos despreciar la opinión pública tal y como se nos aparece para poder llegar a conclusiones más elevadas. 




Y no es tarea fácil, dado que la propia inteligencia artificial se define a sí misma como lo siguiente, tras la consulta a un chatbot de reconocida fama:

"La inteligencia artificial (IA) es una rama de la informática que se ocupa del diseño de sistemas que pueden realizar tareas que requieren inteligencia humana, como el aprendizaje, la percepción, el razonamiento y la toma de decisiones. A medida que la IA se vuelve más avanzada, también se vuelve más importante garantizar que se utilice de manera ética y responsable."

Nada más y nada menos admite que la IA puede realizar tareas que requieren inteligencia humana, como el aprendizaje, la percepción el, razonamiento y la toma de decisiones. Por supuesto, todo ello aderezado del necesario temor a que estos sistemas finalmente nos suplanten, ¿quién sabe si quizá nos torturen como el HAL 9000 de Odisea en el espacio? 

De momento, lo que son capaces de hacer es, además de generar revuelo y encubrir despidos con la excusa de su tecnología, es generar texto a modo de texto predictivo con anabolizantes y con ciertos riesgos de información sesgada, filtrar datos sensibles procedentes de sus datasets, además de usar información comprimida que, de cierta manera, se vuelve inexacta y un largo etcétera de vulneraciones éticas y de derechos civiles. 

Poco se habla de las inexactitudes flagrantes que cometen los LLM’s (large language models) a la hora de dar información y esto se debe a las compresiones a las que está sometida la información de la que se sirven -en parte- para ofrecer sus resultados. Una técnica común utilizada por algoritmos de compresión con pérdida es la interpolación, que rellena las ausencias de información imitando lo que rodea a dichas ausencias. Sería algo parecido a suavizar una imagen con mucho ruido, con una ISO muy alta, pero con la imagen es más fácil mitigar esos errores, puesto que nunca sabremos lo que en realidad se ha fotografiado. Sin embargo, los músicos sí saben cómo suena un piano y les resulta muy fácil identificar una sonoridad comprimida, al igual que la voz comprimida nos resulta extraña y con tonos metálicos.

Los LLM’s tratan de rellenar los huecos en su información con mayor o menor fortuna. Los lingüistas, filólogos, lexicógrafos percibirán mejor los huecos, como el músico percibe la ausencia de armónicos del sonido de un piano en mp3. También, cualquiera que sepa que Pedro Sánchez no tiene barba puede darse cuenta de aquel conocido error de ChatGPT con un periodista. Podríamos decir que estos chats nos contestan a base de leer información con desinterés, como si estuviéramos saltándonos palabras y algún párrafo, mientras tenemos una conversación que nos interesa más.

Pero esos rellenar esos huecos también puede ser su fuerte y podemos pasarlo en grande jugando con respuestas -en las que no nos importa mucho el resultado- y ver cómo escribe un texto serio legal imitando a Chiquito de la Calzada: 

"¡Hombre, por la gloria de mi madre! Si me lo permites, te lo diré en el lenguaje que yo manejo mejor, el del humor. La inteligencia artificial es como un chiste, si no se cuenta bien, puede salir mal, ¡Jarl!"

Lo de los huecos en la información es uno de varios problemas a los que se enfrentan los LLM’s, porque pueden estar alimentados con información basada en propaganda, información incorrecta, conspiraciones, sesgos de género o de raza, etc. Y si sumamos estas cuestiones a los huecos que deben rellenar, vamos mal. Si en la tecnología que emplea el chat los huecos los rellenamos con información similar a la que contenían, no hay un gran problema, puede haber un desvío, pero si el chat se inventa la información, acaba diciéndonos que Pedro Sánchez tiene barba.

Para quitarle la barba a Pedro Sánchez deberíamos tener bases de datos que se compriman con acierto o poder tener la tecnología disponible para que los datasets consistan en información sin carencias y, en ese sentido, no vamos bien enfocados. Cada vez más contenido de la web se nutre de respuestas de estos chats y eso es como hacer fotocopias de otras fotocopias.

El principio de calidad de los datos no debería aplicarse solamente a sistemas de IA de alto riesgo, sino que debería ser un estándar técnico, máxime cuando se emplee para fines de investigación. No debemos caer tampoco en la desinformación y pensar que un simple texto musculado puede suplantar la complejidad de un cerebro. El día que un chatbot logre pensar como mi gata todavía está lejos. Sobre todo, si es como mi gata.​

Contacto

Contact Person Picture

Jorge Cabet

Abogado

Senior Associate

+34 915 359 977

Contactar

Deutschland Weltweit Search Menu