El talón de Aquiles de las redes neuronales y del aprendizaje automático

Los humanos aprenden rápido, al absorber y procesar los datos del mundo que los rodea. Más tarde, a medida que comienzan a entender el lenguaje, pueden “programarse” a través de representaciones formales de información: escuchar a las personas mayores y hacer preguntas, leer y mirar / escuchar contenido de video y audio.

Hay una serie de factores que determinan lo bien que aprende una persona, incluida la calidad de sus “maestros” y el deseo del individuo de aprender, pero quizás el factor más crítico es lo que se les enseña. ¿Cuáles son sus entradas de datos?

Repita a un niño pequeño que el azul es naranja, o que un árbol es un automóvil, y él creerá que el azul es naranja o que un árbol es un automóvil, hasta que reciba la suficiente evidencia (o suficiente evidencia convincente) para creer lo contrario. E incluso entonces, puede ser difícil cambiar sus creencias iniciales.

Si llevamos este tema al área de la tecnología, observamos que la inteligencia artificial (IA) y sus componentes, como el aprendizaje automático y las redes neuronales, ya se están integrando en las empresas, en diversos sectores industriales, las finanzas, sanidad y el mundo de la fabricación.

Las organizaciones están utilizando máquinas inteligentes para mejorar su eficacia, para reducir costes, automatizar procesos,  ayudar a los responsables a tomar decisiones más rápidas y mejores, predecir eventos internos y externos, y mucho más. La IA, incluso, se ha utilizado por un par de expertos en tecnología musical, para crear un CD original de “black metal”.

Entonces, ¿por qué una red neuronal ha sido capaz de lograr un CD original? Porque eso es lo que se le enseñó a hacer, a través de un algoritmo creado para ello. Y un algoritmo solo puede funcionar con los datos que se le ofrecen. Estos expertos en música digital lo alimentaron con “datos”, en forma de bits de audio creados por una banda real.

Pero, ¿y si alimentaran al azar bits de audio de un concierto de Mozart o una balada popular de Pete Seeger? A menos que el algoritmo ignore estos bits de audio, porque no los reconozca, su introducción en la red neuronal haría que el CD de black metal deseado fuera menos auténtico (como suelen hacerlo los fagots y los banjos).

“El problema es tan antiguo como el procesamiento de datos en sí: basura dentro, basura fuera”, escribe Cory Doctorow en BoingBoing. “Reunir los conjuntos necesarios de datos, grandes y bien etiquetados, para entrenar a los sistemas de aprendizaje automático es un trabajo tedioso (de hecho, el objetivo y la promesa del aprendizaje automático es enseñar a las computadoras a hacer este trabajo, en el que los humanos generalmente no son buenos y no disfrutan).  Los accesos directos, que tomamos para producir conjuntos de datos, tienen costes elevados, que la industria no entiende bien.

Pete Warden, ingeniero y autor de tecnología, escribe en detalle cómo se ha impedido el progreso en el aprendizaje automático, porque se está gastando demasiado tiempo y energía en la mejora de los algoritmos, y muy poco esfuerzo en la calidad de los datos.

“Como parte de mi trabajo, colaboro estrechamente con muchos investigadores y equipos de producto, y mi creencia en el poder de la mejora de los datos proviene de las ganancias masivas que les he visto lograr, cuando se concentran en ese lado de la construcción de modelos”, asegura Warden. “La mayor barrera para usar el aprendizaje profundo, en la mayoría de las aplicaciones, es obtener la precisión suficiente en el mundo real, y mejorar su entrenamiento es la vía más rápida que conozco de mejorar la precisión”.

Lograr eso significa no ceder a los atajos, a los que alude Doctorowow.

“Puede parecer obvio, pero su primer paso debe ser examinar aleatoriamente los datos de capacitación”, escribe Warden. “Siempre me siento un poco tonto, al pasar por este proceso, pero nunca me he arrepentido después”.

En pocas palabras: Asegurar la calidad de los datos es imperativo, si te preocupas por la calidad de tus iniciativas de IA y aprendizaje automático.

Los datos de mala calidad son, sin duda, un problema real en el mundo de la IA y el aprendizaje automático.

Chris Nerney, escritor especializado en tecnología

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out /  Change )

Google+ photo

You are commenting using your Google+ account. Log Out /  Change )

Twitter picture

You are commenting using your Twitter account. Log Out /  Change )

Facebook photo

You are commenting using your Facebook account. Log Out /  Change )

Connecting to %s

%d bloggers like this: