Le talon d’Achille des réseaux neuronaux et de l’apprentissage automatique

statue-of-Achilles

Les humains apprennent d’abord en absorbant et en traitant naturellement les données du monde qui les entoure. Plus tard, à mesure qu’ils commencent à comprendre le langage, ils peuvent être « programmés » par le biais de représentations d’informations formelles telles qu’écouter les personnes âgées et poser des questions, lire et regarder / écouter du contenu vidéo et audio.

Il existe un certain nombre de facteurs qui déterminent la qualité de l’apprentissage d’une personne – y compris la qualité de ses « enseignants » et le désir de l’individu d’apprendre -, mais le facteur probablement le plus important est ce qu’on lui enseigne. Quelles sont les entrées de données ?

Dites à plusieurs reprises à un enfant que le bleu est orange, ou qu’un arbre est une voiture, et il croira que le bleu est orange ou que l’arbre est une voiture jusqu’à ce qu’il reçoive suffisamment de preuves (voire suffisamment de preuves convaincantes) pour admettre le contraire. Et même dans ce cas, il sera difficile de le sortir de ses croyances initiales.

Ce qui nous amène à parler de technologie. L’intelligence artificielle (IA) et ses composants, tels que l’apprentissage automatique et les réseaux neuronaux, sont déjà intégrés dans les réseaux d’entreprises de nombreux secteurs, notamment le secteur financier, la santé et l’industrie manufacturière.

Les entreprises utilisent des machines intelligentes pour améliorer l’efficacité, réduire les coûts, automatiser les processus, prendre des décisions, aider les dirigeants à prendre des meilleures décisions et plus rapidement, prévoir des événements internes et externes, etc. Deux technologues en musique ont même utilisé l’IA pour créer un album de musique “black metal” original.

Alors, pourquoi un réseau neuronal a-t-il fabriqué un album de black metal ? Parce que c’est ce qui lui a été enseigné à partir de l’algorithme construit à cette occasion, et qu’un algorithme ne peut fonctionner qu’avec les données qu’il présente. Ces technologues lui ont donné des “données” sous la forme de bits issus d’un CD de black metal créé par un groupe de musique humain.

Mais que se passe-t-il s’ils nourrissent au hasard les morceaux d’un concerto de Mozart ou d’une ballade folklorique de Pete Seeger ? À moins que l’algorithme n’ignore ces sons parce qu’il ne les reconnait pas, leur introduction dans le réseau neuronal rendrait le son black metal moins authentique (comme les bassons et les banjos ont tendance à le faire).

Le problème est aussi ancien que le traitement des données lui-même : « des déchets, encore des déchets », écrit Cory Doctorow dans BoingBoing. « Rassembler les grands ensembles de données bien étiquetés nécessaires à la formation des systèmes d’apprentissage automatique est un travail fastidieux (en fait, le but et la promesse de l’apprentissage automatique sont d’enseigner aux ordinateurs à faire ce travail, l’humain n’étant généralement pas doué à faire ce qu’ils n’aime pas). Les raccourcis que nous prenons pour produire des ensembles de données entraînent des coûts élevés que l’industrie ne comprend pas bien.

Pete Warden, ingénieur et auteur spécialisé en technologies, explique en détail comment les progrès en apprentissage automatique ont été entravés, car trop de temps et d’énergie ont été consacrés à l’amélioration des algorithmes et trop peu à la qualité des données d’apprentissage.

« Dans le cadre de mon travail, je travaille en étroite collaboration avec de nombreux chercheurs et équipes de produits et je suis convaincu que les améliorations des données engrangent d’énormes gains lorsque les équipent se concentrent sur ce modèle ». Pete Warden ajoute : « Le plus grand obstacle vis-à-vis de l’utilisation de l’apprentissage en profondeur dans la plupart des applications est d’obtenir une précision suffisante dans le monde réel. L’amélioration de l’ensemble des apprentissages est la voie la plus rapide pour améliorer la précision.”

Accomplir cela signifie ne pas céder aux raccourcis auxquels Cory Doctorow fait allusion.

« Cela peut sembler évident, mais la toute première étape devrait consister à parcourir aléatoirement les données d’apprentissage avec lesquelles vous avez commencé », écrit Pete Warden. « Je me sens toujours un peu idiot de procéder ainsi, mais je ne l’ai jamais regretté ensuite. »

Point essentiel : assurer la qualité des données est impératif si vous vous souciez de la qualité de vos initiatives IA et d’apprentissage automatique.

Des données de mauvaise qualité constituent sans aucun doute un réel problème dans l’univers de l’IA et de l’apprentissage automatique. Dans un prochain article, je parlerai d’un problème plus inquiétant encore.

Auteur : Chris Nerney 

 

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out /  Change )

Google+ photo

You are commenting using your Google+ account. Log Out /  Change )

Twitter picture

You are commenting using your Twitter account. Log Out /  Change )

Facebook photo

You are commenting using your Facebook account. Log Out /  Change )

Connecting to %s

%d bloggers like this: