Évitons l’erreur humaine lors de la création d’une intelligence artificielle

Par Colin Priest, Senior Director du marketing produit chez DataRobot.

Votre intelligence artificielle est-elle construite correctement ?

La dernière fois que j’ai participé à un concours de data science, c’était il y a plus de trois ans. Pourtant, un épisode reste gravé dans mes souvenirs. J’avais passé une semaine entière devant mon ordinateur à coder une solution plutôt cool et j’étais prêt à envoyer ma première contribution à ce concours. D’après mes résultats à des concours précédents, j’étais confiant et je pensais arriver en haut du classement. J’ai donc cliqué sur Envoyer et attendu. Mais cette fois j’étais à l’avant-dernière place!

Une fois le choc initial passé et la déception digérée, j’ai examiné mon travail. En fait, le premier jour, j’avais fait une erreur de codage stupide en me trompant dans un nom de colonne. Le modèle n’avait aucune valeur. Une semaine de travail perdue ! C’était embêtant, mais heureusement il ne s’agissait pas d’une application professionnelle stratégique ou d’une application de santé, ce qui aurait pu entraîner plusieurs millions de dollars de pertes ou affecter des décisions vitales.

La plupart des applications d’intelligence artificielle modernes s’appuient sur des algorithmes de machine learning, dont la plupart étaient créés manuellement il y a encore peu de temps. Comme toutes les tâches manuelles, le codage et la conception du modèle sont susceptibles de contenir des erreurs humaines, d’autant plus si vous créez une solution totalement nouvelle et complexe. Il faut donc des outils de développement avec des garde-fous pour avertir les data scientists et les empêcher de faire des erreurs lourdes de conséquences.

Alors que les entreprises évoluent et démocratisent la data science, le risque d’erreur humaine augmente. Les outils logiciels modernes ont permis aux citizen data scientists de créer plus facilement des modèles prédictifs. Cependant, malgré la simplicité sans précédent et la prise en main rapide du machine learning, un danger demeure : les utilisateurs doivent encore suivre de nombreuses bonnes pratiques pour obtenir des résultats fiables. Mais pour la plupart des solutions de machine learning, la mise en œuvre manuelle des meilleures pratiques nécessite des connaissances et de l’expérience. Le novice ne dispose alors d’aucun garde-fou.

Les garde-fous de la data science

À quoi ressemblent ces garde-fous et comment peuvent-ils vous aider ? Je vais utiliser des données personnelles publiées par Lending Club pour une étude de cas. Lending Club est la plus grande plate-forme de prêts entre particuliers du monde. Elle fournit des données financières à des investisseurs, ce qui les aide à développer des modèles d’évaluation du risque de crédit afin de mieux choisir et garantir leurs investissements sous forme de prêts. Si ces modèles sont défectueux, les investisseurs risquent de perdre de l’argent sur les mauvais prêts.

Certaines caractéristiques (ou propriétés individuelles mesurables) d’entrée n’ont pas leur place dans un modèle d’évaluation du risque de crédit, parce que vous ne connaîtrez pas leurs valeurs lorsque vous évaluerez l’application de prêt ou parce que ce sont simplement des approximations pour la valeur que vous essayez de prédire. C’est ce que les data scientists appellent le « target leakage ».

Cherchez un outil de machine learning doté de garde-fous qui détectent automatiquement le « target leakage ». Dans la capture d’écran ci-dessus, le statut final du prêt a été signalé comme étant à l’origine d’un « target leakage ». En effet, ce statut n’est pas connu avant la fin de la période du prêt et est simplement une valeur approximative pour indiquer un problème avec le prêt. Un modèle qui a été entraîné pour prévoir les mauvais prêts en utilisant le statut final n’a aucune valeur.

Certaines caractéristiques (propriétés individuelles mesurables) d’entrée n’ont pas leur place dans un modèle parce qu’elles ne contiennent pas d’informations utiles, ou sont des doublons ou d’autres colonnes.

Cherchez un outil de machine learning doté de garde-fous qui détectent automatiquement les colonnes qui ne donnent pas d’informations et les colonnes en double. Dans la capture d’écran ci-dessus, DataRobot a exclu l’ID de membre du modèle parce qu’il s’agit d’un identificateur de ligne de base de données. Les valeurs de l’échéancier ont été exclues parce que très peu de lignes de cette colonne s’écartent de la valeur habituelle. Le statut de liste initial a été exclu parce que toutes les lignes contiennent la même valeur. Les valeurs pour le recouvrement de créances des 12 derniers mois sont des doublons d’une autre colonne, elles ont donc été exclues également. Les colonnes peu informatives et les colonnes en double peuvent causer des erreurs dans certains algorithmes de machine learning. Plus ennuyeux encore, elles peuvent inciter un algorithme à « apprendre » une tendance dans les données alors que celle-ci n’est due qu’au hasard.

En réalité, il y a des valeurs manquantes dans de nombreuses bases de données. Pourtant, de nombreux algorithmes et modèles statistiques populaires n’acceptent pas les lignes de données où il manque des valeurs. Certaines bibliothèques écartent ces lignes de données pratiquement sans avertissement. Sans ces lignes, un modèle va probablement faire des prédictions biaisées. Par exemple, pour la majeure partie du jeu de données Lending Club, les personnes concernées n’ont jamais eu de difficultés de remboursement de crédit. Il y a donc des valeurs manquantes. Un modèle entraîné sur ces données et qui a exclu les lignes des valeurs manquantes sera exagérément pessimiste. Il n’aura pas « appris » qu’une telle valeur manquante indique un bon risque. Recherchez un outil de machine learning capable d’identifier automatiquement les données avec des valeurs manquantes et d’imputer au mieux ces valeurs pour chaque type d’algorithme.

La précision des modèles statistiques a toujours été mesurée par rapport aux données sur lesquelles ils ont été entraînés. Mais la vraie valeur des modèles prédictifs réside dans leur efficacité avec de nouvelles données. Autrement dit, il est recommandé d’évaluer la précision de ces modèles en utilisant des données autres que celles de l’échantillon.

Recherchez un outil de machine learning qui partitionne automatiquement les données historiques pour séparer les données d’entraînement et les données de validation. La précision du modèle est calculée avec de nouvelles données qui n’ont pas servi à l’entraîner. Les garde-fous doivent garantir que les modèles sont évalués uniquement avec les données de validation, jamais avec les données d’entraînement. Dans la capture d’écran ci-dessus, vous voyez que DataRobot a utilisé des garde-fous pour séparer les données en trois ensembles : entraînement, validation et holdout. Par ailleurs, les modèles sont classés d’après leur précision, déterminée par la validation croisée. Sans ces garde-fous, vous risquez de choisir un modèle qui fait de bonnes prédictions sur les données historiques, mais fonctionne mal sur les nouvelles données.

Notre perception humaine peut être faussée lorsqu’il s’agit de choisir des algorithmes. Certains sont prudents et utilisent toujours les mêmes algorithmes, tandis que d’autres vont se laisser séduire par la toute dernière bibliothèque de machine learning. Recherchez un outil de machine learning doté de garde-fous, afin de sélectionner seulement les algorithmes les mieux adaptés aux données d’entraînement, et qui classe objectivement une diversité d’algorithmes afin de trouver le plus performant.

N’oublions pas que le choix d’un modèle ne repose pas uniquement sur la précision. Certaines applications d’intelligence artificielle sont sensibles au facteur temps. Aussi, recherchez un outil de data science qui mesure la vitesse de prédiction de chaque modèle et qui met en œuvre des garde-fous pour recommander le modèle qui présente le meilleur équilibre entre vitesse et précision. Dans la capture d’écran ci-dessus, vous voyez que DataRobot ajoute des badges aux modèles pour en recommander un pour le déploiement. Il identifie également celui qui offre la meilleure précision et celui qui présente le meilleur équilibre vitesse/précision.

Conclusion

L’élaboration manuelle d’une application d’intelligence artificielle moderne comporte beaucoup de risques. Personne n’est parfait, et une erreur humaine peut compromettre la réussite de vos projets.

Comme le souligne EY, votre intelligence artificielle « peut mal fonctionner, être endommagée délibérément et être influencée par les comportements humains (et les codifier), ce qui n’est pas forcément visible immédiatement. Ces défauts ont des répercussions importantes sur la sécurité, la prise de décision et la crédibilité, et peuvent entraîner des procédures coûteuses, des préjudices pour la réputation, une contestation des clients, une baisse de rentabilité et un contrôle par les organismes de réglementation. »

Les garde-fous fournissent des alertes et font respecter les meilleures pratiques, ce qui permet d’éviter des erreurs coûteuses lors de la création d’applications d’intelligence artificielle. DataRobot, leader dans le secteur du machine learning automatisé, propose le seul outil de machine learning équipé de multiples garde-fous, notamment pour le « target leakage », les colonnes peu informatives, les valeurs manquantes, le partitionnement des données, la précision « hors échantillon », la sélection des algorithmes, etc. Cliquez ici pour en savoir plus sur ces mécanismes ou pour les voir en action dans une démonstration.

À propos de l’auteur :

Colin Priest est Senior Director du marketing produit chez DataRobot. À ce titre, il conseille les utilisateurs métier sur la création des business cases et pilote des projets de data science. Il a occupé plusieurs postes de PDG et de directeur général qui lui ont donné l’opportunité de soutenir des initiatives de data science dans différents secteurs : services financiers, santé, sécurité, pétrole et gaz, administration et marketing. C’est un fervent partisan de l’utilisation des données dans la prise de décisions et de l’automatisation dans l’amélioration de l’expérience client. Passionné de sciences médicales, il soutient bénévolement la recherche contre le cancer.

Leave a Reply