Étape par étape
Home » IA » Étape par étape

Iñigo de Miguel Beriain (UPV/EHU)

Remerciements : L’auteur tient à remercier Andres Chomsky, Oliver Feeney, Gianclaudio Malgieri, Aurélie Pols et Marko Sijan pour leurs conseils, leur contribution et leurs commentaires sur les versions préliminaires. Il va sans dire que toutes les erreurs sont de mon entière responsabilité.

Cette partie des lignes directrices a été revue et validée par Marko Sijan, conseiller principal spécialiste (DPA RH).

 

Cette deuxième partie des lignes directrices est construite sur la base d’un modèle étape par étape, le modèle CRISP-DM,[1] , qui est largement utilisé pour expliquer les étapes du développement des outils d’analyse de données et d’IA à forte intensité de données. En effet, il s’agit de l’outil sélectionné par le projet SHERPA pour élaborer ses lignes directrices pour le développement éthique de l’IA et des systèmes de Big Data.[2] Ces six étapes sont les suivantes : compréhension de l’activité ; compréhension des données ; préparation des données ; modélisation ; évaluation ; et déploiement. Il ne s’agit pas d’une classification fixe, car il arrive très souvent que les développeurs mélangent certaines de ces étapes. Par exemple, un algorithme entraîné peut être amélioré après l’étape de validation par un nouvel entraînement.

Néanmoins, il faut souligner que certaines des exigences éthiques et légales concernant le développement de l’IA doivent être évaluées tout au long du cycle de vie d’un développement d’IA de manière continue. Les responsables du traitement doivent surveiller la légitimité éthique du traitement, et ses effets inattendus. Ils doivent également évaluer l’impact collatéral possible d’un tel traitement dans un environnement social, au-delà des limites initialement conçues de la finalité, de la durée dans le temps et de l’extension.[3] Et cela doit être fait tout au long du cycle de vie d’un outil d’IA, conformément à l’article 25 du RGPD. Comme l’a déclaré le groupe de travail Article 29,

“Les responsables du traitement devraient procéder à des évaluations fréquentes des ensembles de données qu’ils traitent afin de vérifier l’absence de tout parti pris et de mettre au point des moyens de remédier à tout élément préjudiciable, y compris tout recours excessif aux corrélations. Les systèmes qui vérifient les algorithmes et les examens réguliers de l’exactitude et de la pertinence de la prise de décision automatisée, y compris le profilage, sont d’autres mesures utiles. Les responsables du traitement doivent mettre en place des procédures et des mesures appropriées pour prévenir les erreurs, les inexactitudes ou la discrimination sur la base de données de catégorie spéciale. Ces mesures doivent être utilisées de manière cyclique, non seulement au stade de la conception, mais aussi de manière continue, au fur et à mesure que le profilage est appliqué aux personnes. Le résultat de ces tests devrait être pris en compte dans la conception du système.”[4]

Une autre idée qui mérite réflexion est que l’IA est un label commun qui englobe une variété de technologies différentes. Il convient de faire une distinction fondamentale entre l’apprentissage automatique supervisé (des données d’entrée étiquetées par des humains sont transmises à un algorithme, qui définit ensuite les règles sur la base d’exemples qui sont des cas validés) et l’apprentissage non supervisé (des données d’entrée non étiquetées sont transmises à un algorithme, qui effectue sa propre classification et est libre de produire ses propres résultats lorsqu’on lui présente un modèle ou une variable). L’apprentissage supervisé exige que les superviseurs enseignent à la machine les résultats qu’elle doit produire, c’est-à-dire qu’ils doivent la “former”. En principe, l’apprentissage supervisé est plus facile à comprendre et à contrôler.[5] De plus, étant donné que les ensembles de données utilisés dans les processus de formation sont sélectionnés par les formateurs, nous pourrions traiter certains des défis les plus inquiétants posés par ces technologies de manière tout à fait raisonnable. En revanche, l’IA non supervisée, et plus particulièrement les techniques telles que l’apprentissage profond, nécessite un suivi et un contrôle plus sophistiqués, car l’obscurité, les biais ou le profilage sont beaucoup plus difficiles à détecter, du moins à certaines étapes du cycle de vie du développement de l’IA.

Dans cette partie des lignes directrices, nous essayons de fournir un soutien à l’IA supervisée et non supervisée. Nous sommes conscients qu’il est presque impossible de fournir des conseils sur toutes les situations possibles. Cependant, nous espérons être en mesure de mettre en évidence les éléments fondamentaux et d’inclure des sources d’information supplémentaires utiles. Enfin, nous comprenons parfaitement que certains experts puissent considérer que certaines des recommandations que nous formulons pourraient être déplacées d’une étape à l’autre. En outre, certaines d’entre elles pourraient s’appliquer à plusieurs étapes différentes. Par conséquent, nous leur recommandons vivement d’adapter ces lignes directrices à leur convenance et selon leurs connaissances.

La structure du document est facile à suivre. Tout d’abord, nous introduisons une citation au chapitre de Colin Shearer,[6] suivie d’une description des tâches à accomplir à chaque étape concrète du processus, selon le même auteur. Ensuite, nous présentons quelques recommandations qui devraient être mises en œuvre à ce stade. Les références à d’autres chapitres des lignes directrices sont mises en évidence, tandis que les références à d’autres parties de ce chapitre font l’objet de renvois. Enfin, les annexes comprennent des références à certains outils qui pourraient servir les objectifs de cette partie des lignes directrices. L’annexe I présente les recommandations pour l’audit des outils d’IA élaborées par l’Agence espagnole de protection des données. L’annexe II est plus spécifique, puisqu’elle fait référence à l’utilisation de l’IA dans le secteur des soins de santé. Cependant, elle constitue un excellent guide pour ceux qui souhaitent développer un outil d’IA dans ce secteur. À l’avenir, nous essaierons d’intégrer davantage d’annexes, dès qu’un mécanisme efficace pour le faire sera produit.

 

  1. Shearer, C. (2000) ‘The CRISP-DM model : the new blueprint for data mining’, Journal of Data Warehousing 5(4) : 13-23. Disponible à l’adresse : https://mineracaodedados.files.wordpress.com/2012/04/the-crisp-dm-model-the-new-blueprint-for-data-mining-shearer-colin.pdf (consulté le 15 mai 2020).
  2. Projet SHERPA (2019) Lignes directrices pour le développement éthique des systèmes d’IA et de big data : une approche éthique par la conception. Projet SHERPA. Disponible à l’adresse : www.project-sherpa.eu/wp-content/uploads/2019/12/development-final.pdf (consulté le 15 mai 2020).
  3. AEPD (2020) Adecuación al RGPD de tratamientos que incorporan Inteligencia Artificial. Una introducción. Agencia Espanola Proteccion Datos, Madrid, p.7. Disponible sur : www.aepd.es/sites/default/files/2020-02/adecuacion-rgpd-ia.pdf (consulté le 15 mai 2020).
  4. Groupe de travail Article 29 (2017) Lignes directrices sur la prise de décision individuelle automatisée et le profilage aux fins du règlement 2016/679. Adoptées le 3 octobre 2017, telles que révisées en dernier lieu et adoptées le 6 février 2018. Commission européenne, Bruxelles, p.28. Disponible à l’adresse : https://ec.europa.eu/newsroom/article29/item-detail.cfm?item_id=612053 (consulté le 15 mai 2020).
  5. CNIL (2017) Comment l’humain peut-il garder la main ? Les questions éthiques soulevées par les algorithmes et l’intelligence artificielle. Commission nationale de l’informatique et des libertés, Paris, p.17. Disponible sur : www.cnil.fr/sites/default/files/atoms/files/cnil_rapport_ai_gb_web.pdf (consulté le 15 mai 2020).
  6. Shearer, C. (2000) ‘The CRISP-DM model : the new blueprint for data mining’, Journal of Data Warehousing 5(4) : 13-23. Disponible à l’adresse : https://mineracaodedados.files.wordpress.com/2012/04/the-crisp-dm-model-the-new-blueprint-for-data-mining-shearer-colin.pdf (consulté le 15 mai 2020).
Aller au contenu principal