La phase de préparation des données couvre toutes les activités visant à construire l’ensemble de données final ou les données qui seront introduites dans le ou les outils de modélisation à partir des données brutes initiales. Les tâches comprennent la sélection des tables, des enregistrements et des attributs, ainsi que la transformation et le nettoyage des données pour les outils de modélisation. Les cinq étapes de la préparation des données sont la sélection des données, le nettoyage des données, la construction des données, l’intégration des données et le formatage des données.”[1]
Description
Cette étape comprend toutes les activités nécessaires pour construire l’ensemble de données final qui est introduit dans le modèle, à partir des données brutes initiales. Elle comprend les cinq tâches suivantes, qui ne sont pas nécessairement exécutées de manière séquentielle.
- Sélectionner les données. Décidez des données à utiliser pour l’analyse, en fonction de leur pertinence par rapport aux objectifs de l’exploration de données, de leur qualité et des contraintes techniques telles que les limites du volume ou des types de données.
- Nettoyer les données. Amenez la qualité des données à un niveau requis, par exemple en sélectionnant des sous-ensembles de données propres, en insérant des valeurs par défaut et en estimant les données manquantes par modélisation.
- Construire des données. La construction de nouvelles données par la production d’attributs dérivés, de nouveaux enregistrements ou de valeurs transformées pour des attributs existants.
- Intégrer des données. Combinez les données de plusieurs tables ou enregistrements pour créer de nouveaux enregistrements ou valeurs.
- Formater les données. Apportez des modifications syntaxiques aux données qui pourraient être requises par l’outil de modélisation.
Principales mesures à prendre
- Garantir la précision des données personnelles
- Se concentrer sur les questions de profilage
- Sélection de données non biaisées
- Shearer, C. (2000) ‘The CRISP-DM model : the new blueprint for data mining’, Journal of Data Warehousing 5(4) : 13-23, p. 16. Disponible à l’adresse : https://mineracaodedados.files.wordpress.com/2012/04/the-crisp-dm-model-the-new-blueprint-for-data-mining-shearer-colin.pdf (consulté le 15 mai 2020). ↑
Liste de contrôle : Préparation des données
☐ Les responsables du traitement se sont assurés que les données sont précises, c’est-à-dire qu’elles sont correctes et à jour. ☐ Si un profilage ou une prise de décision automatisée est prévu : ☐ Les responsables du traitement ont envoyé aux personnes un lien vers leur déclaration de confidentialité lorsqu’ils ont obtenu leurs données personnelles de manière indirecte. ☐ Lesresponsables du traitement ont expliqué comment les personnes peuvent accéder aux détails des informations qu’elles ont utilisées pour créer leur profil. ☐ Les responsables du traitement ont communiqué aux personnes concernées qui leur fournissent leurs données à caractère personnel et la manière dont elles peuvent s’opposer au profilage. ☐ Les responsables du traitement ont mis en place des procédures permettant aux clients d’accéder aux données personnelles saisies dans leurs profils, afin qu’ils puissent les examiner et les modifier en cas de problème de précision. ☐ Les responsables du traitement ont mis en place des contrôles supplémentaires pour leurs systèmes de profilage/décision automatisée afin de protéger tout groupe vulnérable (y compris les enfants). ☐ Les responsables du traitement se sont assurés de ne collecter que le minimum de données nécessaires et d’avoir une politique de conservation claire pour les profils qu’ils créent. ☐ Les responsables du traitement ont réalisé une AIPD pour examiner et traiter les risques lorsqu’ils commencent toute nouvelle prise de décision ou tout nouveau profilage automatisé. ☐ Les responsables du traitement ont associé le DPD correspondant à ces activités. ☐ Les responsables du traitement ont pris en compte les exigences du système nécessaires pour soutenir une révision humaine significative dès la phase de conception. En particulier, les exigences d’interprétabilité et la conception efficace de l’interface utilisateur pour soutenir les examens et les interventions humaines. ☐ Les responsables du traitement ont conçu et dispensé une formation et un soutien appropriés aux réviseurs humains. ☐ Lesresponsables du traitement ont donné au personnel impliqué dans le traitement l’autorité, les incitations et le soutien appropriés pour traiter ou faire remonter les préoccupations des personnes et, si nécessaire, passer outre la décision du système d’IA. ☐ Les responsables du traitement ont veillé à ce que les équipes chargées de sélectionner les données à intégrer dans les jeux de données soient composées de personnes assurant la diversité dont le développement de l’IA est censé faire preuve. ☐ Les responsables du traitement ont veillé à ce que les facteurs qui entraînent des inexactitudes dans les données à caractère personnel soient corrigés et que le risque d’erreurs soit réduit au minimum. ☐ Les responsables de traitement ont mis en place des outils visant à prévenir les effets discriminatoires à l’égard des personnes physiques sur la base de l’origine raciale ou ethnique, des opinions politiques, de la religion ou des convictions, de l’appartenance syndicale, du statut génétique ou de santé ou de l’orientation sexuelle, ou qui aboutissent à des mesures ayant un tel effet. |