Comprensione del business
Comprensione dei dati
Preparazione dei dati
Modellazione (addestramento)
Valutazione (convalida)
Distribuzione
Allegato I: Audit degli strumenti di IA
Allegato II. Apprendimento automatico e ricerca sull'intelligenza artificiale a beneficio del paziente: 20 domande critiche in materia di trasparenza, replicabilità, etica ed effettività
Iñigo de Miguel Beriain (UPV/EHU)
Ringraziamenti: L’autore ringrazia Andres Chomsky, Oliver Feeney, Gianclaudio Malgieri Aurélie Pols e Marko Sijan la consulenza, l’input e i commenti alle bozze. Ovviamente, sono pienamente responsabile di tutti gli errori. |
La presente parte degli Orientamenti è stata rivista e convalidata da Marko Sijan, Specialista consulente senior, (HR, DPA)
INTRODUZIONE PARTE B
Questa seconda parte degli Orientamenti è redatta sulla base di un modello step-by-step, il modello CRISP-DM (CRoss Industry Standard Process for Data Mining),[1] ampiamente utilizzato per spiegare le fasi dello sviluppo di strumenti di analisi dei dati e data-intensive. Infatti, fu lo strumento utilizzato dal progetto SHERPA per lo sviluppo dei loro Orientamenti per lo sviluppo etico dei sistemi di IA e di Big Data.[2] Queste sei fasi sono: comprensione del business; comprensione dei dati; preparazione dei dati; modellazione; valutazione; e distribuzione. Non si tratta di una classificazione fissa, poiché spesso gli sviluppatori mescolano alcune di queste fasi. Ad esempio, un algoritmo addestrato potrebbe migliorare dopo una fase di convalida tramite un addestramento rinnovato.
Ciò nonostante, è necessario sottolineare che alcuni requisiti etici e legali relativi allo sviluppo di AI devono essere valutati nel corso dell’intero ciclo di vita di uno sviluppo di IA su base continuativa. I titolari del trattamento devono monitorare la legittimità etica del trattamento, così come i suoi effetti inattesi. Devono, inoltre, valutare il possibile impatto collaterale del suddetto trattamento in un ambiente sociale, oltre alle limitazioni della finalità inizialmente definite, la durata e l’estensione nel tempo.[3] E ciò dev’essere fatto nel corso dell’intero ciclo di vita di uno strumento di IA, ai sensi dell’Articolo 25 dell’RGPD. Come stabilito dal Gruppo di lavoro dell’articolo 29,
“Il titolare del trattamento dovrebbe effettuare valutazioni frequenti degli insiemi di dati che tratta, in maniera da rilevare eventuali distorsioni, e sviluppare metodi per affrontare eventuali elementi pregiudizievoli, compreso un eccessivo affidamento sulle correlazioni. I sistemi che verificano gli algoritmi e i riesami periodici dell’esattezza e della pertinenza del processo decisionale automatizzato, compresa la profilazione, sono ulteriori misure utili. Il titolare del trattamento dovrebbe introdurre procedure e misure adeguate per prevenire errori, inesattezze o discriminazioni sulla base di categorie particolari di dati. Queste misure dovrebbero essere attuate ciclicamente; non soltanto in fase di progettazione, ma anche in continuativamente, durante l’applicazione della profilazione alle persone fisiche. L’esito di tali verifiche dovrebbe andare ad alimentare nuovamente la progettazione del sistema.”[4]
Un’altra cosa che merita una riflessione è che l’IA è un’etichetta comune che include una varietà di tecnologie diverse. È necessario tracciare una distinzione fondamentale tra l’apprendimento automatico controllato (dati d’ingresso etichettati da esseri umani attribuiti a un algoritmo, che quindi definiscono le regole basate su esempi di casi convalidati) e apprendimento non controllato (dati di ingresso non etichettati attribuiti a un algoritmo, che realizza una classificazione propria ed è libero di produrre il proprio risultato quando presentato con un modello o variabile). L’apprendimento controllato richiede che i supervisori insegnino alla macchina il risultato che deve produrre, ovvero devono “addestrarla”. Teoricamente, l’apprendimento controllato è più semplice da capire e monitorare.[5] Inoltre, poiché i set di dati utilizzati nei processi di apprendimento sono selezionati dagli addestratori, potremmo arrivare, con molta probabilità, ad alcune delle sfide più preoccupanti poste da queste tecnologie. Un’IA non sorvegliata, e più specialmente tecniche come l’apprendimento profondo (deep learning), ha bisogno di un monitoraggio e un controllo più sofisticati, in quanto l’opacità, le distorsioni o la profilazione sono molto più difficili da rilevare, almeno in alcune fasi del ciclo di vita di un sistema di IA.
In questa parte degli Orientamenti, cerchiamo di fornire assistenza sia all’IA sorvegliata che non sorvegliata. Siamo consapevoli che è quasi impossibile fornire un consiglio per ogni situazione possibile. In ogni caso, ci auguriamo di essere in grado di sottolineare le basi e includere risorse informative supplementari utili. Infine, comprendiamo pienamente che alcuni esperti potrebbero considerare che alcune delle nostre raccomandazioni potrebbero essere spostate da una fase all’altra. Inoltre, alcune di esse potrebbero applicarsi a diverse fasi. Quindi, raccomandiamo caldamente l’adattamento dei presenti Orientamenti secondo la loro necessità e conoscenza.
La struttura del documento è semplice da seguire. In primo luogo, introduciamo una citazione al capitolo di Colin Shearer, seguita da una descrizione delle attività comprese in ciascuna fase concreta del processo, secondo lo stesso autore. Successivamente, introduciamo alcune raccomandazioni da implementare a quel punto. I riferimenti ad altri capitoli degli Orientamenti sono evidenziati, mentre i riferimenti ad altre parti di questo capitolo sono oggetto di riferimento incrociato. Infine, gli allegati includono riferimenti ad alcuni strumenti che potrebbero servire alle finalità della presente parte degli Orientamenti. L’Allegato I mostra le raccomandazioni per il controllo di strumenti di IA elaborate dall’Agenzia spagnola per la protezione dei dati. L’Allegato II è più specifico, in quanto fa riferimento all’uso dell’IA nel settore della salute. In ogni caso, si tratta di una guida eccellente per coloro che intendono sviluppare uno strumento di IA in quel settore. In futuro, cercheremo di incorporare altri allegati, non appena esista un meccanismo efficiente in tal senso.
- Shearer, C. (2000) ‘The CRISP-DM model: the new blueprint for data mining’, Journal of Data Warehousing 5(4): 13-23. Disponibile all’indirizzo: https://mineracaodedados.files.wordpress.com/2012/04/the-crisp-dm-model-the-new-blueprint-for-data-mining-shearer-colin.pdf (consultato il 15 maggio 2020). ↑
- Progetto SHERPA (2019) Orientamenti per lo sviluppo etico di sistemi di IA e di Big data: un approccio etico sin dalla progettazione. Progetto SHERPA. Disponibile all’indirizzo: www.project-sherpa.eu/wp-content/uploads/2019/12/use-final.pdf(consultato il 15 maggio 2020). ↑
- AEPD (2020) Adeguamento all’RGPD del trattamento che include Intelligenza Artificiale. Un’introduzione. Agenzia spagnola per la protezione dei dati, Madrid, pag. 7. Disponibile all’indirizzo: www.aepd.es/sites/default/files/2020-02/adecuacion-rgpd-ia.pdf (consultato il 15 maggio 2020). ↑
- Gruppo di lavoro dell’articolo 29 (2017) Orientamenti in materia di processi decisionali automatizzati e profilazione, definiti ai sensi del Regolamento 2016/679. Adottato il 3 ottobre 2017 come ultima revisione e adottato il 6 febbraio 2018. Commissione europea, Bruxelles, pag. 28. Disponibile all’indirizzo: https://ec.europa.eu/newsroom/article29/item-detail.cfm?item_id=612053 (consultato il 15 maggio 2020). ↑
- CNIL (2017) Come possono gli umani avere la meglio? Questioni etiche sollevate dagli algoritmi e dall’intelligenza artificiale. Commissione nazionale dell’informatica e delle libertà, Parigi, pag. 17. Disponibile all’indirizzo: www.cnil.fr/sites/default/files/atoms/files/cnil_rapport_ai_gb_web.pdf (consultato il 15 maggio 2020). ↑