Sottoscrivo pienamente questo intervento di @Michele_Silletti.
La qualità dei dati è fondamentale per la qualità dell’analisi statistica effettuata attraverso i sistemi di IA.
Il modo più semplice per “truccare” i calcoli (impropriamente confusi con “decisioni” da chi non ha ben chiaro il funzionamento di questi sistemi) di una IA è “manipolare i dati di ingresso”.
Rischio particolarmente importante perché alla portata non solo degli sviluppatori della IA, ma di chi la utilizza. Un utente esperto, con buona motivazione ed una comprensione reale dei meccanismi sottostanti potrebbe semplicemente fare diverse prove, con basi dati leggermente diverse, fino a trovare una configurazione dei dati che produca un risultato più confacente ai propri interessi.
Si può ipotizzare che un team di persone ben motivate e competenti porebbe addirittura generare un vero e proprio adversarial example per controllare il risultato.
A fronte dei dovuti ricorsi, la verifica processuale di tale condotta sarebbe piuttosto complessa, perché dovrebbe verificare non solo il corretto funzionamento del sistema di IA e la sua effettivamente corrispondenza alle specifiche dichiarate (ovvero che si tratti del software dichiarato, alla versione dichiarata, con i sorgenti forniti) ma anche che i dati in input siano effettivamente corrispondenti a quelli disponibili, alla data della esecuzione.
La chiave per garantire la qualità dei dati è prevedere responsabilità chiare in carico a funzionari preposti nella PA, riconducendo manomissioni o lacune facilmente prevenibili all’articolo 640 del codice penale.
Al contempo, eventuali leak di dati sensibili da parte di aziende fornitrici della PA dovrebbero essere punite con pesanti penali economiche (e probabilmente anche sanzioni di natura penale).