Ovviamente in questa discussione stiamo dando per scontato che esistano, in qualche universo perfetto, dei dati che non siano “biased”.
Il che non è ovviamente vero.
In un certo senso “i dati sono opinioni”, nel senso dell’essere consapevoli che il misurarli è un atto ideologico: io ho una mia ideologia e, quindi, penso che abbia senso misurare il mondo in un certo modo.
Ciò che cambia è che in questo caso, quando entra in gioco l’AI, questa ideologia è più difficile da identificare, e si può anche moltiplicare, perché c’è la mia, quella dell’ingegnere che ha fatto il software, quella sviluppata dall’AI tramite il traininig, eccetera, di moltiplicazione in moltiplicazione.
Però il problema esisteva sin dall’inizio, come sanno bene tutti i ricercatori che, con l’evoluzione della scienza, altro non fanno che evolvere queste ideologie, che rimangono bene finché qualcuno non ne trova di migliori. E, oltretutto, ogni scienziato sa benissimo, che il misurare fenomeni anche diametralmente contrastanti su uno stesso fenomeno non vuol dire che sia “sbagliato”. Vuol dire di certo che le diverse azioni hanno misurato quantità differenti rispetto al fenomeno. Hanno avuto “ideologie” differenti.
Quello che succede è che tutte queste ideologie sono utili per comprendere meglio il mondo.
Quindi benissimo accorgersi del bias. E altrettanto importante accorgersi che il bias è sintomo di diversità (per esempio rispetto a quello che misureremmo noi), e che può essere utilizzato per capire altre cose, per esempio su chi ha misurato in quel modo.
Questo modo di riutilizzare anche questi risultati che apparentemente sembrerebbero “sbagliati” è, tra l’altro, una delle cose più interessanti che iniziamo, come esseri umani, ad essere capaci di fare in maniera sistematica. Usando tra l’altro tutta la dotazione di bigdata, machine/deep learning, AI eccetera.