di Daniele Proverbio
Affrontare problemi complessi e gestire voluminose moli di dati mediante tecniche di machine learning: usare cioè tecniche di apprendimento automatico a partire da serie storiche di dati, così da generare conoscenza strutturata. È questo l’obiettivo di competizioni, sovente ben remunerate e di attualità sempre più stringente, che enti pubblici o privati bandiscono per chiedere ai programmatori di creare algoritmi generali e duttili, in grado di aderire al contesto di utilizzo generando la soluzione più accurata. Come accade, ad esempio, nel contest Intel & MobileODT Cervical Cancer Screening, ospitato dal portale Kaggle.com, che mira a sviluppare un programma in grado di identificare accuratamente lo stadio pre-tumorale del cancro cervicale a partire dalle immagini di screening, consentendo ai medici di agire anche in zone rurali e risparmiando tempo e risorse.
Dall’Ue nuove regole sul trattamento dei dati
L’Unione Europea è stata la prima istituzione a promulgare una regolamentazione stringente sull’utilizzo degli algoritmi di apprendimento automatico con il regolamento europeo sulla protezione dei dati (General Data Protection Regulation – GDPR), che estende i contenuti di una precedente direttiva in materia di gestione ed elaborazioni di dati personali. In particolare, l’articolo 22 affronta il tema degli algoritmi di apprendimento e profilatura (automated individual decision-making, including profiling) che, nell’intenzione del legislatore, garantirebbe la non-discriminazione e il cosiddetto “diritto alla spiegazione”.
La prima istanza, fortemente radicata nella legislazione dell’Unione tanto da essere contenuta nell’articolo 21 della Carta dei Diritti Fondamentali, vorrebbe bilanciare la tendenza degli algoritmi di apprendimento a collezionare i dati in cluster omogenei e inferire su di essi. Ad esempio, qualora un programma identificasse nella dicotomia bianco/nero un elemento per computare efficientemente la decisione di effettuare profilassi per il cancro cervicale, utilizzerebbe ingenuamente tale informazione, ma in modo potenzialmente discriminatorio e in violazione dell’articolo 9 sul trattamento di particolari categorie di dati personali. Viceversa, l’algoritmo potrebbe inferire l’appartenenza razziale di un individuo, violando quindi un dato sensibile, a partire da serie storiche in prima battuta innocue.
Il rischio “black box society”
Il “diritto alla spiegazione”, invece, non è completamente chiaro (cosa significa ‘spiegare la decisione di un algoritmo’, come previsto dagli articoli 13 e 14?) e può essere interpretato sia in un bisogno di trasparenza, sia come prevenzione di una paventata “black box society”, governata dai risultati di algoritmi talmente astratti da risultare umanamente non comprensibili. Sebbene siano considerati validi e affidabili nelle applicazioni, gli algoritmi di learning possiedono infatti un grave inconveniente: sono sovente molto difficili da interpretare. A volte, quando vengono coinvolti più livelli di astrazione, è impossibile giustificare l’output ripercorrendo le progressive stratificazioni di processi. Le metodologie algebriche utilizzate, infatti, poco si prestano ad essere interpretate secondo gli usuali canoni umani (vedi immagine sotto) che mostra la decomposizione di cifre scritte a mano nei suoi ‘autovalori’ (ossia le componenti matematiche di base la cui combinazione ricostruisce tutte le possibili calligrafie di una cifra). Ad oggi, la giustificazione più esaustiva sulla preferenza di un determinato processo di learning è sovente l’euristica.
Il machine learning nel futuro
È previsto che il GDPR diventi effettivo nell’aprile 2018. Sarà ancora possibile osservare un data scientist europeo alle prese con le competizioni di Kaggle, in cui efficienza e accuratezza sono ancora i parametri fondamentali? O verranno ispirate categorie che premiano la tutela del consumatore? Certamente il GDPR contiene iniziali elementi di rischio per la competitività, ma potrebbe anche offrire lo stimolo agli esperti di approfondire la ricerca di algoritmi meglio interpretabili, che possano suggerire trasparenza e equità alla loro controparte umana per una virtuosa applicazione nella società di una tecnologia utile, versatile ed estremamente potente.