approfondimenti
OPINIONI
Gli algoritmi all’epoca della start-up nation: su Parcoursup e la riforma dell’università
Big Data e istruzione: il caso francese all’interno del quinquennio di Emmanuel Macron
Con un’espressione divenuta ormai famosa, la Harvard Business Review ha definito la Data Science «il mestiere più sexy del XXI secolo» [1] . In generale, la dibattuta definizione di questo campo indica la capacità di estrarre previsioni a partire da grandi basi di dati. Un pilastro della disciplina è il Machine Learning (ML), cioè l’utilizzo di tecniche statistiche perché un computer sia in grado di ”imparare” senza essere esplicitamente programmato per farlo. Ad esempio, più del 95% dei profitti di Facebook provengono dalla vendita di spazi pubblicitari “mirati”[2]: per ogni utente, la piattaforma è in grado di mostrare pubblicità’ selezionata da algoritmi di ML sulla base delle sue attività passate.
Al di là delle definizioni, la possibilità di estrarre previsioni da grandi moli di dati è già il motore del capitalismo moderno: «Data is the oil of the 21st century», per dirla con una battuta molto diffusa nel mondo dei Big Data [3].
In questo contesto, un pilastro del quinquennio di Emmanuel Macron all’Eliseo consiste proprio nella riconversione di una parte importante dell’economia francese verso il settore del numerico. Slogan programmatici come «fare della Francia una start-up nation» o «costruire una Silicon Valley francese»corrispondono esattamente a imboccare questa direzione e sono accompagnati da scelte politiche già evidenti nel primo anno di presidenza. Ad esempio, è recente l’annuncio di un finanziamento massiccio del settore dell’intelligenza artificiale (1,5 miliardi di Euro) e a un “piano per l’intelligenza artificiale” in 6 punti pensato in collaborazione col matematico Cédric Villani [4], che ha corrisposto alla decisione di molte delle più importanti piattaforme (Google, Facebook, Microsoft, …) di aprire centri di R&D nella regione di Parigi. Parallelamente, si sta registrando un importante potenziamento del settore della formazione professionale nell’ambito numerico nella regione dell’Île-de-France. Ancora, il presidente parla di un regime fiscale adattato alle esigenze dell’economia digitale [5] e candida la Francia ad essere il rappresentante europeo del settore [6], assumendo un ruolo analogo a quello della Germania con l’ “industria 4.0”.
È evidente che il settore dell’istruzione superiore e universitaria gioca un ruolo strategico in questo piano, in quanto deve produrre lavoratori formati per le esigenze del nuovo mercato del lavoro. Con questo non si intende solo il piano dei contenuti, ma in primis l’aver introiettato fin dall’inizio del percorso di studi gli elementi cardine del sistema: “meritocrazia”, competizione, selezione. Nel febbraio 2018 il governo ha infatti approvato una riforma dell’accesso all’università, la “Loi ORE” (“Orientation et réussite des étudiants”), che in particolare ne riforma il sistema di selezione in accesso. Tale riforma si inquadra dunque in questo piano globale del quinquennio di Macron.
In sintesi, un liceale può inviare la propria candidatura a diversi corsi universitari tramite una piattaforma online, Parcoursup [7]. Tale candidatura deve essere supporta da un dossier che include voti al liceo, un CV, una lettera di motivazione e addirittura una “fiche avenir”, una valutazione compilata dai professori del liceo che, basandosi sull’esperienza con l’allievo, devono giudicarne le potenzialità per la futura carriera universitaria.
I dossier sono in seguito “classificati” dalle commissioni di ogni corso di studi che deve produrre un ranking degli studenti e inviarlo alla piattaforma. Infine, questa si occuperà di “smistare” i candidati assegnando loro delle proposte di ammissione basandosi su un algoritmo sviluppato appositamente. Se la presenza di una piattaforma online e di un algoritmo non sono novità assolute in Francia (Parcoursup è stato preceduto da APB – “Admission Post-Bac”, un diverso sistema di candidatura che già faceva uso di un diverso codice), la riforma recente contiene alcuni elementi decisivi per comprendere il ruolo degli algoritmi stessi, la loro funzione di dispositivi, e alcuni elementi di confusione intorno al dibattito sulla digitalizzazione. Il caso Parcoursup è quindi emblematico in questo senso, al di là della specificità della formazione universitaria e del caso francese, e vale la pena capirlo a fondo.
Da pochi giorni i primi risultati della nuova procedura di ammissione sono pubblici, insieme all’algoritmo che assegna i posti ai candidati [8]. Non sorprende che, in un contesto di informatizzazione dell’economia e della formazione, la partita si giochi proprio intorno a un algoritmo. Il delegare a un codice il dispositivo di selezione è un’operazione che fornisce ai promotori della riforma un apparato discorsivo già pronto a nascondere la sua violenza dietro l’aura di oggettività e neutralità che gli algoritmi hanno, a partire dalla loro definizione: un insieme di regole volte a risolvere un problema in un numero finito di operazioni.
Al contrario, questi vanno intesi come strumenti al servizio di un sistema che li pensa e produce all’interno di un indirizzo politico ben preciso (in questo caso la riconversione digitale nella Francia di Macron), e sono tutto il contrario che neutrali.
Bisogna quindi discutere il funzionamento di Parcoursup secondo due assi: da un lato il suo appartenere al piano-Macron per l’avanzamento del capitalismo delle piattaforme in Francia, dall’altro capendo dove si gioca davvero la partita “contro l’algoritmo”, cioè come e in quali parti della procedura il codice “digitalizza” dei dispositivi di selezione e controllo.
è importante partire dalla retorica della “trasparenza” che ha accompagnato il rilascio del codice. Secondo il comunicato del ministero, questo favorirebbe «la pleine compréhension des mécanismes de la nouvelle procédure d’entrée dans l’enseignement supérieur» [9]. Parole non false in sé, ma che concentrano il dibattito intorno a una piccola parte della procedura: il codice reso pubblico assegna infatti ai candidati delle proposte di iscrizione, a partire da un input che consiste in un ranking dei candidati stessi.
Un aspetto decisivo per comprendere il concetto di “non-neutralità ” di un algoritmo è proprio capire che la sua comprensione non significa nulla se decontestualizzata dal tipo di input e da una riflessione sull’output. Spieghiamo meglio di cosa si tratta nel caso specifico di Parcoursup.
La procedura prevista, come anticipato, si articola in tre passaggi:
1 – il candidato esprime delle preferenze per la sua iscrizione, inviando un dossier.
2 – I dossier sono classificati da apposite commissioni di ogni formazione.
3 – La piattaforma, con l’aiuto del codice pubblico, riceve in input il ranking del punto 2 e invia le proposte ai candidati
Il codice reso pubblico non riguarda che il punto 3, mentre è cruciale capire che non si può parlare di un algoritmo senza considerarne la totalità, compresa la scelta dell’input. Qui si gioca una parte decisiva della partita.
In particolare, nella fase 1 prende forma la trasposizione degli elementi di selezione e competizione tipici dell’impresa al mondo della formazione, cui si accennava sopra. In particolare, il candidato deve inviare un curriculum e una lettera di motivazione, sapendo (punto 2) che contribuiranno al suo posizionamento in un ranking. Lo scopo dunque si sposta dal mostrare interesse al mostrare “più interesse” e competenze rispetto ad altri, in una logica di competizione imposta direttamente a livello della formazione di base.
La fase 2 è il cuore del dispositivo e vale la pena di parlarne diffusamente. È importante notare che l’algoritmo non accetta casi di “parità” come input: ogni commissione è forzata a fare una scelta selettiva. Un tipico caso in cui il codice è tutt’altro che neutrale.
Il lavoro di ranking dei candidati consiste nel dover valutare migliaia di dossier in poche settimane. Su questo punto (e su alcuni aspetti del punto 3, come l’”effetto imbuto”, di cui parleremo poi ) si stanno giustamente concentrando la maggior parte delle critiche. È già stato spiegato molte volte [10] come la pretesa “trasparenza” di Parcoursup sia una mera operazione comunicativa che nasconde il lato oscuro della procedura nella fase del ranking per diversi motivi.
Innanzitutto ciascuna commissione può evidentemente adottare criteri diversi. I dati su cui valutare sono infatti molteplici e hanno un diverso impatto e significato: dai voti scolastici, al liceo di provenienza, al genere, alle lettere di motivazione, fino alla già citata “fiche avenir”.
Un altro aspetto consiste nella mole di dossier da valutare in pochissimo tempo, il che fa sì che il giudizio debba essere nel migliore dei casi emesso velocemente sulla base di poche caratteristiche “notevoli”, altro aspetto tipico della selezione competitiva sul mercato del lavoro (mettere in risalto le competenze nel proprio CV, sapendo che verrà letto con un’occhiata che cercherà’ di coglierne gli aspetti salienti). Nel peggiore dei casi, le commissioni si sono aiutate con un pre-processing dei dossier per mezzo di codici sviluppati localmente, che aiutassero in una pre-classificazione per risparmiare tempo [11], sulla base di criteri che non saranno resi pubblici. Particolarmente grave (e poco sottolineato) è il fatto che la questione della pubblicazione degli algoritmi di “classificazione locale” è stata lungamente dibattuta in parlamento, arrivando a un voto dei deputati [12] che approva un emendamento per la non-pubblicazione proposto dal governo: un voto che cancella di fatto qualsiasi “trasparenza” e che va addirittura contro la legge «pour une République numérique» dell’ottobre 2016 che impone alle amministrazioni pubbliche di rendere pubblici gli algoritmi utilizzati nei processi di selezione.
È evidente che sulla scelta degli elementi su cui valutare e sul tempo a disposizione, che spinge ad automatizzare il più possibile la procedura, si gioca la vera partita politica e di giustizia sociale. Ad esempio, nella valutazione di migliaia di dossier è impossibile leggere ogni lettera di motivazione e valutare ogni percorso a fondo, mentre (a livello dichiarato o inconscio) giocheranno sempre di più caratteristiche come il liceo di provenienza, il che rafforzerà l’esclusione e la svalutazione di molti percorsi superiori [13]. Questo elemento segna un passaggio decisivo verso un sistema di classe: non è piu un diploma statale a garantire l’accesso all’istruzione pubblica, ma l’avanzamento si basa su criteri esterni, che favoriscono le classi più elevate. Su questo punto ritorneremo commentando la fase 3.
La questione è se questi elementi siamo abbastanza per comprendere il funzionamento del dispositivo. Vale la pena di interpretare questa fase alla luce della trasformazione del lavoro nella direzione digitale di cui si è parlato all’inizio.
In particolare è cruciale sottolineare il fatto che non ci si possa limitare a rilevare come la “trasparenza” sia in realtà assente, nè che il tempo per la valutazione dei dossier è troppo ristretto. Anche un discorso che si limiti a criticare l’impossibilità di tradurre in un numero il giudizio su una persona appare limitante, per quanto corretto.
Bisogna notare invece come il tipo di ripartizione dei compiti insito in Parcoursup (una commissione che fornisce dei “numeri” in pasto a un algoritmo, che si occupa di finalizzare la procedura decisionale) vada nella direzione di una trasformazione strutturale del lavoro nel capitalismo moderno, e in particolare del rapporto tra uomo e macchina: apparentemente, è ora l’uomo che serve da “strumento” per permettere a una macchina di finalizzare il compito. In questo caso, la commissione fornisce un input alla piattaforma.
Si è parlato all’inizio di Data Science. Un esercizio molto comune nelle formazioni in questa materia consiste nel dover prevedere la buona riuscita di uno studente in un’università americana, a partire da dati come la sua media dei voti al liceo e i suo risultato nel test GRE [14]. Poche riche di codice bastano a allenare un algoritmo che può raggiungere un’ottima precisione nel fornire previsioni a partire da nuovi dati. Non stupirebbe se, aggiungendo alle informazioni a disposizione elementi come reddito, genere, razza, codice postale, tale precisione aumentasse ancora.
Questo esercizio ricorda molto l’ “oscura” procedura di pre-selezione di Parcousup. è interessante menzionarlo per capire meglio i problemi insiti nei concetti di “trasparenza” e “oggettività”. Paradossalmente, un moderno algoritmo di ML sarebbe in grado di classificare le migliaia di dossier di Parcoursup in poche ore, tenendo conto di tutte le informazioni (comprese lettere di motivazione e CV attraverso i cosiddetti algoritmi di sentiment analysis). Potremmo estrarre anche una lista delle informazioni che hanno pesato di più nella “decisione” finale e fornire così una “spiegazione” della decisione stessa, oltre che raggiungere un’ “accuratezza” più alta di quella umana.
È interessante rilevare che questa completa de-umanizzazione di un processo che è umano per eccellenza, come la lettura di una lettera, è probabilmente rallentata (oltre che da problemi tecnici) dalla necessità di mantenere un piano comunicativo che renda comunque più accettabile la procedura di selezione: «C’est un processus humain, qui n’est pas régi par une machine», ha commentato il ministro dell’istruzione a proposito della classificazione dei dossier (ma, come abbiamo visto, l’affermazione è in molti casi falsa). Prova ne è il fatto che queste tecniche sono già largamente utilizzate, ad esempio, in ambito lavorativo per valutare la performance dei dipendenti delle aziende.
Tuttavia, rilevare questo aspetto è ben diverso dal sostenere che il ruolo “umano” sia subalterno all’algoritmo, o rassegnarsi a condurre una battaglia “contro” l’algoritmo tout-court. Si tratta di mettere l’accento sull’importanza dell’ input, come già detto in precedenza a proposito di Parcoursup. In Data Science, questo processo ha un nome specifico: feature selection, cioè scelta degli elementi su cui far allenare la macchina a prendere decisioni. Saranno questi elementi a determinare la decisione, “selezionati” da umani e influenzati dalle loro scelte politiche. Questo aspetto è noto come bias. Ad esempio, un algoritmo che interpreta il linguaggio sarà soggetto agli stessi pregiudizi di razza e genere del linguaggio comune, essendo allenato a partire da questo [15]. Nel caso del successo scolastico, un bias rispetto a elementi come il liceo di provenienza, la razza, il reddito è già realtà, sia esso fornito da un algoritmo, da una commissione o da una combinazione tra le due.
Veniamo infine al terzo passaggio della procedura di Parcoursup. La modifica chiave rispetto al precedente sistema APB consiste nella classificazione delle scelte da parte di un candidato. In precedenza, un candidato a cui venisse assegnato un posto era automaticamente escluso da tutte le candidature successive nella lista delle preferenze da lui espresse. Ad esempio, un candidato a cui venisse offerto un posto che corrispondeva alla sua seconda scelta, sarebbe stato escluso dalle graduatorie a partire dalla sua terza scelta in giù.
La rimozione di questo elemento, insieme alla procedura di ranking del punto 2, è la chiave di volta del dispositivo di selezione. È evidente che i candidati classificati “migliori” in uno stabilimento avranno molte probabilità di essere tra in “migliori” anche in un altro (diciamo almeno nel miglior 20%). è prevedibile (anzi ci sono testimonianze di questo tra i primi risultati di Parcoursup) che una fascia ristretta di candidati riceva molte proposte, mentre una fascia molto più larga non ne ottenga alcuna, almeno in un primo momento. Questo fenomeno è noto come winner-takes-all [16].
Questo passaggio è un esempio lampante del fatto che, al di là della sua pretesa di “neutralità”, un algoritmo sia la traduzione di precise scelte politiche. Vediamo anche quali. Il fenomeno winner-takes-all è un elemento chiave della formazione di alto livello (dal PhD in avanti), e l’’effetto-imbuto di Parcoursup è un dispositivo già messo alla prova con successo alla fine del dottorato. La sproporzione tra numero di borse di dottorato (particolarmente in materie scientifiche) e posti disponibili nel settore della ricerca pubblica fa sì che solo una minoranza dei dottori rimanga nell’università[17]. Una maggioranza sempre maggiore costituisce forza lavoro altamente formata a spese pubbliche a disposizione del capitalismo delle piattaforme.
L’adottare un meccanismo simile a livello liceale significa replicare lo stesso fenomeno un gradino più in basso nel percorso di formazione, con l’aggravante che, più si retrocede nel livello di età ed istruzione, più le conseguenze escludenti del bias si fanno violente.
Alla luce di questa analisi, il dispositivo di Parcoursup si rivela quindi pienamente coerente con la politica di Macron e in particolare con il suo ruolo di rappresentante del capitalismo delle piattaforme in Europa. Per riprendere l’analogia con la Germania, il processo in atto nell’economia francese ricorda l’integrazione tra percorsi professionali e industria 4.0 nel sistema di istruzione tedesco.
L’istruzione gioca un ruolo determinante in questo quadro e non sorprende che la Loi ORE sia stata approvata nel primo anno del quinquennio.
Ma il rapporto tra linea politica, trasformazione del lavoro, scelte e implementazione dei criteri di selezione vanno letti all’interno di una cornice unica. Parallelamente, ci si deve chiedere su quale piano strutturare una risposta.
Due elementi chiave sono quella che abbiamo chiamato feature selection per il ranking (quindi il bias) e l’algoritmo in sé.
Vale la pena di citare in conclusione un terzo elemento determinante: il possesso dei dati.
Nel caso di Parcoursup, ad esempio, per comprendere a fondo il funzionamento della procedura occorrerà conoscerne nel dettaglio l’esito. Il rilascio del codice e dei risultati sono una minima parte dell’informazione necessaria. Questo aspetto riflette più in generale un altro elemento cardine dell’economia delle piattaforme: non sono solo gli algoritmi a giocare un ruolo chiave, ma lo è il possesso dei dati. In questo caso, i dati sui risultati della selezione non sono conosciuti: ad esempio, qual è la distribuzione della percentuale di proposte ricevute in base al liceo di origine, al reddito, alla razza? Una parziale inchiesta in Île-de-France mostra ad esempio i primi indizi di una sproporzione evidente tra la banlieue e il centro [18]. Una battaglia sulla conoscenza dei dati integrali sarà fondamentale in questo senso nel contesto di una battaglia contro la selezione.
L’analisi della selezione delle features e del ranking pone infine una questione: davvero l’inversione del rapporto uomo-macchina relega il nostro ruolo a manodopera, mentre la battaglia si sposta sull’algoritmo? Anche nel caso di Parcoursup, è determinante capire che le due questioni sono intrinsecamente legate: se la feature-selection è il corrispettivo digitale dei meccanismi di esclusione, nell’algoritmo è tradotta la selezione. In ogni caso, le fasi sono inscindibili, profondamente legate all’impatto umano e politico che le circonda e quindi tutt’altro che “neutrali” o “trasparenti”. Su questo rapporto tra dispositivi già esistenti e la loro implementazione digitale si gioca la partita contro il capitalismo delle piattaforme. Gli interventi in questa direzione potrebbero riguardare la finanza pubblica, la giustizia, le città, la sanità .
Emmanuel Macron ha le idee chiare: «Quand vous prenez une décision politique, il faut une part de jugement personnel. C’est la qualité d’un décideur, et l’intelligence artificielle ne remplacera jamais cela.» [19]
Occorre stare al passo con la sua offensiva e capire di quali strumenti dotarsi. Parcoursup rappresenta, come abbiamo visto, un esperimento generalizzabile a molti altri settori. Dall’analisi possiamo evidenziare almeno due linee: da un lato, una campagna per una riappropriazione integrale dei dati, inclusi gli algoritmi locali. Parallelamente, delle inchieste dal basso potrebbero fornire nuove prospettive per comprendere la portata del dispositivo. Dall’altro lato, il ruolo degli algoritmi impone forme di organizzazione che si pongano nell’ottica di mettere l’algoritmo stesso al centro della contrattazione.
Articolo pubblicato su platenqmil
[1] https://hbr.org/2012/10/data-scientist-the-sexiest-job-of-the-21st-century
[2] https://www.statista.com/statistics/267031/facebooks-annual-revenue-by-segment/
[3] https://medium.com/project-2030/data-is-the-new-oil-a-ludicrous-proposition-1d91bba4f294
[6] https://en-marche.fr/emmanuel-macron/le-programme/numerique
[7] https://www.parcoursup.fr/
[8] https://framagit.org/parcoursup/algorithmes-de-parcoursup/tree/master
[10]http://www.liberation.fr/france/2018/05/22/que-nous-apprend-l-algorithme-de-parcoursup-qui-a-ete-rendu-public_1651903 , http://ingenuingenieur.blog.lemonde.fr/2018/05/22/que-revele-une-premiere-analyse-du-code-source-de-parcoursup/, https://www.marianne.net/societe/parcoursup-les-premiers-resultats-et-refus-attendus-dans-la-plus-grande-opacite?
[16] https://blogs.mediapart.fr/ingenieur-different/blog/180418/les-trompettes-de-parcoursup
[17] http://icorsa.org/wp-content/uploads/2016/02/Too-many-phds-Nature-2015.pdf
[18] https://swaggcocos.wordpress.com/2018/05/27/cartographie-lexclusion-avec-parcoursup/