#Cultura

L’intelligenza artificiale del grammar check ci sta cambiando

Cristina Mazzon
settembre 2022 - 4 minuti

Poco tempo fa il mio occhio si è appoggiato su un articolo riportato dall’Accademia della Crusca nel quale si faceva notare come lo strumento di grammar check di Google Documenti, per alcuni utenti, correggesse la forma corretta qual è nel famigerato qual’è.

Dopo un primo momento di disappunto, sono passata all’essere incuriosita, perché se è vero che le lingue sono in continua mutazione è altrettanto vero che il cambiamento è generalmente impercettibile, mentre ora si trova sulle punta delle nostre dita.

Non è certo una novità che l’infrazione della regola diventi la regola: quando William Webb Ellis durante una partita di calcio prese in mano il pallone per fare goal, inventò il gioco del rugby. Questo può accadere anche per le lingue che parliamo.

Ma che ruolo ha l’intelligenza artificiale nella lingua? Nel caso di Google, una pagina dedicata ci spiega che «i suggerimenti ortografici sono potenziati dal machine learning. I modelli di comprensione del linguaggio utilizzano miliardi di locuzioni e frasi comuni per acquisire automaticamente conoscenze sul mondo reale, ma questo significa anche che possono riflettere i pregiudizi cognitivi umani».

L’apprendimento automatico di Google quindi analizza statisticamente l’utilizzo della lingua in base a ciò che le persone scrivono, e impara a distinguere le forme che hanno più probabilità di essere corrette. Ne consegue che se sono di più le persone a commettere un errore rispetto a quelle che non lo fanno il gioco è fatto: lo spell check di Google considererà corretta la forma più utilizzata (mentre scrivo questo articolo, il verbo considererà mi viene segnalato come errore, forse perché forme come andrà a considerare o un semplice considera sono molto più usate dell’indicativo futuro).

Se ci addentriamo ulteriormente nel mondo dell’intelligenza artificiale scopriamo che la Natural Language Processing (NLP) è la branca dell’informatica che si dedica alla capacità dei computer di comprendere parole scritte e parlate nello stesso modo in cui lo fa il cervello umano.

Un tempo venivano preparate appositamente – da persone – delle treebank, cioè corpi di testo analizzato che annotano la struttura sintattica o semantica della frase. Queste venivano poi fornite alle macchine in modo che imparassero la sintassi e la grammatica corretta della lingua. Oggi con l’avanzare del machine learning avanzano anche gli algoritmi usati (uno dei più efficienti è quello di Grammarly). Applicazioni, programmi e computer possono imparare forme grammaticali complesse in completa autonomia, necessitando sempre meno dell’aiuto dell’uomo o di ampie banche dati che richiedono una grande quantità di tempo ed energia ai programmatori.

È affascinante come alcuni algoritmi si approccino all’apprensione esattamente come i bambini. Secondo una ricerca dell’Università di Stanford, il sistema di Natural Language Processing BERT di Google non solo gioca “Mad Libs”, popolare gioco per bambini il cui scopo è inserire le parole corrette in spazi bianchi, ma da queste riesce anche a ricavare delle regole grammaticali, proprio come un umano in età evolutiva riesce a formulare frasi di senso compiuto senza dover passare ore con la testa su manuali di grammatica. Questo processo – l’apprendere una struttura sintattica formale in un ambiente in cui questa struttura è nascosta – si chiama Grammar Induction e gli studi più autorevoli in merito risalgono agli anni ’60 del secolo scorso.

Facciamo qualche esempio più tangibile. Nell’immagine di seguito potrete osservare alcuni errori ortografici da me scritti che non sono stati corretti da Google.

Ma vediamo come Alessandro Manzoni viene invece macchiato dalla lettera scarlatta del grammar check.

Non ci sono dubbi su chi sia un più autorevole esperto della lingua italiana tra me e l’autore de “I promessi sposi”. Ma quest’ultimo ha la colpa di non essere al passo con i tempi – e con gli errori – del ventunesimo secolo.

Con l’uso sempre più frequente di sistemi di scrittura come Google Documenti, gli idiomi sembrano quindi perdere la loro rigidità e compostezza, preferendo invece un’evoluzione più rapida che volge sempre di più ad un linguaggio semplificato e gergale.

Tutto questo presenta dei risvolti etici non indifferenti: gli idiomi diventano molto più democratici. E non accade solo per l’italiano. Pensiamo all’inglese, la lingua franca del nostro periodo: quanti calchi linguistici, prestiti, lingue creole potranno nascere ora che chiunque può giocare con le parole ed insegnare alle macchine innovative forme grammaticali che a loro volta le macchine ci segnaleranno come corrette?

Con il machine learning si indebolisce l’argine che solitamente si pone alle forme erronee per mantenere una certa continuità linguistica, favorendo al contrario la diffusione di varietà regionali, dialettali e sempre più creative delle lingue parlate nel mondo, che in tempi coloniali sono state spesso e volentieri oppresse, limitando l’espressione di popoli interi.

Nessun errore viene segnalato nell’inglese di Zora Neale Hurston, un tempo considerato “broken English”, ma che ora è perfettamente comprensibile e accettato dal più popolare programma di scrittura online.

Concludo queste considerazioni con una domanda: Treccani non considera l’esistenza del lemma  “rischedulare”, ma Google sì.

Chi ha ragione, se il termine viene compreso ed utilizzato dai più?