Letteratura e computer. Entusiasmo e scetticismo sulle analisi quantitative dei testi

Il telaio di Gulliver dentro i nostri libri

L’informatica umanistica inizia con Swift.

Franco Moretti l’ha portata a Stanford

Primo: scegliete dei romanzi da non leggere. Secondo: accendete il computer. Terzo: calcolate, tabulate e mappate. Che cosa? La frequenza delle parole, la lunghezza delle frasi, le relazioni geometriche tra i personaggi. Nei Lit Lab la letteratura si analizza così. Franco Moretti, che ha fondato il laboratorio letterario di Stanford, la chiama «lettura da lontano». Invece di studiare e ristudiare ogni sfumatura di pochi capolavori, sempre quelli, i seguaci dell’informatica umanistica possono aggregare e scomporre centinaia, migliaia, milioni di testi. Senza leggerli. Servendosi di appositi software individuano schemi e tendenze, i più audaci sognano di scoprire le leggi fondamentali della letteratura.
È il vento impetuoso della statistica che sferza le nobili terre delle lettere. Erez Aiden e Jean-Baptiste Michel hanno coniato la parola culturomics: come la genomica studia l’insieme dei geni, la «culturomica» vuole abbracciare l’intero corpo della cultura scritta. Con il sostegno di Google i due ricercatori hanno creato l’Ngram Viewer. Chiunque può provare il brivido dell’analisi quantitativa dello scibile umano collegandosi al sito https://books.google.com/ngrams, ma — attenzione — è un gioco che dà dipendenza. Si inserisce qualche parola chiave, da cercare in oltre cinque milioni di libri digitalizzati, e in un battibaleno si ricava il grafico che mostra ascesa e caduta dei concetti e dei personaggi prescelti, dal 1800 a oggi.
Il giornalista di «Science» John Bohannon, ad esempio, si è divertito a usare questo strumento per monitorare il successo delle rockstar della linguistica. Prendendo la fama intramontabile di Darwin come unità di misura, Steven Pinker e Noam Chomsky riscuotono rispettivamente 35 e 507 milli-Darwin di celebrità. Nel loro libro Uncharted. Big Data as a Lens on Human Culture, Aiden e Michel usano il calcolo delle citazioni anche per visualizzare gli effetti della censura. La coltre di silenzio che durante il nazismo ha avvolto gli artisti sgraditi come Marc Chagall e Paul Klee. La diffusione della parola Tienanmen nei libri in inglese dopo i fatti del 1989 e la sua virtuale scomparsa dai testi cinesi dello stesso periodo.
L’analisi computazionale della letteratura è l’ultima tendenza ma in fondo non è così nuova, spiega Brian Hayes sull’ultimo numero di «American Scientist». È il 1963 quando gli statistici Frederick Mosteller e David L. Wallace si cimentano in una disputa storica, quella sulla paternità dei saggi scritti per promuovere la ratifica della Costituzione americana, i cosiddetti Federalist Papers. Lo fanno annotando la frequenza di parole comuni (preposizioni, articoli, congiunzioni), con l’aiuto di un calcolatore elettronico.
Ma l’approccio quantitativo allo studio dei testi deve precedere di parecchio l’arrivo dei computer, se è vero che l’idea viene canzonata nei Viaggi di Gulliver.
Nel Settecento, infatti, Jonathan Swift immagina un telaio grande come una stanza, grazie al quale anche i più ignoranti un giorno potranno scrivere libri di filosofia, politica, diritto, matematica, con «una modica spesa e uno sforzo muscolare irrisorio». Il suo inventore lo ha costruito con dadi di legno, fili e manovelle e ci ha caricato dentro un intero vocabolario, facendo un calcolo preciso delle proporzioni con cui compaiono nei libri i nomi, i verbi e le altre parti del discorso. Il processo è ancora inefficiente, ammette il fanta-scienziato, ma potrà essere perfezionato aprendo una sottoscrizione pubblica per costruire 500 telai in tutta Lagado.
Uno dei primi appassionati proto-digitali nel mondo reale è stato il presidente dell’Associazione americana per il progresso delle scienze, Thomas Corwin Mendenhall. Se le sostanze chimiche possono essere identificate dalle righe del loro spettro, allo stesso modo forse è possibile identificare gli autori dalla lunghezza delle parole che usano, ragiona lo scienziato. Nel 1887 mette alla prova la sua ipotesi contando a mano il numero di lettere contenute in 30 mila parole di due romanzi: Oliver Twist di Dickens e La fiera delle vanità di Thackeray.
Ma il suo vero obiettivo è dimostrare che sarebbe stato il filosofo Francis Bacon (Francesco Bacone) a scrivere le opere attribuite a Shakespeare. Grazie alla donazione di un filantropo costruisce una macchina tabulatrice, con un pulsante per ogni possibile numero di lettere, e assume due donne. Una tiene il libro in mano e declama la lunghezza di ogni parola. L’altra preme il pulsante corrispondente. Centinaia di migliaia di parole dopo, la conclusione è che la maggior parte degli autori elisabettiani, compreso Bacon, usa soprattutto parole di tre lettere. Shakespeare invece è speciale, raggiunge il suo picco a quattro. La teoria è confutata.
Un altro informatico umanistico ante litteram è Lucius Adelno Sherman. Seziona la letteratura con «bisturi e microscopio » e nel 1893 pubblica un Manuale per lo studio obiettivo della prosa e della poesia inglese che viene definito epocale da «Science». A effettuare i conteggi per lui sono i suoi studenti dell’Università del Nebraska. Che cosa scoprono? Che nella progressione cronologica dal XIV al XIX secolo, da Geoffrey Chaucer a Ralph Waldo Emerson, la sintassi si semplifica e le frasi si accorciano, perdendo metà del loro peso in parole. Non tutti gli allievi apprezzano la fatica, però. Willa Cather, che mentre segue il corso scrive già sui giornali, irride lo sforzo di «cercare il minimo comune multiplo di Amleto e il massimo comun divisore di Macbeth».
Le critiche non mancano neppure oggi, ovviamente. Kathryn Schulz, del «New York Times», rimprovera alle digital humanities un eccesso di ambizione. Le leggi della letteratura non esistono, tutt’al più le leggi naturali possono funzionare come metafora, sostiene. Moretti paragona la critica letteraria classica, quella qualitativa, a un esercizio di teologia. Ma secondo la giornalista-scrittrice l’analisi quantitativa sarà la teologia del XXI secolo.
Il blogger del «New Yorker» Joshua Rothman invece è affascinato dal lavoro dello studioso italiano, che vuole mostrarci la foresta invece dei singoli alberi e sta mappando le relazioni tra i personaggi in centinaia di opere, dall’antica Grecia all’Ottocento. Ma lo paragona a un astronauta che cerchi di osservare la Terra stando su Marte.
Questi esperimenti probabilmente appaiono meno strani una volta inquadrati in una cornice linguistica anziché letteraria. Le lingue evolvono, proprio come le specie. Chissà cosa avrebbero pensato i pionieri computazionali di tutte le abbreviazioni che oggi usiamo per scrivere tweet e messaggini, si chiede Hayes. La risposta, naturalmente, è l’acronimo della risata, laughing out loud: LOL.

(fonte:Corriere.it)

ioleggo.com

giovedì 13 settembre 2018