LE TRE INFORMATICHE

Submitted by admin on Gio, 2009-08-13 15:03

Roberto Busa S. J.

Qualifiche dell'autore:

pioniere dell'informatica linguistica, docente all'Università Cattolica di Milano, curatore dell'Index Thomisticus

L’informatica oggi è come un torrente di montagna in piena. Per capirci qualcosa, permettetemi di usare la tattica che usavamo da ragazzi appunto in montagna per guadare i torrenti, saltando da un sasso all’altro, con i pantaloni “alla zumpa fossi”, come direbbero a Napoli.

Incomincio così: immaginate il giorno in cui esistesse un programma di computer che permettesse di archiviare automaticamente, mese per mese, i documenti di un ufficio, assegnando a ciascun documento le appropriate parole chiave. Certamente, quel giorno segnerebbe un altro scoppio dell’industria dell’informazione.

Quel giorno era stato già annunciato nel 1952 in un articolo di Peter Luhn, di origine tedesca, (lavorava nel laboratorio IBM nello Stato di New York), intitolato Automatic Indexing-Automatic Abstracting, che vuol dire “indicizzare, ossia, assegnare le parole chiave a un documento, e farne il riassunto, l’abstract”. Profetizzato allora, questo programma non c’è ancora.

Perché? Trattandosi di nostre operazioni mentali, noi, anche se sappiamo riassumere e individuare parole chiave, non sappiamo ancora quali sono i passaggi elementari della nostra logica nel compiere queste funzioni. Per rendere un testo operabile al computer, bisogna prima di tutto che sia microanalizzato nei suoi passi elementari, millimetro per millimetro.

Quando avessimo formulato e definito quali sono i passi elementari che fa la nostra mente, nel suo complesso, per riassumere, formalizzarli numericamente, bitizzarli in un computer, sarebbe un gioco. Ma la difficoltà sta proprio nel fatto che noi non conosciamo abbastanza le nostre operazioni mentali.

Noi conosciamo le parole dai denti in fuori, ma dai denti in dentro siamo ancora un mistero per noi stessi. Per cui, l’industria dell’informatica ha bisogno – se parliamo di linguistica applicata – di più umanesimo. Se io chiamo umanesimo lo studio, la riflessione dell’espressione umana nei suoi vari aspetti, questo resta vero.

Quel computer che agli inizi della cibernetica, tra gli anni ‘50 e ’60, veniva presentato come la minaccia per l’intelligenza umana, oggi sfida l’intelligenza umana e dice: “Tu non conosci abbastanza te stessa e se io computer non riesco a servirti di più è perché tu non sai programmarmi, non sai alimentare di sufficienti dati i miei programmi”.

Nel mio lavoro ho elaborato 11 milioni di parole latine, computerizzate, classificate e sistematizzate, e altrettante parole di altre 22 lingue, usando anche altri alfabeti, come il greco classico, l’arabo, l’ebraico, il gaelico, il gotico, il fonetico, l’armeno, il georgiano.

L’ho fatto principalmente per collaudare il metodo dell’analisi linguistica computerizzata.

Mi ha sorpreso il fatto che gli stessi programmi e la stessa logica operativa con cui ho lavorato nel latino, hanno funzionato anche nelle altre 22 lingue, cambiando soltanto il numero di byte nei file e le tabelle di corrispondenza delle categorie linguistiche riscontrate. C’erano lingue indogermaniche e non, come il georgiano, il gaelico, il finnico, ma anche lingue semitiche, come l’arabo, l’ebraico, l’aramaico e il nabateo, che usano altri alfabeti, scrivono da destra a sinistra e con una morfologia sui generis: per esempio, in alcune la flessione è data dalla distribuzione delle vocali tra le consonanti che formano il tema della parola.

Questo primo punto fa pensare che nel cuore e nella mente di ogni uomo c’è la luce di Dio che lo illumina ed è una logica fatta di certezze prima ancora che di parole. Non ve lo spiego. 

Le informatiche testuali, quelle che si occupano di testi scritti o pronunciati, sono tre distinte e diversissime tra di loro.

La prima è quella delle banche dati e dell’Internet, quella che io chiamo informatica testuale documentaria. La parola documentaria non è più nel mercato delle parole vive, però lo era cinquant’anni fa. C’erano società internazionali per la documentazione scientifica, una in Germania, un’altra in America, poi evolute tutte in scienze dell’informazione. L’informatica documentaria che comprende l’Internet è un servizio, un’infrastruttura sociale, che permette il recupero di informazioni anche a distanza e in tempo reale, servizio di natura informativa. 

La seconda informatica è quella editoriale, finalizzata alla diffusione del sapere sotto forma di libro, che si è evoluta nei cd rom multimediali e nei loro figli e nipoti.

La terza informatica è quella che io chiamo la cenerentola, è trattata male, siamo in pochi a farla e trova molto difficilmente finanziamenti e sponsor.

Chiamo le prime due le principesse voraci, perché si sono ingrandite, ingrossate e ingrassate, sono quelle che portano a casa i soldi presto e anche illudono tanti, almeno in sogno.

Che differenza c’è tra queste e l’ermeneutica, la mia cenerentola? Questa non ha lo scopo di fornire informazioni o libri alle persone, ma di andare dai denti in dentro, per studiare cosa c’è in quel dentro da cui nasce il nostro parlare.

Davide Rondoni ha citato un autore che dice che il senso fa le parole. Le parole nascono dal pensiero, un pensiero di natura sociale, collettiva, ma non mi dilungo su questo punto.

Si tratta di scoprire il nostro linguaggio.

Per porre una questione semplice, se ci chiediamo quanti verbi usiamo in italiano, non sappiamo rispondere, non sappiamo quante parole abbiamo dentro.

Seconda questione: dividiamo i verbi italiani in tre gruppi, quelli che sono sempre e solo transitivi, quelli che sono sempre e solo intransitivi e quelli che sono talvolta transitivi e altre volte intransitivi.

A proposito di questi ultimi, ci chiediamo quindi qual è la situazione contestuale, cosa c’è nel contesto della frase in cui questo verbo è transitivo e mai intransitivo e viceversa? Sappiamo rispondere a queste domande?

Ebbene, per programmare un computer nel trattamento del linguaggio, c’è bisogno di queste informazioni.

C’è un’altra differenza fra queste tre principesse, la cenerentola e le due ghiottone: in queste due, sul supporto magnetico, trovate soltanto parole e interpunzione, qualche volta queste parole sono anche numeri. In quella ermeneutica, interpretativa, a ogni parola bisogna aggiungere tanti codici quante sono le categorie linguistiche che vengono riconosciute a questa parola. Soffermiamoci un attimo.

Nel computer ci sono soltanto segni, entità fisiche che possono essere frequenze elettriche, frequenze di onde hertziane, magnetizzazioni, oppure quei graffi fisici, quegli incavi fisici, che ci sono nei cd rom; tutte entità fisiche, cui siamo noi uomini che attribuiamo valore di segni.

Noi oggi parliamo, oltre che con la mano, con la bocca e con la penna, anche con i bit, così quando parliamo al telefono, chi è dall’altra parte del filo sente le nostre parole veicolate da frequenze elettriche che corrono lungo il filo.

Però devono esserci nel computer altrettanti segni che dicono qual è il significato di questo segno. Per esempio, per la lettera v, nel computer c’è un byte di 0 e di 1, 8 in tutto, i quali mi dicono che questa è una v, me lo dicono in Ascii. Per cui, se scrivo la parola “vanno” e un italiano la legge sul video del computer, sa che è una voce del verbo “andare”, però nel computer non c’è ancora nessun codice che dica che questa è una voce del verbo andare.

Se un italiano trova la parola “dove”, sa che è un avverbio di luogo, se la trova un inglese invece pensa subito alla colomba.

Se un inglese trova la parola “gift”, capisce “regalo”, un tedesco invece capisce “veleno”.

Queste differenziazioni nelle prime due informatiche non ci sono.

Nel mio Index Thomisticus, per ciascuna degli 11 milioni di parole latine, avevo un record – il record è un’unità di informazioni – di 152 byte: 22 riservati alla parola, gli altri a tutte le informazioni aggiuntive su questa parola, per esempio, per la parola “vado”, dicevano “è una voce del verbo ‘andare’, è la terza persona singolare dell’indicativo attivo presente”, e parecchie altre cose, come “questa è una citazione alla lettera”, oppure “questo è un titolo di opera”.

Poi c’erano avvertenze per le parole omografe, le parole equivoche, che in italiano sono un numero insospettato: per esempio, “faccia” può essere “egli faccia”, oppure “la faccia” nel senso del volto. 

Nel vocabolario di ogni lingua e di ogni persona sono emersi due emisferi. Su 11 milioni di parole latine, ho trovato che, a livello di forma (non di lemma) c’erano 150 mila parole diverse: 80 di queste parole diverse facevano il 40% di questi 11 milioni di parole; 800 su 150 mila facevano il 60%. Questo vuol dire che ci sono poche voci ripetute moltissimo e tantissime voci ripetute poco. Questi sono quelli che chiamo i due emisferi.

Nelle scuole accademiche, queste prime poche voci tanto ripetute venivano chiamate in italiano voci grammaticali – preposizioni, congiunzioni, alcuni avverbi irriducibili, verbi servili, verbi ausiliari, e così via. In Francia usano a volte espressioni “orribili”, chiamano alcune voci grammaticali “mots vides”, parole vuote, le altre parole “mot plein”, parole piene e ci sono altri francesi più saggi che dicono “mots utiles”, parole strumento, e parole piene. La differenza sta nel fatto che le parole piene sono quelle che precisano e specificano il messaggio che si vuole comunicare, e diminuiscono o crescono a seconda dei temi, mentre le prime, le parole grammaticali, sono presenti in qualsiasi argomento.

Quando un giornalista fa il rapporto su una partita di calcio o quando Santa Teresa d’Avila parla di mistica; che sia un trattato di chimica, di storia o di geografia, gli articoli, le preposizioni, le congiunzioni e i pronomi ci sono sempre.

Questi sono i due emisferi e bisogna tenerne conto. 

Nel mio libro Dal computer agli angeli, ho fatto il censimento del rapporto tra significante e significato che esiste nelle 150 mila parole dell’Index Thomisticus.

Le parole sono eterogenee, non omogenee come invece sono i numeri entro uno stesso file. L'eterogeneità appare prima di tutto nelle parole deittiche: i pronomi personali io e tu, i possessivi mio e tuo, gli avverbi qui e là: queste non esprimono una rappresentazione mentale, non significano un concetto, ma solo una presenza di qualcosa a me.

Appare anche nei nomi propri: sono parole di "etichetta" alle quali corrisponde un certo numero di immagini, che però la parola non esprime. Se entro in una casa e sento che qualcuno chiama "Cicci", la parola non mi dice cosa sia, un bambino, una bambina, il cane, il criceto, il gatto, il pappagallo, o non so chi. Poi, vengono le parole che esprimono oggetti o cose, e sono le parole più comuni: tavolo, cavallo, albero, uomo, ecc. Poi ancora vengono gli aspetti delle cose, e negli aspetti delle cose ci sono tutte le parole che chiamiamo aggettivi e tutte quelle che chiamiamo verbi. Poi ci sono parole vicarie, che ne rappresentano altre.

Negli 11 milioni di parole ho fatto le percentuali, le proporzioni per ciascun tipo di parole. Ho seguito i lavori di statistica testuale è quella che va a cercare, metaforicamente parlando, le impronte digitali dello stile di una persona, quella che, da una lettera, riuscirebbe a individuare qual è la persona che l'ha scritta o da un testo, quale ne è l'autore.

A questo tipo di statistica non siamo ancora arrivati, siamo ai primi livelli in cui si ricercano le co-occorrenze delle parole e altri calcoli di combinazioni e permutazioni, sempre nella supposizione che le parole siamo omogenee. Quel giorno in cui si tenesse conto del fatto che occorre suddividere le parole prima secondo il tipo di loro semanticità cioè del loro rapporto tra significante e significato, si farebbero passi avanti nella statistica.

Un ultimo particolare più concreto. Ho fatto il censimento dei segmenti (stringhe di carattere) in cui sono divise queste parole, prescindendo dal significato. Ho diviso a mano ciascuna di queste 150 mila forme in tre: segmento iniziale, segmento mediano, segmento finale (guardandomi bene dal chiamarli prefissi, infissi, suffissi). Ho seguito un criterio puramente fisico: stringhe di caratteri ripetute identiche, seguite da altre stringhe diverse di caratteri. È risultato che un massimo di circa 1500 gruppi di stringhe di caratteri diversi, combinate tra di loro, mi davano i miei 11 milioni di parole latine.

Penso che per l'industria dell'informazione questo possa essere un dato interessante. Finora l'ho dimostrato solo per il latino, ma presumo che sia così anche nelle altre lingue.

LE TRE INFORMATICHE

Login utente

La città del secondo rinascimento