Go down

Non molto tempo addietro, durante uno dei miei tanti sabati liberi, ho passato del tempo in una libreria della catena Il Libraccio. Mi sono perso tra gli scaffali per non so quanto tempo - forse persino due ore, ma il tempo vola quando si è circondati dai libri. In quella spedizione libresca ho scovato due volumi che hanno catturato la mia attenzione, entrambi dedicati a un tema che sta rivoluzionando il modo in cui l'intelligenza artificiale comprende e organizza la conoscenza: i knowledge graphs. Quello che segue è un condensato dei miei appunti di lettura, un tentativo di mettere insieme le intuizioni di due prospettive molto diverse su una delle sfide più affascinanti del nostro tempo tecnologico.


Immaginate di entrare in una grande biblioteca. Non una qualsiasi, ma una biblioteca speciale, dove ogni libro, ogni pagina, ogni singola parola è collegata a tutte le altre attraverso fili invisibili che tessono una rete di significati. Questa è l'essenza di quello che chiamiamo knowledge graph, letteralmente "grafo della conoscenza".

Ma come spesso accade nel mondo della tecnologia, dietro le promesse più affascinanti si celano sfide che toccano la natura stessa del nostro modo di pensare.

Nella comunità scientifica si confrontano oggi due visioni apparentemente opposte. Da una parte, ricercatori come Bryon Jacob e Juan Sequeda ci mostrano dati impressionanti: quando un'intelligenza artificiale utilizza un knowledge graph invece di un database tradizionale, la sua accuratezza nel rispondere alle domande triplica.

È come se improvvisamente un traduttore che commetteva errori otto volte su dieci iniziasse a sbagliare solo tre volte.

Dall'altra parte, c'è chi solleva questioni più profonde e ci ricorda una verità scomoda: noi esseri umani pensiamo in modo naturale, fluido, ricco di sfumature, mentre i computer hanno bisogno di linguaggi precisi, rigidi, privi di ambiguità. È come pretendere di descrivere il sapore di una mela usando solo numeri e formule matematiche.

Ma partiamo dai fatti. Quando un'intelligenza artificiale affronta un database tradizionale, si trova di fronte a quello che potremmo chiamare un enigma linguistico. Deve indovinare se "cornetto", "brioche" e "croissant" si riferiscano alla stessa cosa. È come se un archeologo dovesse ricostruire la vita di un'antica civiltà partendo da frammenti di vasellame sparsi e senza didascalie.

I knowledge graph, invece, parlano il linguaggio delle relazioni. Ogni informazione è una frase completa: "Agnese Filomena Torre dei Panfili lavora per Casseuela Corporation", "Casseuela Corporation ha sede a Milano", "Milano si trova in Lombardia". L'intelligenza artificiale non deve più indovinare: può semplicemente seguire i collegamenti, come un viaggiatore che segue le frecce su una mappa stradale.

Ma costruire questi grafi di conoscenza presenta una sfida fondamentale che potrebbe sembrare banale, ma non lo è affatto: come facciamo a sapere quando due cose sono la stessa cosa?

Prendiamo Agnese Filomena Torre dei Panfili. Nel sistema delle risorse umane è "dipendente_12345", nel sistema IT è "afilomena", sulla carta intestata è "A.F. Torre dei Panfili", per i suoi nonni sarà sempre "Minuzza". Per noi umani è ovvio che si tratta della stessa persona. Ma per un computer? È come chiedere a qualcuno di riconoscere la stessa persona vestita diversamente, con un'acconciatura diversa, fotografata da angolazioni diverse.

La soluzione arriva da una fonte inaspettata: il World Wide Web. Gli stessi principi che permettono a ogni pagina internet di avere un indirizzo unico - quello che digitiamo nella barra del browser - possono essere applicati a qualunque cosa vogliamo descrivere. Si chiamano International Resource Identifier, IRI, e funzionano come una sorta di codice fiscale universale per tutto ciò che esiste.

Qui emerge una lezione affascinante dell'ingegneria moderna. Molte aziende, convinte di poter fare meglio degli standard esistenti, decidono di costruire sistemi proprietari. È un po' come decidere di inventare un nuovo alfabeto invece di usare quello latino.

Il pattern è sempre lo stesso, documentato in decine di casi aziendali.

Anno uno: "Costruiremo qualcosa di semplice, solo per i nostri clienti".

Anno due: "Ci servono identificatori per i prodotti, i dipendenti, le sedi...".

Anno tre: "In realtà ci servono identificatori unici a livello globale".

Risultato: tre anni e diversi milioni di euro per ricreare, in versione peggiore, quello che già esisteva.

È successo a Uber, è successo a Neo4j, succede continuamente. Come se ogni città decidesse di inventare il proprio sistema di semafori invece di usare il rosso-giallo-verde universale.

Ma c'è una questione più profonda, che tocca la natura stessa della conoscenza umana. Alcuni studiosi, con l'occhio attento del filosofo della scienza, mettono il dito sulla piaga: noi pensiamo in linguaggio naturale, ricco, sfumato, ambiguo. I computer hanno bisogno di linguaggi formali, precisi, univoci.

È la differenza tra descrivere un tramonto con le parole di un poeta e farlo con le coordinate astronomiche del sole. Entrambi descrivono la stessa realtà, ma in modi profondamente diversi.

Quando costruiamo un knowledge graph, chiediamo agli esperti di un'azienda di tradurre la loro conoscenza intuitiva in relazioni formali. È come chiedere a un maestro di cucina di descrivere le sue ricette usando solo pesi, misure e temperature precise, senza mai dire "quanto basta" o "finché non ha il colore giusto".

C'è poi un problema che alcuni ricercatori identificano con precisione chirurgica: la nostra ossessione per classificare le cose in base a quello che sono, invece di descrivere quello che fanno.

I knowledge graph tradizionali sono pieni di relazioni del tipo "Agnese Filomena Torre dei Panfili è una persona", "Casseuela Corporation è un'azienda", "Milano è una città". Ma il mondo reale è fatto di eventi, processi, trasformazioni. "Agnese Filomena Torre dei Panfili ha firmato il contratto venerdì", "Casseuela Corporation ha acquisito Cadrega Inc. il mese scorso", "Milano sta implementando le zone a traffico limitato".

È la differenza tra un museo di statue immobili e un documentario che racconta una storia in movimento.

Emerge qui un paradosso tipico del mondo tecnologico. Gli standard come RDF (Resource Description Framework) esistono da venticinque anni, sono stati testati su miliardi di dati, alimentano Wikipedia e i motori di ricerca che usiamo ogni giorno. Eppure molte aziende li considerano "troppo complessi" e preferiscono ripartire da zero.

È un po' come se ogni città decidesse di costruire la propria rete elettrica invece di collegarsi alla rete nazionale. Funziona, finché rimani piccolo e isolato. Ma quando devi crescere, collaborare, integrarti con altri sistemi, scopri che hai bisogno esattamente delle stesse soluzioni che esistevano già.

Gli attuali Large Language Model, le intelligenze artificiali che sanno conversare con noi, offrono una prospettiva interessante. Sono addestrati sul linguaggio naturale, quello che usiamo tutti i giorni, ma riescono anche a "capire" strutture formali come i knowledge graph.

Potrebbero rappresentare il ponte che abbiamo sempre cercato tra il nostro modo naturale di pensare e la precisione richiesta dalle macchine. Ma come ci avvertono alcuni critici: non lasciamoci sedurre troppo. Queste intelligenze artificiali sono brave a generare testi che "suonano giusti", ma non sono logiche nel senso stretto del termine.

È come la differenza tra uno che racconta bene una storia e uno che dimostra rigorosamente un teorema matematico.

La BBC ha scelto una strada diversa. Durante i Mondiali del 2010 ha utilizzato RDF fin dall'inizio, generando automaticamente oltre 700 pagine web. Per le Olimpiadi del 2012 si aspettava 10 milioni di visualizzazioni su 10.000 pagine olimpiche. Il risultato? Costi drasticamente ridotti e contenuti più ricchi. È l'esempio perfetto di come gli standard, quando usati bene, non limitino la creatività ma la liberino dalle preoccupazioni tecniche di base.

Allora, quale strada prendere? La risposta, come spesso accade, sta nell'equilibrio.

Primo, riconoscere che il problema è reale. I knowledge graph triplicano davvero l'accuratezza dell'intelligenza artificiale. Non è marketing, sono dati verificabili.

Secondo, non reinventare la ruota. RDF e gli IRI esistono, funzionano, sono testati su scala mondiale. Usarli significa partire dalle spalle dei giganti invece che da zero.

Terzo, mantenere il contatto con il linguaggio naturale. I nodi di un knowledge graph non devono essere per forza etichette secche come "Cliente_12345". Possono contenere descrizioni ricche, paragrafi interi che conservano la ricchezza del nostro modo naturale di esprimere concetti.

Quarto, concentrarsi sui processi oltre che sulle cose. Non solo "Agnese Filomena Torre dei Panfili è nata in Calabria e poi è venuta a studiare a Milano", ma "Agnese Filomena Torre dei Panfili ha partecipato al progetto 'Milano da bere' da marzo a maggio, collaborando con il team 'Bella Brò' per raggiungere un certo obiettivo.

I knowledge graph rappresentano una delle frontiere più promettenti dell'intelligenza artificiale, ma anche una delle più delicate. Non perché la tecnologia sia immatura - anzi, è sorprendentemente solida - ma perché tocca questioni profonde su come rappresentiamo e organizziamo la conoscenza umana. La sfida non è tecnica, è cognitiva. Come facciamo a mantenere la ricchezza del nostro pensiero naturale pur ottenendo la precisione di cui hanno bisogno le macchine?

La risposta non è scegliere tra uno dei due estremi, ma costruire ponti. Ponti tra il naturale e l'artificiale, tra l'ambiguo e il preciso, tra quello che le cose sono e quello che fanno.

In questo viaggio verso l'intelligenza artificiale che davvero ci comprende e ci aiuta, i knowledge graph potrebbero essere la mappa che ci aiuta a non perderci lungo la strada, ma certamente non sono la destinazione finale.


Appendice sui cornetti e le brioches

Il cornetto è il dolce da colazione che conosciamo tutti in Italia, derivato dal croissant francese ma adattato ai gusti nostrani. È un simbolo condiviso: ovunque tu vada, al bar ti viene servito lo stesso alimento – sfogliato, farcito o vuoto – anche se il nome cambia.

A Milano e in buona parte del Nord, però, lo chiamano brioche. Non la brioche vera e propria della tradizione francese, né la brioche col tuppo siciliana, ma proprio il nostro cornetto. È un uso linguistico che suona un po’ come un vezzo: “dare arie” appunto, perché sembra più raffinato dire brioche che cornetto, quasi a voler evocare una patina francese.

La sostanza, però, resta la stessa: da Bolzano a Palermo, ordini cornetto o brioche, sempre di quello stiamo parlando. Cambia solo l’etichetta, e nel cambio c’è dentro tutta una piccola geografia culturale italiana: il Sud fedele al termine diretto, il Nord che preferisce la parola francese, la Sicilia che addirittura ha riservato “brioche” per un altro prodotto identitario.

Appendice su IRI e URI

Quando parliamo di risorse su Internet, il termine più diffuso è URI (Uniform Resource Identifier), che rappresenta la sequenza di caratteri usata per identificare in modo univoco una risorsa. Un esempio tipico è l’indirizzo di una pagina web. Gli URI tradizionali sono però limitati al set di caratteri US-ASCII quindi di fatto basati sull’alfabeto inglese (è uno dei tantissimi limiti che abbiamo scelto di accettare, abbracciando la "cultura filo statunitense"). Per superare questo vincolo è stato introdotto il concetto di IRI (Internationalized Resource Identifier). Uno IRI estende le possibilità degli URI perché consente di utilizzare i caratteri del set Unicode/ISO 10646, lo standard che comprende alfabeti e simboli di tutte le lingue del mondo: dal cinese al giapponese, dal cirillico alle lettere accentate delle lingue europee.

In pratica:

  • URI = limitato ai caratteri ASCII (alfabeto inglese, numeri e pochi simboli).
  • IRI = permette l’uso di caratteri internazionali, quindi parole e nomi leggibili nelle lingue locali.

Dal punto di vista funzionale, gli IRI rendono il web più inclusivo e accessibile, perché permettono di scrivere indirizzi comprensibili anche a chi non usa l’alfabeto latino. Inoltre, un IRI può sempre essere convertito in un URI secondo regole precise, così da garantire la compatibilità con i sistemi che riconoscono solo URI. Gli standard che regolano l’uso degli IRI sono definiti dal W3C Internationalization Working Group e dall’IETF (Internet Engineering Task Force), in particolare nel documento RFC 3987. In sintesi: lo URI è lo strumento originario, l’IRI è la sua versione internazionale ed evoluta, pensata per un web globale e multilingue.

Ah... quasi dimenticavo, i libri che ho comprato sono questi indicati di seguito... 


StultiferaBiblio

Pubblicato il 24 agosto 2025

Calogero (Kàlos) Bonasia

Calogero (Kàlos) Bonasia / omnia mea mecum porto