Ricordare tutto. Il collo di bottiglia che l'IA non riesce a superare.
L'intelligenza artificiale sa fare cose straordinarie, ma dimentica tutto dopo qualche minuto. Il vero ostacolo verso un'AI che ci conosca davvero è la memoria.
Il momento in cui l’ho capito.
Qualche settimana fa stavo lavorando con Cursor.AI (un sistema che utilizza agenti AI per scrivere codice) al prototipo di un’applicazione complessa per la gestione di segnali video. Questo progetto prevede un livello non trascurabile di relazioni tra entità, relazioni che non possono essere derivate direttamente dai componenti software: ci sono comportamenti impliciti.
Dopo ore di lavoro l'agente aveva sviluppato un'architettura coerente, ricordava le scelte fatte, capiva perché avevamo scartato certe strade. Evviva. Poi, senza preavviso (non è vero me l’ha detto), un messaggio: il contesto era stato compattato. L'agente, cioè, ha riassunto tutto quello che sapeva in poche righe e ha ricominciato. Da quel momento, ogni tanto, proponeva soluzioni che contraddicevano decisioni già prese. Non era diventato stupido. Aveva semplicemente dimenticato.
La memoria sulla sabbia.
Andrej Karpathy, uno dei padri del deep learning moderno, a giugno 2025 ha proposto su X un’analogia che ha cambiato il modo in cui l’industria pensa al problema. Un modello di linguaggio, ha detto, è come un processore. La sua finestra di contesto — lo spazio in cui tiene tutto ciò che “sa” durante una conversazione — è la sua RAM.
E come la RAM di un computer, questa memoria ha un costo per ogni unità di spazio e una capacità massima. I modelli più avanzati dichiarano finestre da un milione di token (le unità minime di testo che un modello elabora, circa 0,75 parole ciascuno). Suona enorme. Ma la ricerca racconta una storia diversa.
Uno studio del 2025 di Norman Paulsen ha introdotto il concetto di Maximum Effective Context Window: la finestra di contesto che un modello usa davvero, contrapposta a quella dichiarata. Il risultato? Beh, in certi compiti complessi, la finestra effettiva è inferiore fino al 99% rispetto a quella pubblicizzata. Wow. Un altro benchmark ha dimostrato che GPT-4o crolla dal 99,3% al 69,7% di accuratezza quando non può affidarsi a corrispondenze letterali nel testo.
E c’è un fenomeno ancora più insidioso: il context rot. Cioè più token riempi nella finestra, più il modello perde la capacità di ricordare le informazioni che si trovano nel mezzo. Le informazioni all’inizio e alla fine vengono ricordate bene; tutto il resto degrada. È come leggere un libro di 300 pagine e ricordare solo la copertina e l’ultima riga.
Il context engineering è l'arte delicata di riempire la finestra di contesto con le informazioni giuste per il passo successivo.
Andrej Karpathy
Quindi perché Siri non funziona (davvero)?
Perché non esiste ancora un assistente AI trasversale. Qualcosa che non si limiti a sembrare "sveglio” solo in risposta a domande singole, ma che si ricordi tutte le conversazioni, tutte le preferenze, tutti i documenti gestiti per conto mio. Il motivo non è la mancanza di ““intelligenza”” (notare le doppie virgolette, please). È che mantenere tutto quel contesto ha un costo computazionale enorme e un rendimento decrescente.
Ogni contenuto aggiunto, costa un certo numero di token. E i costi scalano in modo quadratico con la lunghezza dell’input: raddoppiare i token significa quadruplicare il costo di calcolo. Una finestra di contesto da 10 milioni di token, anche a prezzi ribassati, costerebbe diversi dollari per ogni singola domanda. Per un prodotto consumer con milioni di utenti, è economicamente impossibile.
Quando lo spazio si esaurisce, le opzioni attuali sono due. La prima: compattare, cioè chiedere al modello di riassumere tutto ciò che sa e ricominciare con quel riassunto. Funziona, ma ogni compattazione perde sfumature, dettagli alle volte importanti. Il mio agente non ha dimenticato tutto: ha dimenticato il perché di certe scelte, che è quasi peggio.
La seconda: iniziare da zero. Tabula rasa. Ogni sessione è un primo appuntamento.
Dove si va, allora?
Il termine che cattura lo stato dell’arte è context engineering. La frase è sempre di Karpathy, ma nel giro di pochi mesi è stata adottata da tutta l’industria — Anthropic, LangChain, Cognition, Google — come etichetta per una nuova disciplina: non più “come scrivo il prompt migliore” ma “come assemblo l’insieme ottimale di informazioni per ogni singolo passo”.
Cognition, l’azienda dietro l’agente di coding Devin, l’ha definita senza mezzi termini “il lavoro numero uno di chi costruisce agenti AI”.
LangChain ha proposto una tassonomia che fotografa bene le strategie in campo. Le raggruppa in quattro verbi: write, select, compress, isolate — scrivi, seleziona, comprimi, isola. Vediamole.
1. Riassumiamo (Compress)
Riassumere la conversazione quando cresce troppo. È quello che è successo al mio agente: la piattaforma ha preso l’intera storia, l’ha distillata in un sommario, e ha ricominciato con quello. Anthropic, nel proprio cookbook tecnico pubblicato a inizio 2026, descrive tre livelli di compressione che oggi i loro agenti usano in produzione: la compattazione del dialogo completo, la pulizia selettiva dei risultati dei tool (si cancella il contenuto restituito dagli strumenti, mantenendo però la traccia che la chiamata è avvenuta), e la memoria strutturata esterna.
L’arte della compattazione sta nel decidere cosa tenere. Troppo aggressivi: si perdono sfumature che diventano critiche dieci passi dopo. Troppo conservativi: non si guadagna abbastanza spazio. Claude Code, l’agente di programmazione di Anthropic, preserva le decisioni architetturali e i bug irrisolti, ma scarta i risultati grezzi degli strumenti — tanto l’agente può richiamarli se servono.
2. RAG (Select)
Recuperare solo i frammenti rilevanti da un archivio esterno, al momento della domanda. Invece di memorizzare un’enciclopedia, la si consulta. Il RAG (Retrieval-Augmented Generation) resta la strategia più diffusa in produzione. Ma nel 2025 ha vissuto una fase di profonda messa in discussione: con finestre di contesto sempre più larghe, serviva ancora?
La risposta, consolidata nel 2026, è sì — e per ragioni economiche prima ancora che tecniche. Un’analisi di RAGFlow ha calcolato che il costo tra “caricare tutto nella finestra” e “usare RAG” differisce di due ordini di grandezza. Non è una differenza marginale: è la differenza tra un prodotto sostenibile e uno che brucia soldi.
La frontiera del RAG si è evoluta verso il cosiddetto Long-Context RAG: architetture ibride che combinano strutture ad albero (per mantenere la coerenza locale del documento) e grafi di conoscenza (per scoprire connessioni tra documenti diversi). L’obiettivo è superare il “lost in the middle” assemblando contesto gerarchico e navigabile, non un blocco piatto di testo.
3. Memoria persistente (Write)
L’agente prende appunti fuori dalla propria finestra di contesto e li rilegge quando servono. È il passo che trasforma un chatbot smemorato in qualcosa che assomiglia a un collaboratore. Nel 2026, la memoria per agenti è diventata una disciplina con benchmark propri. Il più significativo è LOCOMO, un dataset che misura la capacità di richiamare informazioni da conversazioni estese.
I risultati sono istruttivi. Mem0, una piattaforma dedicata alla memoria per agenti (paper pubblicato a ECAI 2025), ha dimostrato che il suo approccio selettivo raggiunge il 67% di accuratezza rispetto al contesto completo — ma con il 91% in meno di latenza e il 90% in meno di token consumati. La variante arricchita con grafi di conoscenza (Mem0g) sale al 68,4%, chiudendo quasi il gap con il contesto pieno.
La ricerca distingue ormai quattro tipi di memoria per agenti: episodica (cosa è successo: “il 14 marzo l’utente ha preferito JWT”), semantica (fatti generali: “l’azienda usa PostgreSQL 16”), procedurale (come fare le cose: workflow appresi) e in-context (la conversazione corrente). Ognuna ha esigenze di storage, latenza e persistenza diverse. Solo tre anni fa nessuna di queste categorie esisteva come disciplina ingegneristica.
4. Architetture multi-agente (Isolate)
Delegare a sotto-agenti specializzati, ognuno con la propria finestra di contesto pulita. L’agente coordinatore mantiene una visione ad alto livello; i sotto-agenti esplorano in profondità e restituiscono riassunti condensati (tipicamente 1.000-2.000 token da esplorazioni che ne consumano decine di migliaia). Anthropic ha documentato come il suo sistema di ricerca multi-agente ottenga risultati nettamente migliori rispetto a un singolo agente su compiti complessi.
È separazione delle competenze, come in un’organizzazione: il contesto dettagliato della ricerca resta isolato nel sotto-agente, mentre il coordinatore si concentra sulla sintesi. Ogni sotto-agente ha una finestra fresca e focalizzata.
Ecco, mi sarebbe superpiaciuto riuscire a restare nelle 4 parole proposte da LangChain, ma non ce l’ho fatta e ne ho altre due. Pronti? Via.
5. MCP e il protocollo universale
Un nuovo standard sta cambiando il modo in cui gli agenti accedono al contesto esterno. Il Model Context Protocol (MCP), creato da Anthropic a fine 2024 e adottato nel 2025-2026 da OpenAI, Google e l’intero ecosistema degli editor AI (Cursor, Windsurf, Continue), è una specie di “USB per l’intelligenza artificiale”: un protocollo aperto che permette a qualsiasi AI di leggere e scrivere direttamente nei tuoi strumenti — Notion, Figma, GitHub, database — senza copia-incolla.
MCP non risolve il problema del contesto limitato, ma lo mitiga in modo elegante: invece di caricare tutto nella finestra, l’agente può interrogare le fonti just-in-time, recuperando solo ciò che serve nel momento in cui serve. L’approccio non è privo di rischi — sicurezza, latenza cumulativa, “paralisi da analisi” quando gli strumenti collegati sono troppi — ma rappresenta il tentativo più concreto di dare agli agenti un accesso governato al mondo esterno.
6. Skill e procedure
Istruzioni pre-confezionate iniettate nel contesto al momento giusto. Sono il modo più semplice per dare competenze specializzate a un agente senza occupare spazio permanente. Ma il volume di “pregresso” che una skill può contenere resta incomparabile con quello che servirebbe per una conoscenza davvero profonda dell’utente e della sua storia. Le skill risolvono il problema del come (come formattare un report, come usare un’API), non quello del chi (chi sei, cosa hai fatto, cosa preferisci).
Ok, quindi quando?
Non tanto presto.
L’AI universale — quella che sa tutto di noi (e lo sa in modo sicuro, privacy-by-design), sempre, attraverso ogni app e ogni dispositivo — è ancora lontana. E non tanto perché manchino i modelli intelligenti (il tema qui non è l’AI di tipo generale (AGI), ma è tutto un altro argomento) ma perché il problema della memoria è un problema di fisica e di economia prima ancora che di software.
Quello che arriverà, e che in parte è già qui, sono AI straordinariamente capaci dentro un contesto specifico. Un agente che lavora con me su un progetto per ore, con le giuste strategie di memoria, è già oggi uno strumento formidabile. Ma chiedergli di ricordare cosa ho fatto ieri su un altro progetto, con un’altra app, è chiedere qualcosa che l’architettura attuale non consente senza compromessi pesanti.
La memoria per agenti AI nel 2026 è diventata una disciplina con i propri benchmark, la propria letteratura accademica e un ecosistema di strumenti dedicati. Tre anni fa non esisteva nemmeno come categoria. Il progresso è rapido. Ma la direzione punta verso sistemi di memoria specializzati ed esterni al modello, non verso un’espansione illimitata della finestra di contesto.
In altre parole: non avremo un cervello artificiale con memoria infinita. Almeno per un po’ avremo intelligenze artificiali che imparano a prendere appunti, a consultare archivi, a delegare.
Molto simili, alla fine, a come funzioniamo noi.






