Il RAG è morto. Benvenuta LLM Wiki

Se negli ultimi due anni hai costruito soluzioni IA aziendali, quasi sicuramente hai implementato un sistema RAG (Retrieval-Augmented Generation). Hai preso un database vettoriale (Pinecone, Chroma, pgvector), hai spezzettato i PDF in chunk, calcolato gli embedding e sperato che il recupero del contesto fosse abbastanza preciso.

Funzionava. Ma era anche un’immensa rottura di scatole: chunking strategy fallimentari, perdita del contesto globale, allucinazioni sulle query di sintesi e una complessità infrastrutturale spaventosa.

Oggi lo scenario è cambiato drasticamente. Il RAG classico, per come lo conosciamo, è superato. Benvenuti nell’era delle LLM Wiki.

Cos’è cambiato? La vendetta del Context Window

Il RAG è nato per un limite fisico degli LLM: le finestre di contesto ridotte (spesso limitate a 4k o 8k token). Dovevi “imboccare” il modello solo con i pezzetti di testo strettamente necessari.

Oggi, con modelli che gestiscono nativamente milioni di token mantenendo una needle-in-a-haystack accuracy vicina al 100%, la musica è cambiata. Non serve più fare il chirurgo con il testo.

LLM Wiki è il nuovo paradigma: l’architettura si sposta dal “cerca il frammento e rispondi” al “carica l’intera base di conoscenza nel contesto vivo dell’agente”.

RAG vs LLM Wiki: Il confronto

Sfida	Il Vecchio RAG	La Nuova LLM Wiki
Infrastruttura	Pipeline ETL complesse, DB Vettoriali dedicati, tuning dei parametri di ricerca.	File system strutturato (Markdown/JSON) o dump iniettati direttamente nel contesto globale.
Visione d’Insieme	Pessima. Se chiedi “Fammi un riassunto dei trend del 2025”, il RAG fallisce perché recupera solo singoli chunk.	Eccellente. Il modello ha accesso all’intera documentazione contemporaneamente e collega i puntini.
Manutenzione	Devi aggiornare gli embedding a ogni modifica del documento.	Aggiorni un file Markdown nella tua repository o nel document store. Fine.
Sviluppo	Mesi di engineering e pipeline fragili.	Orchestrazione tramite Agenti e framework MCP (Model Context Protocol).

Come si traduce nella pratica?

Passare al paradigma LLM Wiki non significa lanciare giga di PDF grezzi contro una API. Significa essere intelligenti nella strutturazione:

Markdown is King : Documentazione pulita, gerarchica, facilmente leggibile sia dagli umani che dai modelli.
Orchestrazione via MCP: Sfruttare protocolli aperti (come l’MCP) per dare agli agenti IA una “vista” diretta e dinamica sulla documentazione aziendale o sul codice, senza intermediari pesanti.
Agenti con memoria: Invece di una query stateless, l’agente naviga la “Wiki” interna sapendo esattamente cosa sta cercando e mantenendo il filo logico.

Conclusione

Il RAG tradizionale rimarrà confinato a casi d’uso ultra-specifici con moli di dati monumentali (terabyte di roba). Ma per la gestione della conoscenza aziendale, la documentazione tecnica, le wiki di progetto e il supporto clienti basato su knowledge base, il futuro è un contesto immenso, pulito e accessibile nativamente dall’agente.

Meno tempo a ottimizzare algoritmi di chunking, più tempo a orchestrare agenti che risolvono problemi reali.

Pubblicato

8 Giugno 2026

Andrea Merlin in Informatica, Intelligenza Artificiale | 8 Giugno 2026

Il RAG è morto. Benvenuta LLM Wiki

Cos’è cambiato? La vendetta del Context Window

RAG vs LLM Wiki: Il confronto

Come si traduce nella pratica?

Conclusione