Se negli ultimi due anni hai costruito soluzioni IA aziendali, quasi sicuramente hai implementato un sistema RAG (Retrieval-Augmented Generation). Hai preso un database vettoriale (Pinecone, Chroma, pgvector), hai spezzettato i PDF in chunk, calcolato gli embedding e sperato che il recupero del contesto fosse abbastanza preciso.
Funzionava. Ma era anche un’immensa rottura di scatole: chunking strategy fallimentari, perdita del contesto globale, allucinazioni sulle query di sintesi e una complessità infrastrutturale spaventosa.
Oggi lo scenario è cambiato drasticamente. Il RAG classico, per come lo conosciamo, è superato. Benvenuti nell’era delle LLM Wiki.
Cos’è cambiato? La vendetta del Context Window
Il RAG è nato per un limite fisico degli LLM: le finestre di contesto ridotte (spesso limitate a 4k o 8k token). Dovevi “imboccare” il modello solo con i pezzetti di testo strettamente necessari.
Oggi, con modelli che gestiscono nativamente milioni di token mantenendo una needle-in-a-haystack accuracy vicina al 100%, la musica è cambiata. Non serve più fare il chirurgo con il testo.
LLM Wiki è il nuovo paradigma: l’architettura si sposta dal “cerca il frammento e rispondi” al “carica l’intera base di conoscenza nel contesto vivo dell’agente”.
RAG vs LLM Wiki: Il confronto
| Sfida | Il Vecchio RAG | La Nuova LLM Wiki |
| Infrastruttura | Pipeline ETL complesse, DB Vettoriali dedicati, tuning dei parametri di ricerca. | File system strutturato (Markdown/JSON) o dump iniettati direttamente nel contesto globale. |
| Visione d’Insieme | Pessima. Se chiedi “Fammi un riassunto dei trend del 2025”, il RAG fallisce perché recupera solo singoli chunk. | Eccellente. Il modello ha accesso all’intera documentazione contemporaneamente e collega i puntini. |
| Manutenzione | Devi aggiornare gli embedding a ogni modifica del documento. | Aggiorni un file Markdown nella tua repository o nel document store. Fine. |
| Sviluppo | Mesi di engineering e pipeline fragili. | Orchestrazione tramite Agenti e framework MCP (Model Context Protocol). |
Come si traduce nella pratica?
Passare al paradigma LLM Wiki non significa lanciare giga di PDF grezzi contro una API. Significa essere intelligenti nella strutturazione:
- Markdown is King : Documentazione pulita, gerarchica, facilmente leggibile sia dagli umani che dai modelli.
- Orchestrazione via MCP: Sfruttare protocolli aperti (come l’MCP) per dare agli agenti IA una “vista” diretta e dinamica sulla documentazione aziendale o sul codice, senza intermediari pesanti.
- Agenti con memoria: Invece di una query stateless, l’agente naviga la “Wiki” interna sapendo esattamente cosa sta cercando e mantenendo il filo logico.
Conclusione
Il RAG tradizionale rimarrà confinato a casi d’uso ultra-specifici con moli di dati monumentali (terabyte di roba). Ma per la gestione della conoscenza aziendale, la documentazione tecnica, le wiki di progetto e il supporto clienti basato su knowledge base, il futuro è un contesto immenso, pulito e accessibile nativamente dall’agente.
Meno tempo a ottimizzare algoritmi di chunking, più tempo a orchestrare agenti che risolvono problemi reali.