Claude Opus 4.8: Meno "Allucinazioni", Più Autonomia e Gestione dell'Effort

A meno di due mesi dal rilascio della versione precedente, Anthropic accelera il passo e lancia Claude Opus 4.8. Non si tratta di una rivoluzione architetturale totale, ma di un affinamento chirurgico pensato per chi utilizza gli LLM come motori di esecuzione per Agenti autonomi e Coding su code-base complesse.

I tre pilastri di questo rilascio cambiano radicalmente l’affidabilità dei flussi di lavoro asincroni e la gestione dei token.

1. Il fattore “Onestà” e l’Abstention Rate

La novità più importante per chi sviluppa sistemi agentici non è un incremento di punteggio su un benchmark teorico, ma il comportamento del modello di fronte all’incertezza.

Opus 4.8 riduce di ben 4 volte la probabilità di lasciar passare codice fallato senza segnalarlo rispetto a Opus 4.7.

Il modello è stato addestrato per essere più “onesto”: preferisce astenersi o sollevare dubbi piuttosto che saltare a conclusioni affrettate o inventare soluzioni (allucinazioni). Nei benchmark interni ha registrato il tasso di errore più basso di sempre, un fattore cruciale quando si integrano tool di testing automatico nei loop di esecuzione dell’AI.

2. Controllo dell’Effort e “Adaptive Thinking”

Su Claude.ai e tramite API è ora disponibile il controllo granulare dell’Effort (Impegno cognitivo).

Come funziona: Il modello utilizza un sistema di adaptive thinking (ragionamento adattivo). Riconosce la complessità del task e decide quanti token di pensiero dedicare alla soluzione.
I vantaggi: Di default il livello è impostato su High, ma per task asincroni complessi o refactoring massivi è possibile spingerlo su Extra o Max. Per prompt banali, il modello riduce autonomamente il consumo di token per preservare i rate limit.

3. Dynamic Workflows in Claude Code

Insieme al modello, entra in research preview la funzionalità di Dynamic Workflows all’interno di Claude Code (per piani Enterprise, Team e Max). Permette a Opus 4.8 di pianificare un obiettivo macro (es. una migrazione di una libreria su centinaia di migliaia di linee di codice), istanziare e coordinare centinaia di sub-agenti paralleli in un’unica sessione, ed eseguire la verifica dell’output tramite la test suite esistente prima di proporre la merge.

I Benchmark a confronto

Il salto prestazionale si concentra quasi interamente sui task multi-step e sulla programmazione agentica:

Benchmark / Task	Claude Opus 4.7	Claude Opus 4.8	focus
Agentic Coding (SWE-Bench Pro)	64.3%	69.2%	Navigazione e modifica di code-base reali
Multidisciplinary Reasoning (con Tool)	54.7%	57.9%	Orchestrazione e chiamate API multi-step
Agentic Computer Use (OSWorld)	82.8%	83.4%	Interazione autonoma con l’ambiente OS
Agentic Financial Analysis	51.5%	53.9%	Riconciliazione dati e analisi di report densi

Novità per gli Sviluppatori (API & SDK)

Se gestisci pipeline di prompt o architetture multi-tenant basate su LLM, ci sono tre modifiche infrastrutturali da considerare subito:

Mid-conversation System Messages: È ora possibile inserire messaggi con role: "system" in posizioni non iniziali all’interno dell’array dei messaggi. Questo permette di aggiornare le istruzioni operative dell’agente nel corso di una lunga sessione senza invalidare il Prompt Caching precedente, riducendo drasticamente i costi computazionali.
Refusal Categories: L’API dei Messaggi ora restituisce la categoria del rifiuto all’interno dell’oggetto stop_details quando il modello declina una richiesta. Questo semplifica la scrittura del codice di routing per gestire i fallimenti o i blocchi di sicurezza dell’applicazione.
Fast Mode Economica: La modalità Fast Mode per Opus 4.8 (in preview) offre un’esecuzione a 2.5x della velocità standard con un costo operativo ridotto di un terzo rispetto ai tentativi precedenti.
Pricing invariato: Nonostante gli upgrade, il costo rimane bloccato a 5$/M token in input e 25$/M token in output (con sconti fino al 90% grazie al prompt caching, la cui soglia minima scende a 1.024 token).

In sintesi: Opus 4.8 non cerca l’effetto WOW sulla singola risposta da chat generalista, ma si propone come un motore deterministico e affidabile per backend agentici e pipeline CI/CD dove la coerenza logica a lungo termine fa la differenza tra un processo riuscito e un loop infinito di errori.

Pubblicato

30 Maggio 2026

Andrea Merlin in Informatica, Intelligenza Artificiale | 30 Maggio 2026

Claude Opus 4.8: Meno “Allucinazioni”, Più Autonomia e Gestione dell’Effort

1. Il fattore “Onestà” e l’Abstention Rate

2. Controllo dell’Effort e “Adaptive Thinking”

3. Dynamic Workflows in Claude Code

I Benchmark a confronto

Novità per gli Sviluppatori (API & SDK)