Capire benchmark di CPU, GPU e NPU: numeri onesti oltre l’hype

Capire i benchmark di CPU, GPU e NPU senza cascare nell’hype: cosa misurano davvero TPS, TOPS e TDP, come leggere efficienza e scalabilità, e come fare confronti onesti.

Francesca Lombardi · 26 Giugno 2026 · 5 min

Capire benchmark di CPU, GPU e NPU: numeri onesti oltre l’hype

I benchmark servono a misurare il comportamento di CPU, GPU e NPU ma non tutti i test dicono la stessa cosa. In termini semplici, un benchmark è una misurazione ripetibile di una certa prestazione. Alcuni test imitano attività concrete, altri spingono un componente in condizioni controllate che raramente si incontrano. Capire cosa si sta misurando è più importante del numero in sé: lo stesso punteggio può significare cose diverse a seconda del contesto.

Questo tema è rilevante perché le decisioni d’acquisto e di progettazione vengono spesso guidate da cifre brillanti ma poco rappresentative. L’articolo chiarisce differenze tra test synthetic e real-world spiega come interpretare TPSTOPS e TDP introduce i concetti di efficienza e scalabilità con esempi pratici e propone un metodo per evitare i marketing numbers e confrontare in modo onesto.

Benchmark sintetici vs reali: cosa misurano davvero

I test synthetic isolano una o poche variabili per misurare una capacità precisa, come la larghezza di banda della memoria o il throughput di calcolo. Sono utili per confronti puntuali e per evidenziare i limiti teorici. I test real-world replicano attività riconoscibili: compressione di un archivio, esportazione di una foto, inferenza su un modello piccolo. Questi misurano il tempo di completamento di un compito intero e includono colli di bottiglia di I/O, memoria e software. Un punteggio alto in un test sintetico non garantisce un vantaggio percepibile in un flusso reale se altri fattori, come latenza o cache, dominano l’esperienza.

TPS, TOPS e TDP: come interpretarli senza abboccare

TPS (Transactions Per Second) quantifica quante operazioni discrete un sistema completa per unità di tempo; ha senso quando la definizione di transazione è chiara: ad esempio, richieste di database con vincoli d’integrità. TOPS (Tera Operations Per Second) misura la capacità nominale di calcolo, spesso con operazioni a precisione ridotta; è un tetto teorico che non include colli di bottiglia di memoria e dipende dal tipo di operazione. TDP (Thermal Design Power) non è la potenza reale “consumata”, ma un budget termico attorno al quale si progetta il raffreddamento. Un dispositivo può superare o restare sotto quel valore a seconda del carico. Per letture sensate: chiedere sempre quali operazioni contano in TOPS, come è definita la transazione in TPS, e in che condizioni è stato misurato il TDP.

Efficienza e scalabilità: oltre la potenza bruta

L’efficienza descrive quanta prestazione si ottiene per unità di risorsa, tipicamente prestazioni per watt o per euro. Un esempio pratico: se due GPU completano un’inferenza immagine in 10 ms e 15 ms ma la prima consuma il doppio di energia, la seconda può essere più efficiente in ambienti densi o alimentati a batteria. La scalabilità riguarda come la prestazione cresce al crescere delle risorse: aggiungere core, aumentare la frequenza, distribuire su più dispositivi. Un classico: raddoppiare i core di una CPU non raddoppia sempre la velocità di un encoding video a causa di sincronizzazioni, cache condivise e parti seriali del codice (Amdahl insegna senza bisogno di formule). Misurare entrambi i profili evita sorprese.

Esempi pratici: legare i numeri ai compiti

Per una CPU, un test sintetico di integer throughput può brillare, ma in un build software l’I/O su disco e la latenza della cache possono dominare: ha più valore il tempo totale di compilazione su un progetto standard. Per una GPU, un numero alto di TOPS in FP16 è utile per reti a precisione ridotta; in rendering fotorealistico contano anche latency hiding cache texture e banda memoria. Per una NPU, un valore di TOPS INT8 non dice quanto dura un’inferenza di un modello più grande della SRAM on-chip: serve misurare throughput e latenza su batch realistici e con quantizzazione coerente. L’esempio universale: confrontare tempo per completare il compito a parità di qualità e impostazioni.

Evitare i marketing numbers: un metodo in cinque passi

Per confronti onesti, è utile seguire una piccola checklist:

Definire il compito specificare input, parametri, qualità e output misurato.
Fissare il budget potenza (limite in watt), spazio, rumorosità, costo.
Misurare ripetutamente più run, scarto standard e media, evitando outlier casuali.
Normalizzare prestazioni per watt e per euro, oltre al tempo assoluto.
Documentare l’ambiente versioni software, driver, librerie, modalità energetiche.

Se un produttore offre solo valori massimi come peak TOPS senza indicare precisione, batch, o memoria, è prudente considerarlo indicativo e non comparabile. Quando possibile, preferire benchmark con dataset aperti e procedure ripetibili che includano anche latenza e stabilità su carichi prolungati.

Casi particolari ed eccezioni da conoscere

Alcuni scenari sfidano le metriche comuni. In sistemi termicamente limitati, un basso TDP con buon raffreddamento sostenuto può superare un dispositivo più potente che va in throttling. In carichi bursty, la latency to boost conta più del throughput sostenuto. Nei database, TPS elevato su transazioni leggere non si traduce in vantaggio con transazioni lunghe e lock complessi. Per l’IA, modelli che richiedono memoria non contigua possono penalizzare NPU con SRAM piccola e costringere a trasferimenti frequenti: qui la metrica decisiva diventa il tempo per token o il tempo per batch a parità di qualità, più che i TOPS nominali. Le eccezioni confermano la regola: misurare ciò che davvero limita il compito.

Cosa conta davvero nella scelta

Un confronto credibile lega ogni numero a un risultato pratico: quanto tempo si risparmiaquanta energia si consumaquanto costa ottenere quel risultato. Le metriche di potenza di picco come TOPS o frequenza massima hanno valore solo se accompagnate da misure di efficienza, scalabilità e comportamento reale su task rappresentativi. Chi cerca prestazioni solide dovrebbe chiedere test ripetibili, condizioni dichiarate e normalizzazioni chiare. Con questo approccio, CPU, GPU e NPU diventano comparabili senza hype, e la scelta si orienta sul valore che conta: completare il lavoro meglio, prima e a risorse sotto controllo.

Autore

Francesca Lombardi

Francesca Lombardi, fiorentina, prese appunti tecnici dal primo box di un circuito toscano e da allora firma approfondimenti sui motori. In redazione sostiene un approccio metodico alle prove su pista, cura il format 'tecnica e cronaca' e conserva i fogli di appunti del debutto tecnico in autodromo.