Neurónová Procesná Jednotka (NPU) — niekedy označovaná aj ako AI Akcelerátor alebo Tensor Processing Unit (TPU) — je vysoko špecializovaná trieda mikroprocesorovej architektúry. Na rozdiel od univerzálnych CPU (procesorov), ktoré sú primárne optimalizované na sekvenčnú logiku a zložité vetvenie programu, jednotky NPU sú od základu návrhu kremíka skonštruované tak, aby robili excelentne len jednu jedinú vec: masívne paralelizovanú vektorovú matematiku, konkrétne operácie Multiply-Accumulate (MAC).
Operácie MAC (matematicky vyjadrené ako a * b + c) sú základnými matematickými stavebnými blokmi umelých neurónových sietí (ANN).
Prečo klasické CPU a GPU pri AI odvodzovaní (Inference) zlyhávajú
- CPU: Tradičný mikrokontrolér MCU alebo mikroprocesor MPU (ako Cortex-A alebo Cortex-M) spracováva dáta sekvenčne. Dokonca aj s povolenými rozšíreniami SIMD (Single Instruction, Multiple Data), samotný výpočet rovného milióna MAC operácií pre analýzu jediného jedného obrazového rámca videa vyžaduje, aby architektúra prešla procesorovou linkou spracovania (inštrukčný cyklus fetch-decode-execute) miliónkrát po sebe. To spotrebúva ohromné množstvo času a batériovej energie.
- GPU: Grafické procesorové jednotky, známe z grafických kariet, sú naopak excelentné v paralelnej matematike, čo je dôvod, prečo sú celosvetovým štandardom pre trénovanie modelov umelej inteligencie v cloudoch a serverovniach. Avšak GPU architektúry sú extrémne energeticky a prúdovo náročné, obrovské, generujú obrovské teplo a sú drahé. Nemôžete ich fyzicky napájať mincovou CR2032 batériou a umiestniť do vonkajšieho 5-dolárového IoT senzora kdesi na poli.
Unikátna výhoda NPU pri Edge computingu
NPU tento priepastný rozdiel preklepuje a úspešne umožňuje revolúciu v oblasti Edge AI a TinyML.
Tým, že architektúra zámerne vyhradzuje a alokuje dôležitú plochu samotného kremíka výhradne a špecificky len pre masívne hardvérové MAC polia a vysoko lokalizovanú pamäť SRAM (aby sa zabránilo obrovskému plytvaniu energie neustálym naberaním gigabajtov váh modelu z externej pomalej RAM), dokáže NPU obvod dokončiť úlohu odvodzovania a vyhodnocovania (napríklad detekciu prebúdzacieho slova v audiu alebo vizuálne rozpoznanie anomálie na páse z fotky) za zlomok celkového času a s použitím prísneho zlomku energie potrebnej pre univerzálny procesor.
Kľúčové metriky pri porovnávaní NPU:
- TOPS (Tera Operations Per Second / Bilióny operácií za sekundu): Najbežnejšia (aj keď z marketingového hľadiska často mimoriadne zavádzajúca) metrika vyjadrujúca surovú priepustnosť jadra. V obore snímačov Edge AI bežne meriame jednotky v GOPS (Giga Operations).
- TOPS/Watt (Výkon na Watt): Absolútne a skutočne kritická metrika pre hardvérové inžinierstvo embedded systémov.meria priamo reálnu energetickú účinnosť odvodzovania. Iba vysoký pomer TOPS/Watt umožňuje fungovanie relatívne zložitých AI modelov napájaných len z malých mincových či gombíkových batérií.
- Podpora kvantovania (Quantization): Moderné NPU jadrá natívne a priamo na hardvéri obsluhujú celočíselnú matematiku vo formáte INT8 (8-bit) alebo dokonca INT4 (4-bitové hodnoty). Kvantovaním natrénovanej neurónovej siete (jej presným softvérovým prepočtom z náročných 32-bitových čísel s pohyblivou rádovou čiarkou FP32 nadol na 8-bitové celé čísla) dokáže NPU obvod spracovať vyhodnotenie modelu až 4x rýchlejšie a s radikálne menšími požiadavkami na priestor v pamäti FLASH/RAM obvodu, pričom miera straty presnosti siete je vo výsledku pre koncovú aplikáciu zanedbateľná.
Prístup spoločnosti Inovasense k architektúre NPU
Integrácia jadier NPU priamo do samotnej topológie kremíka vo svete výrobcov napreduje neuveriteľným raketovým tempom. Zatiaľ čo ešte nedávno vyžadovala podpora jednotiek NPU použitie dedikovaného a drahého osadeného externého koprocesora navyše, poprední svetoví výrobcovia kremíka v roku 2026 už bežne integrujú NPU bloky priamo do jedného a toho istého puzdra a matrice štandardných Cortex-M mikrokontrolérov (ukážkovým príkladom je séria STM32N6 alebo rôzne NXP i.MX RT “Crossover” procesory vybavené integrovanými jadrami Ethos-U od spoločnosti ARM).
V Inovasense túto konvergenciu návrhu hardvéru obrovsky využívame s úspechom vo V-Modelových výstupoch. Namiesto zastaralého a energeticky nezmyselného prístupu neustáleho streamovania úplne surových dát zo senzorov do cloudu na webe (čo okamžite zavádza kritickú časovú odozvu vo forme latencie, spotrebováva obrovskú cennú bezdrôtovú šírku sieťového pásma operátorov a nechránene otvára zraniteľnosti voči ochrane súkromia firiem a legislatívy smerníc EÚ GDPR), nasadzujeme TinyML modely priamo do vnútra koncových NPU snímačov. Toto technické rozhodnutie logicky umožní koncovému IoT zariadeniu spracovať všetky zhromaždené snímané údaje výlučne lokálne na procesore, v priamom zlomku prebiehajúcich reky mikrosekundy - takým prístupom prístroj prenesie a odošle nadriadenému operátorovi z antény do éteru vyslovene iba konečný vyhodnotený výsledok zistení (napríklad jeden bit pre vetičku: “Detegované poškodenie ložiska predného kolesa stroja”), namiesto obrovského prenosu samotného audio nahrávania zvuku zo spomínaného ložiska.