Prečo je to dôležité: Groq je stým spustením, ktoré urobí strelu pri výrobe karty urýchľovača AI, druhou na trhu a prvou, ktorá má produkt na dosah 1 kvadrilión operácií za sekundu. To je štvornásobok výkonu najsilnejšej karty Nvidia.
Procesor Groq Tensor Streaming Processor (TSP) vyžaduje 300 W na jadro, takže našťastie má iba jeden. Ešte šťastnejšie, spoločnosť Groq to zmenila z nevýhody na najväčšiu silu TSP.
Pravdepodobne by ste mali vyhodiť všetko, čo viete o GPU alebo spracovaní AI, z okna, pretože TSP je jednoducho jasný príšerný, Je to obrovský kúsok kremíka s takmer ničím okrem spracovateľských jednotiek Vector a Matrix a vyrovnávacej pamäte, takže žiadne ovládače ani backend vôbec. Kompilátor má priame ovládanie.
TSP je rozdelený do 20 superlanov. Superlanes sú postavené z: zľava doprava: z maticovej jednotky (320 MAC), Switch Jednotka, Pamäťová jednotka (5,5 MB), Vektorová jednotka (16 ALU), Pamäťová jednotka (5,5 MB) Switch Unit, Matrix Unit (320 MAC). Všimnite si, že komponenty sú zrkadlené okolo vektorovej jednotky, čo rozdeľuje superlane na dve hemisféry, ktoré môžu pôsobiť takmer nezávisle.
Inštrukčný tok (existuje len jeden) sa privádza do každej zložky superlane 0, s 6 pokyny pre maticové jednotky, 14 pre Switch Jednotky, 44 pre pamäťové jednotky a 16 pre vektorové jednotky. Pri každom cykle hodín jednotky vykonávajú svoju činnosť a presunú časť údajov na miesto, kde bude pokračovať v rámci superlantu. Každý komponent môže vysielať a prijímať 512B od susedov vo vedľajšej miestnosti.
Akonáhle sú operácie superlánu ukončené, všetko postúpi nadol na ďalší superlane a dostane všetko, čo má superlane nad (alebo ovládač inštrukcií). Inštrukcie sa vždy prenášajú vertikálne medzi superlaninami, zatiaľ čo údaje sa prenášajú iba horizontálne v superlante.
Groq TSP | Nvidia Tesla V100 | Nvidia Tesla T4 | |
jadra | 1 | 5120 | 2560 |
Maximálna frekvencia | 1250 MHz | 1530 MHz | 1590 MHz |
FP16 TFLOPS | 205 TFLOPS | 125 TFLOPS | 65 TFLOPS |
INT8 TOPS | 1000 TOPS | 250 TOPS | 130 TOPS |
Chip Cache (L1) | 220 MB | 10 MB | 2,6 MB |
Pamäť dosky | N / A | 32 GB HBM2 | 16 GB GDDR6 |
Výkon dosky (TDP) | 300W | 300W | 70W |
proces | 14nm | 12Nm | 12Nm |
Die Area | 725 mm² | 815 mm² | 545 mm² |
To všetko prispieva k procesorom, ktorý je mimoriadne dobrý v oblasti odbornej prípravy a inicializácie neurónovej siete a ktorý nie je schopný ničoho iného. Aby sme tomu dali nejaké referenčné hodnoty, môže v sieti ResNet-50 vykonávať 20 400 odkazov za sekundu (I / S) pri ľubovoľnej veľkosti šarže s inferenčnou latenciou 00,05 ms.
Tesla V100 od spoločnosti Nvidia môže hrať 7, 907 I / S pri dávke 128, alebo 1, 156 I / S pri veľkosti šarže jedna (veľkosti šarže spravidla nie sú také nízke, ale demonštrujú všestrannosť TSP). Jeho latencia v dávke 128 je 16 ms a 00,87 ms v dávke jedna. Je zrejmé, že TSP v tomto pracovnom zaťažení prevyšuje naj ekvivalentnejšiu kartu Nvidia.
Jednou zo silných stránok TSP je to, že má toľko vyrovnávacej pamäte L1, ale tiež nemá nič iné. Ak sa neurónová sieť rozšíri nad tento objem alebo ak sa zaoberá veľmi veľkými vstupmi, bude to vážne trpieť. Karty spoločnosti Nvidia obsahujú gigabajty pamäte, ktoré dokážu tento scenár zvládnuť.
Toto zhrňuje TSP naozaj dobre. V konkrétnom pracovnom zaťažení je viac ako dvakrát výkonnejšia ako Tesla V100, ale ak sa vaše pracovné zaťaženie líši, alebo ak chcete zakázať nebo, aby ste robili niečo s presnosťou na polovicu, nemôžete to urobiť. TSP má určite budúcnosť v oblastiach, ako sú vozidlá s vlastným pohonom, kde je objem vstupov predvídateľný a neurálna sieť môže byť zaručená, že sa zmestí. V tomto prípade jej veľkolepá latencia, 320x lepšia ako Nvidia, znamená, že auto môže reagovať rýchlejšie.
TSP je v súčasnosti k dispozícii na výber zákazníkov ako urýchľovač v Nimbix Cloud.