Mobilné Správy, Gadgety, Blogy's Secenziami

Spoločnosť Groq uvádza na trh prvú kartu urýchľovača AI 1 PetaOPS

Prečo je to dôležité: Groq je stým spustením, ktoré urobí strelu pri výrobe karty urýchľovača AI, druhou na trhu a prvou, ktorá má produkt na dosah 1 kvadrilión operácií za sekundu. To je štvornásobok výkonu najsilnejšej karty Nvidia.

Procesor Groq Tensor Streaming Processor (TSP) vyžaduje 300 W na jadro, takže našťastie má iba jeden. Ešte šťastnejšie, spoločnosť Groq to zmenila z nevýhody na najväčšiu silu TSP.

Pravdepodobne by ste mali vyhodiť všetko, čo viete o GPU alebo spracovaní AI, z okna, pretože TSP je jednoducho jasný príšerný, Je to obrovský kúsok kremíka s takmer ničím okrem spracovateľských jednotiek Vector a Matrix a vyrovnávacej pamäte, takže žiadne ovládače ani backend vôbec. Kompilátor má priame ovládanie.

TSP je rozdelený do 20 superlanov. Superlanes sú postavené z: zľava doprava: z maticovej jednotky (320 MAC), Switch Jednotka, Pamäťová jednotka (5,5 MB), Vektorová jednotka (16 ALU), Pamäťová jednotka (5,5 MB) Switch Unit, Matrix Unit (320 MAC). Všimnite si, že komponenty sú zrkadlené okolo vektorovej jednotky, čo rozdeľuje superlane na dve hemisféry, ktoré môžu pôsobiť takmer nezávisle.

Spoločnosť Groq uvádza na trh prvú kartu urýchľovača AI 1 PetaOPS 1

Inštrukčný tok (existuje len jeden) sa privádza do každej zložky superlane 0, s 6 pokyny pre maticové jednotky, 14 pre Switch Jednotky, 44 pre pamäťové jednotky a 16 pre vektorové jednotky. Pri každom cykle hodín jednotky vykonávajú svoju činnosť a presunú časť údajov na miesto, kde bude pokračovať v rámci superlantu. Každý komponent môže vysielať a prijímať 512B od susedov vo vedľajšej miestnosti.

Akonáhle sú operácie superlánu ukončené, všetko postúpi nadol na ďalší superlane a dostane všetko, čo má superlane nad (alebo ovládač inštrukcií). Inštrukcie sa vždy prenášajú vertikálne medzi superlaninami, zatiaľ čo údaje sa prenášajú iba horizontálne v superlante.

Groq TSPNvidia Tesla V100Nvidia Tesla T4
jadra151202560
Maximálna frekvencia1250 MHz1530 MHz1590 MHz
FP16 TFLOPS205 TFLOPS125 TFLOPS65 TFLOPS
INT8 TOPS1000 TOPS250 TOPS130 TOPS
Chip Cache (L1)220 MB10 MB2,6 MB
Pamäť doskyN / A32 GB HBM216 GB GDDR6
Výkon dosky (TDP)300W300W70W
proces14nm12Nm12Nm
Die Area725 mm²815 mm²545 mm²

To všetko prispieva k procesorom, ktorý je mimoriadne dobrý v oblasti odbornej prípravy a inicializácie neurónovej siete a ktorý nie je schopný ničoho iného. Aby sme tomu dali nejaké referenčné hodnoty, môže v sieti ResNet-50 vykonávať 20 400 odkazov za sekundu (I / S) pri ľubovoľnej veľkosti šarže s inferenčnou latenciou 00,05 ms.

Tesla V100 od spoločnosti Nvidia môže hrať 7, 907 I / S pri dávke 128, alebo 1, 156 I / S pri veľkosti šarže jedna (veľkosti šarže spravidla nie sú také nízke, ale demonštrujú všestrannosť TSP). Jeho latencia v dávke 128 je 16 ms a 00,87 ms v dávke jedna. Je zrejmé, že TSP v tomto pracovnom zaťažení prevyšuje naj ekvivalentnejšiu kartu Nvidia.

Jednou zo silných stránok TSP je to, že má toľko vyrovnávacej pamäte L1, ale tiež nemá nič iné. Ak sa neurónová sieť rozšíri nad tento objem alebo ak sa zaoberá veľmi veľkými vstupmi, bude to vážne trpieť. Karty spoločnosti Nvidia obsahujú gigabajty pamäte, ktoré dokážu tento scenár zvládnuť.

Toto zhrňuje TSP naozaj dobre. V konkrétnom pracovnom zaťažení je viac ako dvakrát výkonnejšia ako Tesla V100, ale ak sa vaše pracovné zaťaženie líši, alebo ak chcete zakázať nebo, aby ste robili niečo s presnosťou na polovicu, nemôžete to urobiť. TSP má určite budúcnosť v oblastiach, ako sú vozidlá s vlastným pohonom, kde je objem vstupov predvídateľný a neurálna sieť môže byť zaručená, že sa zmestí. V tomto prípade jej veľkolepá latencia, 320x lepšia ako Nvidia, znamená, že auto môže reagovať rýchlejšie.

TSP je v súčasnosti k dispozícii na výber zákazníkov ako urýchľovač v Nimbix Cloud.