Nvidia prezentuje DGX-1 - superkomputer z ośmioma kartami Tesla P100 za 129 tys. dol.
Tesla P100 to najwydajniejsza karta graficzna do profesjonalnych zastosowań - jej moc obliczeniowa sięga 21,6 TFLOPS.
Na wczorajszej konferencji GPU Technology Conference 2016 poznaliśmy szczegóły odnośnie architektury nowej generacji procesorów graficznych Nvidia Pascal oraz topowego przedstawiciela Pascal GP100. To jednak nie koniec nowości, bo oprócz tego zaprezentowano pierwszą kartę graficzną wyposażoną w ten chip – mowa o modelu Tesla P100, który został zaprojektowany z myślą o uczeniu maszynowym (deep Learning), zastosowaniach naukowych, inżynieryjnych i wysokowydajnych obliczeniach (HPC).
Tesla P100 nie przypomina tradycyjnej karty rozszerzeń (bardziej trafne chyba wydaje się tutaj określenie moduł). Na pokładzie znalazł się procesor graficzny Pascal GP100, ale w nieco przyciętej wersji – do dyspozycji oddano bowiem 56 z 60 bloków SM, które przekładają się na 3540 rdzeni CUDA i 224 jednostki teksturujące. Oprócz tego udostępniono 16 GB pamięci HBM2 4096-bit z korekcją błędów Single-Error Correct Double-Error Detect. Cała konstrukcja charakteryzuje się współczynnikiem TDP na poziomie 300 W.
Tesla P100 nie przypomina tradycyjnej karty rozszerzeń
Karta graficzna | Tesla K40 | Tesla M40 | Tesla P100 |
GPU | Kepler GK110 | Maxwell GM200 | Pascal GP100 |
Technologia | TSMC 28nm | TSMC 28nm | TSMC 16nm |
Tranzystory | 7,1 mld | 8 mld | 15,3 mld |
Powierzchnia GPU | 551 mm2 | 601 mm2 | 610 mm2 |
Bloki SM | 15 | 24 | 56 |
Procesory strumieniowe | 2880 | 3072 | 3584 |
Jednostki teksturujące | 240 | 192 | 224 |
Taktowanie | 745/875 MHz | 948/1114 MHz | 1328/1480 MHz |
Moc obliczeniowa FP64 | 1,43 TFLOPS | 0,21 TFLOPS | 5.30 TFLOPS |
Moc obliczeniowa FP32 | 4,29 TFLOPS | 7 TFLOPS | 10,6 TFLOPS |
Memory Interface | 12 GB GDDR5 384-bit | 24 GB GDDR5 384-bit | 16 GB HBM2 4096-bit |
Przepustowość pamięci | 288 GB/s | 288 GB/s | 720 GB/s |
TDP | 235 W | 250 W | 300 W |
Nowa karta może pochwalić się mocą obliczeniową 21,2 TFLOPS połowicznej precyzji (FP16), 10,6 TFLOPS pojedynczej precyzji (FP32) i 5,3 TFLOPS podwójnej precyzji (FP64). Przepustowość pamięci wynosi natomiast 720 GB/s (szczytowo) – przy zastosowaniu CUDA 6 staje się ona pamięcią zunifikowaną i może z niej korzystać także procesor centralny (CPU).
Przy okazji Nvidia zaprezentowała klaster obliczeniowy DGX-1, w którym zastosowano dwa procesory Intel Xeon E5-2698 v3, 512 GB pamięci DDR4-2133 LRDIMM, osiem modułów Tesla P100 (połączone za pomocą magistrali NVLink), cztery nośniki SSD 1,92 TB połączone w macierz RAID 0 oraz zasilacz U3 o mocy 3200 W. Oprócz tego producent udostępnił dwie karty sieciowe 10 GbE oraz cztery InfiniBand EDR 100 Gbps.
Superkomputer DGX-1 od środka - całość waży 61 kg (foto: ComputerBase)
Producent chwali się, że DGX-1 to pierwszy na świecie superkomputer do uczenia maszynowego. Konstrukcja ta oferuje moc obliczeniową sięgającą 170 TFLOPS, co można porównać do 250 tradycyjnych serwerów.
Nvidia DGX-1 w Stanach Zjednoczonych trafi do sprzedaży w czerwcu, niemniej jednak już teraz można składać zamówienia – cena to „jedyne” 129 000 dolarów. Wiadomo również, że firmy IBM, HP, Dell i Cray przygotowują autorskie konstrukcje z modułami Tesla P100 (ich dostępność spodziewana jest dopiero w pierwszym kwartale 2017 roku).
Na koniec jeszcze fragmenty wczorajszej konferencji poświęcone Tesli P100 i klastrowi DGX-1.
Źródło: Nvidia, ComputerBase
Komentarze
15Pójdzie na tym minecraft?