AMD wprowadza najwydajniejszą kartę graficzną dla superkomputerów - osiągi robią wrażenie
Firma AMD pochwaliła się najszybszym akceleratorem do badań naukowych - model Instinct MI100 to pierwszy układ do serwerów z procesorami x86, który przekroczył barierę 10 TFLOPS w obliczeniach FP64. Nowa konstrukcja pozwoli przyspieszyć wdrażanie eksaskalarnych superkomputerów.
Premiera karty graficznej AMD Instinct MI100
Instinct MI100 to pierwsza karta graficzna na bazie nowej architektury CDNA. Specyfikacja pokrywa się z wcześniejszymi przeciekami (producent porzucił dopisek Radeon) - zastosowany układ korzysta ze 120 jednostek obliczeniowych CU, które przekładają się na 7680 procesorów strumieniowych. Oprócz tego przewidziano 32 GB pamięci HBM2 ECC o taktowaniu 1200 MHz.
Zastosowany układ wykonano w 7-nanometrowej litografii
Nowa architektura wprowadza też nową technologię Matrix Core, która zwiększa wydajność w pełnym spektrum operacji o jednej lub mieszanej precyzji, jak FP32, FP16, bFloat16, Int8 czy Int4. Rozwiązanie ma istotne znaczenie w przypadku wysokowydajnych systemów obliczeniowych (HPC) oraz systemów wspomagania sztucznej inteligencji (AI).
Model | AMD Radeon Instinct MI50 | AMD Radeon Instinct MI60 | AMD Instinct MI100 |
Architektura | GCN (TSMC 7 nm) | GCN (TSMC 7 nm) | CDNA (TSMC 7 nm) |
Układ graficzny | Vega 20 GLXT | Vega 20 GL | MI100 XL |
Procesory strumieniowe | 3840 | 4096 | 7680 |
Taktowanie GPU | 1200-1746 MHz | 1200-1800 MHz | do 1502 MHz |
Moc obliczeniowa FP16 | 26,8 TFLOPS | 29,5 TFLOPS | 184,6 TFLOPS |
Moc obliczeniowa FP32 | 13,4 TFLOPS | 14,7 TFLOPS | 23,1 TFLOPS |
Moc obliczeniowa FP64 | 6,7 TFLOPS | 7,4 TFLOPS | 11,5 TFLOPS |
Moc obliczeniowa INT4 | 107 TOPS | 118 TOPS | 184,6 TOPS |
Moc obliczeniowa INT8 | 53,6 TOPS | 59,TOPS | 184,6 TOPS |
Pamięć wideo | 16 GB HBM2 4096-bit | 32 GB HBM2 4096-bit | 32 GB HBM2 4096-bit |
Przepustowość pamięci wideo | 1 TB/s | 1 TB/s | 1,23 TB/s |
TBP | 300 W | 300 W | 300 W |
Wydajność karty AMD Instinct MI100
Wydajność? Suche dane wyglądają imponująco - karta osiąga 11,5 TFLOPS szczytowej mocy w obliczeniach FP64 i 23,1 TFLOPS szczytowej mocy w obliczeniach FP32. Zastosowana pamięć zapewnia 1,23 TB/s przepustowości i tym samym pozwala wyeliminować przestoje wynikające z przenoszenia danych do i z pamięci.
Warto dodać, że AMD Instinct MI100 obsługuje technologię Infinity Fabric 2. generacji, co przekłada się na 2-krotnie wyższą przepustowość I/O przez interfejs PCIe 4.0, czyli nawet 340 GB/s agregowanego ruchu na akcelerator z trzema łącznikami AMD Infinity Fabric. W jednym serwerze można zastosować dwa połączone zestawy z czterema kartami każdy, co pozwala uzyskiwać nawet 552 GB/s przepustowości przy współdzieleniu danych.
Więcej o realnej wydajności może powiedzieć Bronson Messer, dyrektor naukowy Oak Ridge Leadership Computing Facility:
Otrzymaliśmy wczesny dostęp do akceleratora MI100 i wstępne wyniki są bardzo zachęcające. Zwykle widzieliśmy znaczny wzrost wydajności, nawet 2- - 3-krotny w porównaniu z innymi układami GPU
Kluczową kwestię odgrywa tutaj oprogramowanie deweloperskie AMD ROCm - to narzędzie open souce, które składa się z kompilatorów, interfejsów pgoramowania API i bibliotek. Nowa wersja oprogramowania (ROCm 4.0) została zoptymalizowana specjalnie pod kątem MI100, aby wykorzystać pełny potencjał nowych akceleratorów.
Systemy z kartami AMD Instinct MI100 niebawem pojawią się na rynku
AMD Instinct MI100 został wyceniony na 6400 dolarów. Dla porównania konkurencyjny model Nvidia A100 kosztuje od 9800 do 11 300 dolarów (według ofert ze sklepów, bo Nvidia nie podaje sugerowanej ceny akceleratora).
Według zapowiedzi producenta, karta AMD Instinct MI100 pojawi się w systemach wiodących partnerów OEM i ODM jeszcze przed końcem roku. Wiemy, że takie konstrukcje planuje wydać Dell, Gigabyte, HPE i Supermicro.
Źródło: AMD, ComputerBase
Zobacz więcej o kartach graficznych:
- GeForce RTX 3060 Ti - Inno3D szykuje dwie niereferencyjne wersje średniego Ampere
- Oto, co znaleźliśmy w pudełkach nowych Radeonów!
- Nvidia pozytywnie zaskakuje - karty GeForce RTX 3000 otrzymają funkcję znaną z modeli Radeon
Komentarze
20"AMD twierdzi, że MI100 rywalizuje z 6-megawatowym ASCI White, najszybszym superkomputerem na świecie w 2000 roku, który ważył 106 ton i zapewniał 12,3 TFLOPS wydajności. W przeciwieństwie do tego MI1000 obniża moc do 300 W, waży tylko 2,56 funta i dostarcza 11,5 TFLOPS wydajności."