Cerebras Wafer Scale Engine - chip o powierzchni 46225 mm²
Autor: Zbyszek | źródło: WccFTech | 16:21
(21)
Cerebras Systems, amerykański startup, zaprezentował właśnie koncepcyjny układ scalony o nazwie Wafer Scale Engine. Chip ma wymiary 21,5 x 21,5 cm i jest tak duży, że z jednego wafa o średnicy 300mm można uzyskać tylko jeden taki układ. Powierzchnia Wafer Scale Engine to 46225 mm² i jest 56,7 raza większa od największego kiedykolwiek wyprodukowanego układu GPU - Nvidia V100 o powierzchni 815 mm². Wafer Scale Engine ma składać się z 2,1 biliona tranzystorów (2100 miliardów), które będą budować 400 000 jednostek obliczeniowych SLA (Sparse Linear Algebra) zorganizowanych w 84 blokach, oraz 18GB pamięci wewnętrznej SRAM. Chip ma służyć do obliczeń związanych ze sztuczną inteligencją i uczeniem maszynowym.
Wyzwaniem będzie zaprojektowanie systemu chłodzenia - układ ma charakteryzować się zużyciem energii około 15 KW, a ciepło przez nią wytworzone będzie musiało zostać odebrane z powierzchni mniejszej od kartki papieru formatu A4.
Cerebras Systems nie podał szczegółów dotyczących zaawansowania projektu układu, ograniczając się tylko do informacji, że Wafer Scale Engine będzie wytwarzany w 16nm procesie litograficznym przez TSMC. Wybór starszego procesu litograficznego może wskazywać, że projekt nie jest świeży, lecz prace nad nim trwały już od dłuższego czasu.
Wiadomo, że problem defektów pojawiających się na powierzchni wafli krzemowych przy ich produkcji Cerebras Systems zamierza rozwiązać na dwa sposoby, poprzez wyłączanie poszczegółnych jednostek obliczeniowych, w miejscu których wystąpił defekt, oraz zaszycie w układzie jednostek zapasowych, które będą włączane w zamian jednostek z defektem. Liczba jednostek zapasowych to około 1,5 procent.
O no prosze ... (autor: gantrithor | data: 20/08/19 | godz.: 17:27) zmartwychwstanie 50 letniej technologi wafer-scale , chip ma miec 1000x wieksza wydajnosc niz podobne rozwiazanie stosujace oddzielne uklady na oddzielnych plytkach drukowanych dzieki eliminacji dlugich polaczen przesylajacych dane oraz repeterow i wzmacniaczy sygnalow.
Ale nadal 15KW to sporo energi oraz ciepla do rozproszenia.
bardziej (autor: Markizy | data: 20/08/19 | godz.: 17:37) praktyczna była by okrągła budowa układu niż wycięty kwadrat.
rok 2048 (autor: Zbyszek.J | data: 20/08/19 | godz.: 17:49) "Nowy superkomputer został zbudowany z 1024 procesorów Wafer Scale Engine - każdy wykrojony z wafla o średnicy 600mm, i... "
Skynet się rodzi ;) ? (autor: Bitboy_ | data: 20/08/19 | godz.: 18:52) Oby nie.
Can it... (autor: Kosiarz | data: 20/08/19 | godz.: 19:10) run Crysis? :D
fajny (autor: pawel1207 | data: 20/08/19 | godz.: 21:45) ciekawe jak beda wygladac opuznienia w tym cudzie..
@up (autor: PCCPU | data: 20/08/19 | godz.: 23:23) Opóźnienia na pewno będą niższe niż między klastrami procesorów czy platformach multi CPU i GPU.
żeby toto schłodzić (autor: kombajn4 | data: 21/08/19 | godz.: 06:11) to chyba będą musieli całość zanurzyć w zbiorniku z olejem mineralnym, który z kolei będzie chłodzony przez nagrzewnice od stara.
@1. (autor: Mariosti | data: 21/08/19 | godz.: 10:38) V100 ciągnie około 250W razem z HBM.
56x250W=14kW
Także dokładnie tak jak wspominałem w innym wątku, WaferScale nie ma fizycznej szansy na ograniczenie zużycia energii elektrycznej per tranzystor o danym napięciu i taktowaniu.
Niemniej jednak oczywiście układ taki będzie miał ogromne zalety w postaci nieprawdopodobnej gęstości mocy obliczeniowej w serwerowni.
Zakładając zapewne chłodzenie wodne tego cudeńka jakimś customowym blokiem, najpewniej możliwe będzie wpakowanie ze 20 takich chipów do jednego racka wraz z zasilaniem i interconnectami.
Z blade'ami możliwe jest wpakowanie ~16 2procesorowych serwerów w 10U, czyli w pełnego racka wejdą 4 takie obudowy czyli 96 procesorów.
Na tranzystory przeliczając to byłby ekwiwalent max 2 takich chipów wafer scale, także mielibyśmy do czynienia z 10 krotnym zwiększeniem gęstości mocy obliczeniowej w serwerowni, a kto wie czy nie da się tych chipów instalować gęściej niż 1 na 2U (np pionowo 4 chipy na 5U)
@10. (autor: Mariosti | data: 21/08/19 | godz.: 10:39) Kontynuując, ciekawie też by było jakby w tej koncepcji zbudowano multi core x86 procesor...
taki Wafer Scale Engine bardzo fajnie wygląda na papierze, (autor: Qjanusz | data: 21/08/19 | godz.: 14:47) ale poza koncept niestety nie wyjdzie. Powodem jest koszt wytworzenia takiego giganta. Jeżeli radośnie zakładane umieszczenie zapasowych/nadmiarowych jednostek załatwiłoby problem wykrojenia jednego, sprawnego układu z wafla o średnicy 300mm, to już dawno taki zostałby wyprodukowany i sprzedawany.
Koncept, projekt akademicki i sztuka dla sztuki, a nie produkt którego koszt wytworzenia zwróci się kiedykolwiek.
16nm (autor: pwil2 | data: 21/08/19 | godz.: 18:28) Zapewne wynika stąd, że potrzebują dobrego uzysku, by starczyło tak mało jednostek zapasowych.
c.d. (autor: pwil2 | data: 21/08/19 | godz.: 18:28) A nie wszystkie elementy tak łatwo zwielokrotnić.
@10 ... 90% zuzycia energi w serwerowniach... (autor: gantrithor | data: 21/08/19 | godz.: 19:01) jest zuzywane na przesylanie danych zaczynajac od pamieci podrecznej>ram>dyski twarde>wymiana danych miedzy serwerami tej samej sieci>routery i inne tego typu urzadzenia.
Dane obliczane przez wiele kart graficznych sa wielokrotnie przesylane siacia wewnetrzna szybkimi polaczeniami takimi jak nvlink , pcie czy IF , jest ogromne parcie na przejscie na swiatlowody bo te konsumuja znacznie mniej energi.
Jesli wyeliminujesz wiekszosc urzadzen miedzy ukladami gpu i polaczysz je bezposrednio do siebie to drastycznie zmniejszysz zuzycie energi elektrycznej , tu nie ma zadnej magi poprostu matematyka , kilometry kabla maja swoj opor elektryczny a to z kolei marnuje ogromne ilosci energi.
Waferscale nie jest nowym pomyslem bo juz 50 lat temu prowadzono badania na ta technologia , co wiecej biarac na cel taki uklad graficzny jak TU-102 jest on na skraju mozliwosci litograficznych a jest to okolo 850mm/2 "rtx titan 815mm/2"
mozna by skonstruowac uklad gpu calkowicie omijajac limitacje dzisiejszej technologi a mianowicie do TU-102 dokleic drugi taki sam lub zamiast drugiego dokleic chip o podobnej powierzchni ale zapelniony rdzeniamiRT czy rdzeniami tensor.
Identycznie mogl by zrobic intel budujac procesor 28rdzeniowy ale w waferscale sklejajac go w prawdziwy jeden kawalek krzemu z 56 rdzeniami , ale czy to oznacza ze chiplety straca racje bytu? oczywiscie ze nie , chiplety sa male i latwe do implementacji w kazdym srodowisku kiedy waferscale jest wyspecjalizowanym ukladem.
Mozna wyprodukowac 1 rdzen albo 2 lub 3 albo 400000 nie ma problemu sama architektura zostala tak zaprojekowana aby mozna bylo uzywac takiego ukladu nawet gdy kilka jego czesci nie dziala ze wzgledu na uszkodzenia podczas produkcji.
Hmmm... (autor: Shamoth | data: 22/08/19 | godz.: 09:41) W sumie to co stoi na przeszkodzie żeby z jednego kawałka krzemu wycinać całe PC? CPU, GPU, RAM, SSD, WiFi, Bluetooth, wszystko w krzemie, kwestia anten, usb, hdmi, dp chociaż co stoi na przeszkodzie żeby konstrukcja była zupełnie bezprzewodowa z zasilaniem włącznie a ciepło można ogniwami termicznymi konwertować w dodatkową energię...
@15. (autor: Mariosti | data: 22/08/19 | godz.: 10:56) Lol, tak się składa że na co dzień mam do czynienia z dużymi serwerowniami i nie, sieć zużywa śmiesznie mały procent energii zużywanej w serwerowni, duże storage w zasadzie też.
Większość przesyłu danych w serwerowni to zawsze są światłowody.
Co do miedzianych ścieżek, to niestety ale fizyka się kłania, to że sumarycznie tych ścieżek są setki kilometrów nie oznacza że marnują dużo energii na przesył sygnałów. Opór zależy od długości, przekroju i prądu płynącego przez konkretną ścieżkę. Ścieżki sygnałowe zasadniczo są krótkie i operują bardzo małym prądem także straty energii są minimalne.
Zdecydowanie wyższe straty masz na przedłużanych kablach zasilających np topowe gpu albo procesory intela. W serwerach takiego problemu nie ma bo zużycie energii komponentów jest z góry ściśle określone, nie ma przedłużek i grubości kabli są precyzyjnie określone tak aby minimalizować wszelkie straty przesyłowe energii elektrycznej.
Gdyby było tak jak piszesz to występowałyby znaczne różnice w zużyciu energii mierzonym dla całej platformy a mierzonym osobno dla karty grafiki, cpu, dysków itp. A różnicy nie ma żadnej i pozostałe zużycie przez samą płytę główną głównie wynika ze zużycia energii chipsetu i wszelkich kontrolerów. Dlatego był wielkie halo bo płyta na X570 nagle ciągnie 40W a na X470 ciągnęła 20W.
#16 (autor: Qjanusz | data: 22/08/19 | godz.: 11:20) koszty i kompletny brak opłacalności.
@17. (autor: pwil2 | data: 22/08/19 | godz.: 12:33) Dokładnie. Wystarczy się przejść i posprawdzać, gdzie najwięcej ciepła jest wyrzucane w szafach do tyłu ;)
@17 wytlumacze ci to prosciej... (autor: gantrithor | data: 22/08/19 | godz.: 15:31) idea technologi waferscale jest bardzo prosta , cala ilosc danych znajduje sie w procesorze a raczej jego pamieci podrecznej , wszystkie z 400000 rdzeni maja do niej bardzo szybki dostep dzieki temu dane nie musza wedrowac do innego rdzenia "strata energi" ani do innego procesora "strata energi ani do pamieci ram z kad dane sa pobierane przez procesor "strata energi" nie trezeba tez przesylad danych do innego komputera w sieci "strata energi".
Proste pytanie ktory system zuzyje mniej energi? 16 komputerow z 4 rdzeniowym procesorem zen2 kazdy , polaczonych w klaster obliczeniowy czy jeden komputer z 64 rdzeniowm procesorem zen2 o tej samej czestotliwosci?
@16 byly takie propozycje , niedoszly do skutu ze wzgeldu na zbyt szybki rozwoj litografi , dzis kiedy wielkosc pojedynczego ukladu to okolice 850mm/2 technologia waferscale jest logicznym rozwiazaniem dla przykladowego ukladu McM.
czyli sla (autor: pawel1207 | data: 14/05/20 | godz.: 13:27) spoko tylko ze w zasadzie to sie tylko do si nadaje :D nawet producent chipu to podkresla bardzo wyraznie imho nv moze spac spokojnie ... :D
D O D A J K O M E N T A R Z
Aby dodawać komentarze, należy się wpierw zarejestrować, ewentualnie jeśli posiadasz już swoje konto, należy się zalogować.