Knight Corner największym rywalem Tesli

M E N U

» Nowości

» Archiwum

» Recenzje / Testy

» Board

» Rejestracja

Szukaj @ TwojePC

Wtorek 21 czerwca 2011

Knight Corner największym rywalem Tesli Autor: Wedelek \| źródło: Fudzilla \| 15:28	(33)
Kiedy w 2009 roku projekt Larrabee definitywnie upadł, firma Intel ogłosiła że ma zamiar zapożyczyć część stworzonych rozwiązań do nowego projektu, który dziś znamy pod nazwą architektury MIC (Many Integrated Core). Pierwszym produktem z tej nowej serii urządzeń w ofercie firmy z Santa Clara, znanej również jako Chipzilla będzie produkowany w 22nm procesie produkcji Knight Corner. Nowość, pomimo iż wyglądem przypomina karty graficzne garściami czerpie z CPU i architektury x86, tyle tylko że mamy tutaj do czynienia ze znacznie większą ilością rdzeni, których jest 50. Oczywiście nie obyło się bez innych usprawnień, jak chociażby oddanie do dyspozycji układu własnej pamięci RAM. Knight Corner pojawi się w sprzedaży już w przyszłym roku i pomimo że jest rozwinięciem projektu Larrabee nie będzie służył do renderowania grafiki 3D. Głównym rywalem MIC mają być bowiem układy Tesla od Nvidia, przeznaczone do przeprowadzania skomplikowanych obliczeń matematycznych (geologia, finanse, medycyna, itp.). Według Intela Knight Corner ma ogromną przewagę nad rozwiązaniami Nvidia, której na imię architektura x86. Aby korzystać z mocy MIC nie trzeba bowiem znać narzędzi CUDA, a programowanie jest znacznie łatwiejsze a kod nie odbiega znacząco od tego, który musimy napisać chcąc korzystać z zasobów CPU. Z pewnością dla Nvidii pojawienie się tak groźnego rywala nie jest zbyt komfortową sytuacją, tym bardziej że firma musi walczyć z zaciekłą konkurencją na polu najsłabszych kart graficznych, które muszą walczyć z procesorami heterogenicznymi (APU, Sandy Bridge).

K O M E N T A R Z E

@err. (autor: Mariosti | data: 21/06/11 | godz.: 15:47)
"z procesorami heterogenicznymi (APU, Sandy Bridge)."

U intela dopiero Ivy Bridge będzie można nazwać mianem takowego procesora.
Dobrze że Intel zrezygnował (autor: pomidor | data: 21/06/11 | godz.: 16:08)
z GPU, i skupił się tylko na GPGPU. Zintegrowane GPU będą podgryzały grafikę AMD i Nvidia. Zaś Larrabee będzie walczył z Teslą (AMD i tak tutaj leży). Prosty, jasny i skuteczny podział ról. Aczkolwiek w GPGPU kibicuję NV.
a kogo k... obchodzi komu kibicujesz. To nie mecz! (autor: Seba78 | data: 21/06/11 | godz.: 16:13)
123
jak w piaskownicy (autor: Qjanusz | data: 21/06/11 | godz.: 16:26)
Knight Corner, Tesla, Larrabee, FireStream
wszystko to męczy się i przepycha jak w piaskownicy, a jednym ruchem zostało całe to towarzystwo okiwane przez wytrawnego gracza - przez starego i uznanego SPARCa:
http://insidehpc.com/...su-k-computer-1-on-top500/
pomidor (autor: Aamitoza | data: 21/06/11 | godz.: 16:36)
Jak na razie następna architektura AMD (planowana na 2012 rok, tak jak knights corrner) bije go na głowę. KC ma 1 skalar + 1 16vec simd, a AMD ma 1 skalar + 4x 16vec simd. Przewaga KC jes taka, że pracuje chyba z wyższym zegarem niż aktualne GPU AMD.
qjanusz (autor: Aamitoza | data: 21/06/11 | godz.: 16:44)
taa... pół miliona rdzeni, czyli około 32tysiące procesorów... "Świetny wyczyn. Tianhe 1A ma w sumie 3x mniej rdzeni. Nawet Jaguar tylko X86 ma 2,5x mniej rdzeni.

Genialne porównanie. Wrzuć 32tysiące Fermich czy MIC i wydajność będzie dużo większa.
up. (autor: piobzo | data: 21/06/11 | godz.: 16:55)
ale 8.162 Petaflops, nie jestem pewien czy 32 tys fermich jest w stanie funkcjonować gdzieś poza jakimś laboratorium.. przy elektrowni...
up. (autor: piobzo | data: 21/06/11 | godz.: 16:55)
na biegunie...
up. (autor: piobzo | data: 21/06/11 | godz.: 16:56)
to samo tyczy z reszta firestreamów:P... (i to był żart)
Intel (autor: Conan Barbarian | data: 21/06/11 | godz.: 17:02)
Ten news to sugeruje, że Intel nie może pogodzić się z $3,000,000,000 utopionymi w Larrabee. Nvidia będzie miała okazję skonać na polu bitwy lub pokazać Intelowi, że miejsce już jest zajęte.
... (autor: Aamitoza | data: 21/06/11 | godz.: 17:30)
soory, myślałem, że o sparc T3, a to VIIIfx - i ma 8 rdzeni, więc procesorów jest tam 64tysiące ;]

A moc obliczeniowa wcale nie jakaś kosmiczna. SB czy też bulldozer mają większą moc obliczeniową. - W przypadku bulldozera i SB mamy 64flops na takt przy AVX256 i odpowiednio 64 i 32flops przy AVX128, do daje nam przy 2 GHz taką wydajność co ten SPARC Venus. Róznica taka, że AMD i intel oferują jeszcze procesory z 2x większą liczba rdzeni jak i wyższymi zegarami, to nie widze w tym nic nadzwyczajnego. - pół miliona rdzeni bulldozer też miało by te 8 petaflops, bo czy to zwykłe FP128, czy AVX 128/256 zawsze oferuje 64Gflops na takt. - w przypadku SB tylko w AVX256 mamy 64flops.
... (autor: Aamitoza | data: 21/06/11 | godz.: 17:53)
W sumie troche tak sobie wyglądają obecne GPU przy co nowszych CPU.

np taki fermi. Oferuje 500Gflops. Dla porównania 16 rdzeniowy bulldozer 2Ghz oferuje już połowę z tego. - podobnie 8 rdzeniowy SB. Do tego na 2012 (wejście MIC) AMD planuje dodać jeszcze 4 rdzenie, co zwiększy moc do 320Gflops. Można jeszcze zauważyć, że taki fermi ma TDP 200W, a najmocniejsze serwerowe CPU 140W. Do tego teki fermi ma 3mld tranzystorów. Więc 3x więcej od SB czy bulldozera (i o 1/3 więcej od najmocniejszych nadchodzących odmian serwerowych). Przy tym samym TDP i ilości tranzystorów wydajność była by już bardzo zbliżona.
@Aamitoza (autor: pawel.xxx | data: 21/06/11 | godz.: 19:12)
KC ma znacznie więcej przewag niż tylko wyższy zegar.
Przede wszystkim jest to cluster rdzeni x86.
Nie ma potrzeby stosowania dedykowanych języków programowania.
Już rok temu na prezentacjach intel pokazywał jak na tym działa webserwer , baza danych i jeszcze parę rzeczy.

Szczytowa moc obliczeniowa nowych gpu AMD pewnie będzie większa. Nie znamy zegarów ani konfiguracji ale można przypuszczać że stosunek mocy szczytowej będzie w przedziale 1..3
W typowej mocy obliczeniowej KC znacznie zyska.

Tak więc w superkomputerach dotychczasowe GPU mają jeszcze racje bytu. Tyle ze KC z softem na nim działającym trafi nie tylko do superkomputerów.
Jakis rok temu czytałam na tpc o nowym superkomputerze w Chinach o tym ile w nim jest xeonów i ile tesli. Policzyłem wtedy że wyprodukowanie cpu do tego superkomputera pochłonęło od 4-8 godzin czasu linii produkującej xeony.
AMD i nvidia celują w rynek superkomputerów. Target KC obejmuje dodatkowo te zastosowania które wykorzystuję pozostałe 8800 godzin mocy produkcyjnych.
Drobny offtop (autor: Aelavin | data: 21/06/11 | godz.: 22:52)
Mam takie pytanie:
Czy ktoś może wie co by dla karty graficznej dało to, że rdzeń byłby zrobiony na High-K zamiast na bulk?
Oczywiście nie chodzi mi o cenę, bo ta pewnie była by wyższa. Chodzi mi bardziej o parametry działania jak, np. częstotliwości osiągane albo pobór prądu.

Z góry dziękujęza odpowiedź
Aelavin (autor: Aamitoza | data: 21/06/11 | godz.: 23:55)
high-K zwiększa pojemność tranzystora, co spowalnia przełączanie bramki tranzystora (czyli częstotliwość) - high-k pozwala na wyeliminowanie prądu upłytu bramki, co pozwala na zwiększenie napięcia sterującego, dzięki czemu taka bramka może przełączać się szybciej. Więc podsumowując - częstotliwość mocno się zbyt mocno nie poprawi, ale za to pozbędziemy się prąd upływu bramki - więc najprawdopodobniej zmniejszy się energia pobierana przez GPU.
... (autor: Aamitoza | data: 21/06/11 | godz.: 23:56)
"high-K zwiększa pojemność tranzystora,"

skr. myślowy - high-k zwiększa pojemność bramki tranzystora.
@Aamitoza (autor: Aelavin | data: 22/06/11 | godz.: 00:00)
Dzięki za odpowiedź.
Dopiero zaczynam poważniejszą zabawę z półprzewodnikami i tranzystory choć znam z budowy, to materiały których się używa do ich budowy i to jak wypływają na jego parametry są dla mnie ciekawostką ;)
Aamitoza (autor: Markizy | data: 22/06/11 | godz.: 09:14)
chyba zmniejsza pojemność występująca w tranzystorze, bo impedancja (dla zwykłego C) jest liczona ze wzoru Z=1/(2*pi*f*C). I z tego co sie uczyłem im mniejsze pojemność wewnątrz tranzystora tym większy zakres pracy.
@Markizy (autor: pawel.xxx | data: 22/06/11 | godz.: 10:19)
Pojemność się zwiększa bo stosuje się materiał o większej przenikalności.
C=przenikalność * powierzchnia / odległość
Markizy (autor: Aamitoza | data: 22/06/11 | godz.: 11:00)
Tak jak Paweł napisał - w przypadku High-K zwiększa się pojemność bramki o połowę z tego co się orientuję, a poprawa częstotliwości wiąże się ze zwiększeniem napięci sterującego. Główną zaletą high-K jest pozbycie się prądów upływu.
@pomidor (autor: Drow | data: 22/06/11 | godz.: 11:54)
"Zintegrowane GPU będą podgryzały grafikę AMD i Nvidia."

hahahah.
tyle w temacie :)
ad high-k (autor: pawel.xxx | data: 22/06/11 | godz.: 12:51)
W sumie to sprawa z high-k jest niceco bardziej skomplikowana.
HK zwiększa pojemność bramki czyli by przełączyć tranzystor trzeba doprowadzić większy ładunek co wymaga więcej czasu. Ale prąd do przeładowania tej pojemności jest doprowadzany z innego tranzystora. Istotne więc jest jak duży prąd może ten sterujący tranzystor dostarczyć. Czym większy prąd nasycenia tym szybciej sterowny tranzystor się przełączy.
To jak duży jest prąd tranzystora zależy od rozmiaru kanału, ale także od natężenia pola elektrycznego w dielektryku bramka/kanał.
To natężenie można zwiększyć zwiększając napięcie sterujące - ale rosną prądy upływu.
Zwiększając więc przenikalność tracimy na większej pojemności bramki ale zyskujemy na większym prądzie nasycenia.
Przy takiej samej grubości izolacji bramka/kanał
HK zwiększa pojemność bramki, zwiększa jednak także natężenie pola elektrycznego, czyli prąd nasycenia tranzystora.
@pawel.xxx (autor: Promilus | data: 22/06/11 | godz.: 13:10)
Long history short...
Mniejsza pojemność bramki była dobra bo zwiększały się częstotliwości (łatwiej było dostarczyć ładunek do całkowitego załączenia tranzystora). W pewnym momencie intel na bulk przeszedł z northwooda i 130nm do prescotta i 90nm. Żadnego wzrostu prędkości nie zanotowano, za to wzrosły prądy upływu bo warstwa dielektyka okazała się ciut za słabym izolatorem. W konsekwencji zamiast większych częstotliwości i mniejszego poboru energii był praktycznie ten sam (lub wyższy) pobór energii i ledwie odrobinę wyższa częstotliwość. W 65nm Core 2 nie trzeba było żyłować częstotliwości, architektura była bardzo dobra więc niepożądane efekty były mniej widoczne, ale już 45nm bulk trzeba było zastosować HKMH. Bez pewnie też by działało, ale efekt byłby jak między northwoodem a prescottem. Teraz jeszcze tri-gate 3d i ogółem intel ma częściowo załatwione problemy niższych procesów. Dobry izolator High-K i lepsze załączanie przez trigate. Plus dla energooszczędności, ale... niekoniecznie max freq. SOI do pewnego momentu technologicznie pozwalało z intelem nawiązywać walkę, ale teraz czyste SOI też się już nie nadaje i są modyfikacje, np. FD SOI. Ten zaś bardziej nadaje się do low power niż high freq. Wygląda na kolejną barierę w GHz. Ot od 5 czy 6 lat ledwie osiągnięto poziom zbliżony do POWER6, hmm.
heh (autor: Gigant | data: 22/06/11 | godz.: 18:02)
KC rywalem Tesli? CISC x86 kontra RISC CUDA/OpenCL? Raczej nie ta liga oprogramowania...

Tesla vs FireStram
KC vs Buldożer
gigant (autor: Aamitoza | data: 22/06/11 | godz.: 18:51)
KC to konkurent dla FS i Tesli właśnie. To nie konkurencja architektur, tylko zastosowania i mocy obliczeniowej. Tesla i FS mają około 500Gflops na chwilę obecną (KC ma 650GFlops).

I to jest konkurencja. Bulldozer jest konkurentem dla SB. - 8core SB na 2Ghz z AVX256 oferuje 256Gflops. Podobnie 16 rdzeniowy bulldozer. W przypadku FP128 Bulldozer oferuje nadal 256Gflops, a SB już tylko 128Gflops.

Chociaż z drugiej strony - 1U z Interlagosem oferuje w sumie 1Tflops, a 1U z Teslą 2Tflops - pierwszy zużywa max 400-500W, drugie 900W - więc teoretycznie konkurencja przy Gflops/w jest ;]
Aamitoza (autor: Gigant | data: 22/06/11 | godz.: 20:42)
KC to zwykły dwudrożny inorder PentiumI , raczej nie ma szans wygrać z ośmiodrożnym OoO Buldożerem ;)
@Gigant (autor: Promilus | data: 22/06/11 | godz.: 21:27)
Tak, z bulldozer w kilkuwątkowych appsach nie. Z Firestream w kilkudziesięciu wątkowych jak najbardziej tak.
Promilus (autor: Gigant | data: 23/06/11 | godz.: 00:53)
KC to największy idiotyzm jaki mógł powstać. Lepiej niech Intel tego nie wypuszcza bo się tylko ośmieszy. W 2011 roku wypuszczać design Pentiuma z 1993r... No kurka wodna, cofamy się dwie dekady z rozwojem? Tutaj potrzebne są superskalarne OoO maszyny a nie badziewiaste starocia inorder...
... (autor: Aamitoza | data: 23/06/11 | godz.: 01:11)
no tak, pentium miał 4 wątkowy rdzeń i 512 bitową jednostkę wektorową.

OoO nie jest potrzebny, skoro masz 4 wątki na rdzeń.
Aamitoza (autor: Gigant | data: 23/06/11 | godz.: 01:30)
KC to proc jedynie wektorowy, wydajność wątka w zadaniach skalarnych będzie na poziomie gorszym od Atoma. Po co Intel pcha się w takie projekty skoro computing wymaga mocnych wątków a nie badziewiastych. Do grafiki wektorowej nie potrzeba x86 o wiele lepszy będzie RISCowy Cayman, Fermi a do computingu tylko mocny OoO jest potrzebny.
Jejku (autor: Gigant | data: 23/06/11 | godz.: 01:42)
jak oni mają zamiar walczyć prockiem o wydajności Pentiuma I z Buldożerem który od groma ma mechanizmów reordujących zaimplementowanych... 8 instrukcji na takt przekolejkowanych może zrobić BD i to natywnie 64bit w 1 cyklu. A nie 4 cykle jak w 32bit u KC który musi składać 4 jednostki 32bit aby zrobić operacje DP.
jesteś po prostu głupi - teraz jużjestem tego pewny ;] (autor: Aamitoza | data: 23/06/11 | godz.: 10:05)
KC nie ma być PROCESOREM do walki z bulldozerem, tylko wspomagaczem (KALKULATOREM - łopatologicznie) takim samym jak fermi czy cayman.

Policz sobie ile DP może zrobić 16 rdzeniowy bulldozer (128flops na mhz) i ile może zrobić taki 50 rdzeniowy 200wątkowy KC - który wg intela robi DP nie w 4 jak starasz się to wszystkim wcisnąć, a w 2 taktach. - stosunek DP do SP to 1:2 tak jak w fermim.

Może zrobię to za Ciebie - W przypadku bulldozera 16core@2Ghz mamy 256Gflops, a w przypadku KC mamy 480Gflops przy 1Ghz dla 50 rdzeni, a intel planuje najpierw model około 1,2Ghz (570Gflops). - więc tak samo jak w przypadku fermiego (515Gflops) i caymana (544Gflops).

Dopiero 20 rdzeniowy bulldozer 3Ghz będzie w stanie dorównać 50rdzeniowemu KC 1Ghz.

Co i tak nie zmienia faktu, że k0onkurencjądla bulldozera jest xeon, a KC dla tesli i firestream.
Aamitoza (autor: Gigant | data: 24/06/11 | godz.: 18:32)
Pokaż mi gdzie Intel twierdzi, że Larrabe/KC może zrobić w 2 cykle DP czyli ma 1:2...

D O D A J K O M E N T A R Z

Aby dodawać komentarze, należy się wpierw zarejestrować, ewentualnie jeśli posiadasz już swoje konto, należy się zalogować.