Nieoficjalna specyfikacja GK104

M E N U

» Nowości

» Archiwum

» Recenzje / Testy

» Board

» Rejestracja

Szukaj @ TwojePC

Piątek 10 lutego 2012

Nieoficjalna specyfikacja GK104 Autor: Wedelek \| 12:37	(22)
Architektura Keppler wzbudza niemałe zainteresowanie wśród użytkowników komputerów PC, którzy z niecierpliwością czekają na następcę Fermi. Ma być wydajniej, ciszej i chłodniej, a Nvidia przekonuje, że czeka nas mała rewolucja. Nim jednak sprawdzimy te zapowiedzi w sposób empiryczny przyjrzyjmy się specyfikacji technicznej GK104, która niedawno wyciekła do sieci. Jeśli chodzi o fizyczną budowę, to łatwo zauważyć, że Keppler ma dużo wspólnego z Fermi i podobnie jak w aktualnej generacji kart nowe GPU składa się z czterech klastrów GPC, a każdy taki element dysponuje czterema multiprocesorami strumieniowymi. Każdy multiprocesor strumieniowy zawiera natomiast aż 96 procesorów strumieniowych (dwa razy więcej niż GF114) oraz osiem jednostek teksturujących. W ten sposób łatwo policzyć, że cały GK104 ma 1536 procesorów strumieniowych (CUDA Core), 128 TMU i 32 ROP'y. Wiadomo również że układ ten będzie występować w dwóch odmianach - pełnej i przyciętej, a wersja najmocniejsza będzie dysponować 2GB pamięci RAM typu GDDR5 z interfejsem 256-bit. W tym przypadku GPU będzie taktowane zegarem 905-950 MHz, a pamięć będzie pracować z częstotliwością 2500 MHz (przepustowość 160 GB/s). Dodatkowo w Kepplerze procesory strumieniowe będą taktowane z taką samą prędkością jak GPU, a nie z wyższą jak to miało miejsce w przypadku Fermi. Dodatkowo pełny GK104 będzie się mógł pochwalić wydajnością 2.9 teraflops'a w przypadku obliczeń pojedynczej precyzji i 486 GFlops'ów w przypadku obliczeń podwójnej precyzji. W chwili obecnej nie znamy jeszcze w 100% pewnej nazwy kart zbudowanych w oparciu o GK104, jednak wiemy (nieoficjalnie), że układy te będą produkowane w 28nm procesie produkcji, a wszystkie elementy zmieszczą się na powierzchni liczącej 340mm ². Z poprzednich doniesień wiemy również że produkty zbudowane na bazie GK104 będą sprzedawane w cenach oscylujących wokół 300 dolarów, a ich TDP wyniesie 225W.

K O M E N T A R Z E

IMO najważniejsze info... (autor: mICh@eL | data: 10/02/12 | godz.: 12:52)
... to jest to, że te 1536 SP jest taktowane tym samym zegarem co rdzeń ;)
Slajdy podobne (autor: pomidor | data: 10/02/12 | godz.: 12:59)
do odtajnionych dokumentów rodem z CIA
hmmmm (autor: Simon89 | data: 10/02/12 | godz.: 13:24)
Nie wiem jak wam, ale mi ta specyfikacja "delikatnie" przypomina radeona 6970. ;)
Joke niezły, muszę przyznać pomidor. --> czyli wiadomo że nic nie wiadomo :D
Mi to wygląda jak by nV podebrała (autor: Marcel | data: 10/02/12 | godz.: 13:28)
AMD projekt HD6970 i dodała zamiast 96TU swoje 128TMU. Cała reszta jest (liczbowo) niemal identyczna. Tyle że jeśli tak zrobili to są o generację do tyłu.. A co do wydajności - kopia GTX580 z niewielkimi odchyłkami. HD670 był nieco wolniejszy ale nowe nV ma mieć wyższe zegary.
@mICh@eL (autor: Rajq | data: 10/02/12 | godz.: 13:36)
a mozesz dac zrodlo tego newsa. Od zawsze taktowanie shaderow i rdzenia nV miala niezalezne. zmienili to?
Rajq (autor: Aamitoza | data: 10/02/12 | godz.: 13:41)
O tym od jakiegoś czasu była mowa, że zrezygnują z tego podbitego taktowania zegarów dla SP. - bo z tego powodu gęstośc upakowania tranzystorów w SP była słaba (w końcu jakoś trzeba było te wysokie zegary wydobyć). Więc teraz będzie taki sam zegar dla całego GPU, a na tej samej powierzchnii wejdzie więcej SPU. Do tego jak widać mało SIMD i dużo procesorów w SIMD... troche idą tą droga którą poszło AMD w poprzednich seriach.
@6. (autor: Marcel | data: 10/02/12 | godz.: 14:07)
Dokładnie to samo zauważyłem, tyle że nie wiem czy nie bliżej im jednak do GCN. Już niedługo różnice między ich SPU zatrą się tak że będzie można je porównywać 1:1 ;-) Pytanie tylko ile narzutu tranzystorów kosztuje nV utrzymanie kompatybilności z CUDA (chyba że to załatwiają w jakiś inny magiczny sposób).
@Rajq (autor: mICh@eL | data: 10/02/12 | godz.: 14:21)
> "950 MHz core/CUDA core (no hot-clocks)"

http://www.techpowerup.com/...ching-Machinery.html
@Marcel (autor: Promilus | data: 10/02/12 | godz.: 14:53)
Kompatybilność z CUDA jest nie w sprzęcie samym w sobie tylko kompilerze (już można kompilować C for CUDA na CPU x86) - kolejne generacje układów dużo zmieniały w SP, a mimo to kompatybilność była zachowana bez żadnych dodatków. To tak jak z CPU, wychodzą nowe pierdoły jak superscalar, out of order, pipeline execution, register rename... a nic to nie zmienia w kompilerze i środowisku programistycznym. Gorzej jak się zmienia lista rozkazów - wtedy i kompilator musi być dostosowany (Ale w tym C/C++ dalej piszesz po staremu i to się liczy).
Myślę, że te wysokie zegary w tak skomplikowanym sprzęcie po prostu przeszkadzały (coś jak założenia intela dot. wzrostu prędkości P4 przy zderzeniu z fizycznymi ograniczeniami) i zdecydowano się na inne podejście.
@06 (autor: pio2 | data: 10/02/12 | godz.: 17:39)
Ilość SIMD wzrosła, bo w GF114 było ich 8 a teraz 16. Byłoby bardzo interesujące gdyby też dali jednostki wektorowe jak AMD, bo jakoś trzeba grupować tak dużą liczbe rdzeni - nie da się wszystkich adresowac i sterować indywidualnie (co mogli robić majac ich mniej z podwójnymi zegarami).
pio2 (autor: Aamitoza | data: 10/02/12 | godz.: 19:42)
ja porównuję do GF100. Bo tam masz 4 GPC i 16SIMD - w GF104 były 2GPC. Więc na dobrą sprawę zwiększymi 3 krotnie ilość procesorów w SIMD.

Lub idąc inna drogą (porównywanie względem GF104) Podwoili ilość GPC i procesorów w simd.

Jak dla mnie może to być killer na miarę HD48xx. - tam też głównie zwiększono ilośc SIMD - z 3 do 10. Tutaj mamy 4x więcej procesorów około 40-50% niżej taktowanych.

W grach może być killerem, w obliczeniach powinien w wielu przypadkach ustępować redeonowi.
Aamitoza (autor: Markizy | data: 10/02/12 | godz.: 23:04)
a jak chcą oni to zmieścić na powierzchni mniejszej niż obecne 7970?
Wygląda na to... (autor: Jarek84 | data: 10/02/12 | godz.: 23:24)
że NV na rynek dla graczy idzie dalej w dobrym kierunku, który zapoczątkował GF104 - mniej simd i GPC a więcej w nich GPC - o tym że w zastosowaniach czysto growych jest to lepsze podejście od mnożenia SIMDów pokazał już GF114, gdzie chip o wiele mniejszy nie ustępował zbytnio GF110.

W GPGPU zdaje się że na dogonienie AMD i HD7970 w 'pure perf' będzie potrzebny GK100.
@13 (autor: Jarek84 | data: 10/02/12 | godz.: 23:34)
errata chodziło mi o zwiększanie SP w SM ;)
Markizy (autor: Aamitoza | data: 11/02/12 | godz.: 00:45)
Jak jużpisałem - poprzednie 512SP były słabo upakowane aby osiągnąc wyższe zegary. Teraz będą mieć większą gęstośc tranzystorów. Zauważ, że AMD w HD7970 ma 4,7 miliarda tranzystorów - więc o 35% więcej niż nvidia w fermim. Do tego GK104 na dobrą sprawe ma mieć także tyle samo ROP i taką samą szyne jak GF104. Więc zmiana następuje tylko w SIMD. I tak zostajemy przy 16SIMD tak jak w fermim, ale w każdym potrajamy ilośc procesorów, stosujemy gęste upakowanie tranzystorów i nie przekraczamy tych 4,5 miliarda.
... (autor: Aamitoza | data: 11/02/12 | godz.: 00:51)
Popatrz na AMD W HD69xx zwiększyli ilośc SIMD z 20 do 24, ale zmniejszyli ilośc procesorów w simd - jaki z tego efekt? pomijając zmiany w teselatorze, doszło pół miliarda tranzystorów - dla prawie tej samej ilości procesorów strumieniowych.

A zauważ że nvidia planujekrok w drugą stronę. 3x więcej procesorów w SIMD i mniej rop i węższa szyna względem GF100. Więc na dobrą sprawę mają 1,5 miliarda tranzystorów przynajmniej.

Ewentualnie względem 2 miliardów tranzystorów w GF104 - będzie podwojony GPC i 2x więcej procesorów w SIMD. - Spokojnie zmieszczą się w 4,5 miliarda zważając na gęstośc upakowania aktualnych 384 procesorów.
przy cenie okolo 300 usd (autor: Mario2k | data: 11/02/12 | godz.: 08:44)
Cudow wydajnosciowych nie bedzie co najwyzej karta porownywalna z radeonem 7950.
@Aamitoza (autor: Promilus | data: 11/02/12 | godz.: 09:12)
Tylko ten krok w drugą stronę jest lekko bez sensu - właśnie dlatego AMD ucieka od tych 80/64ALU na SIMD Core, właśnie dlatego nv ograniczalo się do 32ALU na SM (z dual warp!) by nawet w niekorzystnych sytuacjach gdzie dane mocno zależą od siebie, jest dużo warunków, rozgałęzień wykorzystanie ALU było wysokie. To jest dość konkretny argument przeciw takiemu rozwiązaniu, chyba że NV podszlifowała schedule&dispatch by na jednym SM jeszcze więcej warpów naraz mogło w tym samym czasie operować.
Promilus (autor: Aamitoza | data: 11/02/12 | godz.: 09:20)
Ale my mówimy of GK104! - karcie która w zamyśle jest dla gracazy tak jak GF104. W GF104 zwiększyli ilośc procesorów w SIMD o połowe. Teraz jeszcze dodatkowo ją podwoja - do gier w sam raz.

No chyba, że wprowadzą quad wrapa.

Nie mniej prawdopodobnym powodem rezygnacji z poprzedniego rozwiązania jest to samo co w przypadku P4. kiedy nvidia wprowadzała hot clock zegary GPU były na poziomie 600-700mhz, teraz zegary GPU sięgają i przekraczają 1Ghz. Podobnie było u intela - owszem northwood przy niższych zegarach z podwójnym zegarem dla SIMD/FPU był całkiem dobry, ale przy zegarach ponad 3Ghz zaczynało to być problemem, bo ten kawałek krzemu musiał pracować z zegarem ponad 6Ghz.
@Aamitoza (autor: Promilus | data: 11/02/12 | godz.: 09:43)
Nie, bo układ tak samo może trafić do mniejszych quadro, a tam już CUDA mają ciut większe znaczenie niż dla graczy. Co do P4 to rozumiem, że chodzi ci o Rapid Execution Engine, owszem, w prescottach zdublowali jednostki zamiast taktować je 2x wyżej, natomiast nie ma co panikować, bo przy 32nm już taki P4 mógłby mieć alu taktowane 6GHz bez większego problemu ;) Problemem była spadająca jakość dielektryka i efekty, których wcześniej intel nie przewidział, ale je ograniczył przy hkmg :P NV pod tym względem też źle nie ma, pamiętaj, że SP w G92 latały nawet w okolicach 2.2GHz, za to spadły zegary przy GT200 i GF100.
Promilus (autor: Aamitoza | data: 11/02/12 | godz.: 11:49)
No właśnie - spadły. I to najwidoczniej z jakiegoś powodu - pominę już to, że SIMD w G92 były o wiele prostsze od obecnych w GT200 czy te GF100.

Poza tym co ma do tego quadro? Quadro to nie karty do obliczeń. Do obliczeń jest tesla, a tam trafiają tylko najmocniejsze modele. Czy GF104 trafił do kart z serii tesla? Nie wydaje mi się. Bo do quadro trafiają nawet najmniej wydajen układu, ale tam nie ma nacisku na CUDA w aż takim stopniu.

I o ile w takim GK104 będzie te 1536cuda - 4GPC, 16SIMD i 96Cuda/SM, to w GK100 - czyli karcie do obliczeń mogło by być 8GPC, 32SIMD i 64Cuda/SM. Do tego wszystko z quad wrapem zamiast dual wrapa i sytuacja wygląda identycznie co w przypadku Fermiego - 16cuda cores/wrap (i24CC/wrap w GK104).

Co więcej wydajność DP w takim GK104 wzrosła by dokładnie tyle ile nvidia zapowiedziała - aktualnie tesla ma 448Cuda cores z zegarem 1150mhz, a takie 2048 rdzeni z zegarem 600-700mhz było by 2,5x mocniejsze.
@21. (autor: Mariosti | data: 12/02/12 | godz.: 20:40)
warp, nie wrap.

D O D A J K O M E N T A R Z

Aby dodawać komentarze, należy się wpierw zarejestrować, ewentualnie jeśli posiadasz już swoje konto, należy się zalogować.