APU Temash zostanie zaprezentowany podczas targów CES 2013

M E N U

» Nowości

» Archiwum

» Recenzje / Testy

» Board

» Rejestracja

Szukaj @ TwojePC

Czwartek 29 listopada 2012

APU Temash zostanie zaprezentowany podczas targów CES 2013 Autor: Wedelek \| źródło: Xbit Labs \| 11:26	(16)
Jak donosi portal Xbit Labs, szef AMD - Rory Read, zapowiedział że podczas styczniowych targów elektroniki użytkowej - CES 2013 zostanie zaprezentowany w pełni działający prototyp niskonapięciowego APU Temash. Nowy układ będzie produkowany w 28nm procesie produkcji i zastąpi model Z-60, o kodowej nazwie Hondo. Procesor ten zostanie wyposażony w nową generację rdzeni x86 Jaguar, które zostaną połączone z IGP Radeon, prawdopodobnie zbudowanym z wykorzystaniem architektury GCN. Jeśli wszystko pójdzie zgodnie z planem, to kilka miesięcy po zakończeniu CES 2013 Temash powinien trafić na sklepowe półki w ramach gotowych urządzeń. Zgodnie z tym, co już wcześniej pisaliśmy na łamach TPC, rdzenie x86 Jaguar można nazwać następcami Bobcata, ponieważ architektura ta powstała na bazie swojego poprzednika (Bobcat), a nie w oparciu o zmodyfikowanego Bulldozera. Inna sprawa, że niemal wszystkie elementy został poddane licznym modyfikacjom i usprawnieniom, a dotychczas stosowane jednostki zmienno-przecinkowe zostały zastąpione nowymi, 128-bitowymi. Inżynierowie AMD dodali również dodatkowy bufor pamięci, w którym przechowywane są niedawno wykorzystywane przez CPU instrukcje. Podobny element można znaleźć w procesorach Intela z rodziny Sandy Bridge i Ivy Bridge. A skoro jesteśmy przy instrukcjach wykorzystywanych przez procesor, to warto wspomnieć, że ich zestaw zostanie w Jaguarze poszerzony o: SSE 4.1 i SSE 4.2, AVX i AES, a także BMI, TBM, F16C, MOVBE i PCLMUL. Dodano również kilka mniejszych modyfikacji, jak możliwość dzielenia stałoprzecinkowego i powiększono Sheduler instrukcji oraz ReOrder Buffer, a wprowadzone zmiany mają przynieść co najmniej 15% wzrost wskaźnika IPC.

K O M E N T A R Z E

hmm (autor: piobzo | data: 29/11/12 | godz.: 11:36)
coś tam się zaczyna dziać...
Noo (autor: kombajn4 | data: 29/11/12 | godz.: 13:26)
to teraz niech by tak wzieli 8 rdzeni jaguar pogonili je do 3-3,5 GHz, wpakowali na desktopową podstawke a o buldorzerach i pochodnych zapomnieli i może coś jeszcze z tej firmy będzie. Wkońcu w podobny sposób Intel stworzył core 2 duo.
kombajn4 (autor: Markizy | data: 29/11/12 | godz.: 13:38)
Tak by mogli zrobić zanim bulldozera nie wprowadzili, teraz to już lepiej naprawić wszystko co tu spieprzyli niż przebudowywać cały procesor, tym bardziej że podana przez ciebie częstotliwość dla tych układów może być nie osiągalna.
kilka miesiecy po...? (autor: piwo1 | data: 29/11/12 | godz.: 17:18)
tzn kilka miesiecy po styczniu rozumiem ze to marzec kwiecien.
starsznie dlugo te wdrazanie nowosci trwa u AMD. chyba im ludzi brakuje, a niedlugo (po wyprzedaniu paru lokali) to chyba projektowaniem beda sie zajmowac na ulicy lub w parku.
@kombajn (autor: Promilus | data: 29/11/12 | godz.: 17:27)
A na co taki wysokotaktowany jaguar skoro on per mhz jest wolniejszy od bdver1 (bulldozer). Ta arch ma być przede wszystkim energooszczędna a w drugiej kolejności wydajna, ale dla zastosowań mobile/ultra mobile ;)
wreszczie (autor: Jarek84 | data: 29/11/12 | godz.: 18:17)
coś nowego od AMD, bo ciągłe odświeżanie bocatów (nomen omen dobrych CPU) trąci myszką :)
@Promilius (autor: kombajn4 | data: 30/11/12 | godz.: 08:58)
"podczas styczniowych targów elektroniki użytkowej - CES 2013 zostanie zaprezentowany w pełni działający prototyp" -a ty już widze wiesz że per MHz jest wolniejszy, a wyniki w totka na przyszły tydzień też mi podarz? A na poważnie to rdzeń jaguar jest drugą generacją przebudowanych rdzeni k10,5, to nie wiem dlaczego miał by być wolnieszjszy od buldka który ma gorsze ipc od k10,5. A moja wypowiedz dotyczyła sytuacji z Pentium 4. Intel brnął w ten projekt aż wkońcu wywalił go do kosza, i przesiadł się na architekture core - modyfikacje procesorów mobilnych. Jakieś analogie?
kombajn4 (autor: Markizy | data: 30/11/12 | godz.: 16:02)
przecież bobcat z k10 ma tyle wspólnego co SB z Nortwoodem.

http://www.xtremesystems.org/...obcat-vs-K10-vs-K8
Jest to całkowicie inna architektura, dodatkowo wyniki Kabini (rdzenie jaguar) w Cinebench R10 były już na necie.
Rendering (Single CPU): 1568 CB-CPU
Rendering (Multiple CPU): 5653 CB-CPU

Testowany był egzemplarz inżynieryjny
AMD Eng Sample: 2M14F100J4460_17/14/08/06_9832

Niestety nie pochwalono się taktowaniem.
@kombajn (autor: Promilus | data: 30/11/12 | godz.: 16:16)
2ALU/AGU + 2way decoder (temash) vs 3ALU/AGU +3 way decoder (deneb) vs 2ALU+2AGU +50% 4 way decoder (vishera) i weź geniuszu domyśl się co i w jakich warunkach jest wydajniejsze, bo nijak nie wychodzi mi by bldz miał wypaść gorzej. Od K10 wypada gorzej jedynie ze względu na 2 elementy:
a) nie może naraz użyć do jednego wątku 3 ALU bo ich nie ma, Phenom tak. Ale to względnie rzadki scenariusz
b) ma ciągle słabe hit ratio, gorsze niż phenom - stąd częstsze przeładowanie potoku i strata wydajności.
http://www.anandtech.com/...amd-e350-benchmarked/3
Jak widać brazos jest gorsze od K8 więc wszystkie te ulepszenia o których mowa w kupę wzięte NADAL nie będą wystarczające by pokonać aktualne rdzenie desktopa. Co najwyżej mogą dobić do tego samego poziomu z wyraźnie większą powierzchnią 2 rdzeni względem jednego modułu bldz czyli postępu by żadnego nie było. BTW poznaj budowę CPU to nie będziesz miał większych problemów z oszacowaniem wydajności na tle podobnych arch.
Promilus (autor: PCCPU | data: 1/12/12 | godz.: 01:25)
Bulldozer ma 2ALU+2AGU na pojedynczy wątek tyle że scheduler maksymalnie może zasilić 2 z 4 dostępnych jednostek wykonawczych więc w praktyce pojedynczy klaster integer zachowuje się jak gdyby dysponował 2ALU/AGU.
W Steamrollerze mają to niby naprawić bo ilość jednostek wykonawczych będzie ta sama ale wydajność ma znacznie wzrosnąć.

Oczywiśćie czas pokaże co z tego wyjdzie.
Up edit (autor: PCCPU | data: 1/12/12 | godz.: 02:04)
Moduł Bulldozer tak jak napisałem ma dla pojedynczego wątku 2ALU+2AGU a dla wielowątkowości 4ALU+4AGU tyle że w praktyce niedopracowanie tej mikroarchitektury skutkuje tym że dla pojedynczego wątku Mnduł zachowuje się jak gdyby dysponował 2ALU/AGU natomiast dla wielowątkowości 4ALU/AGU.

Nieoszukujmy się bo AGU jest równie ważne co ALU.

Rdzeń SB/IB może obciążyć ALU i AGU w tymsamym czasie czyli maksymalnie 5 jednostek wykonawczych(3ALU+2AGU) ale średnio i tak wychodzi jakieś 4.1.

Rdzeń K10 może obciążyć maksymalnie 3 jednostki wykonawcze z 6 dostępnych(3ALU/AGU) a w praktyce wychodzi jakieś 2.5.

Wychodzi na to że Moduł BD w pojedynczym wątku powinien mieć zbliżoną wydajność jak obecnie w wielowątkowości.
up edit (autor: PCCPU | data: 1/12/12 | godz.: 02:20)
Wychodzi na to że Moduł
BD w pojedynczym wątku
powinien mieć zbliżoną
wydajność jaką obecnie dysponuje w
wielowątkowości. Czyli w pojedynczym wątku powinen obciążać 4 jednostki wykonawcze(2ALU+2AGU) zamiast obecnie 2(2ALU/AGU) i 8 jednostek wykonawczych(4ALU+4AGU) zamiast obecnie 4(4ALU/AGU) dla CMT co ma umożliwić m.in. 8(2x 4) dekoderów x86 w Module SR zamiast tylko 4(2x 2?) na Moduł BD/PD.
@PCCPU (autor: Promilus | data: 1/12/12 | godz.: 07:41)
" tyle że scheduler maksymalnie może zasilić 2 z 4 dostępnych jednostek wykonawczych"
Nie. Bulldozer w założeniach czerpie "siłę" ze zjawiska przeładowania kolejki rozkazów DO dekodera, w teorii co cykl te 4 rozkazy x86 są tłumaczone na do 8 mikrooperacji (co powinno ponad 4 potoki w cyklu zająć). W przypadku Intela "puste cykle" dekodera wykorzystuje HT, w przypadku Temash i Phenoma nic. BLDZ nie ma ALU/AGU, ma tak Deneb. BLDZ jeśli w jednym wątku dekoder znajdzie miejsce do zapełnienia 3ALU +1AGU to i tak można wykorzystać jedynie 2 istniejące ALU i 1 AGU zatem trudniej to efektywnie wykorzystać. W przypadku Phenoma jeśli tylko udało się przetłumaczyć rozkazy to niezależnie czy były 3 rozkazy, czy 3 operacje na adresach, czy 2 rozkazy i operacja na adresie itp. itd. wszystkie potoki były wykorzystane.
@Promilus (autor: PCCPU | data: 1/12/12 | godz.: 12:24)
Moduł BD/PD(4ALU+4AGU(CMT)) zegar w zegar jest mniej wydajny niż Rdzeń SB/IB(3ALU+2AGU) z HT.
Nawet w pojedynczym wątku przez to że BD/PD ma o jeden ALU mniej gdzie wydajność powinna być niższa o jakieś 30% jest dużo dużo mniej.
W dokumentacji dla programistów pisze wyraźnie że każdy z klastrów integer może zasilić w pojedynczym wątku tylko dwie jednostki(1ALU+1AGU/2ALU/2AGU) wykonawcze na takt zegarowy a to 2x mniej niż jest ich faktycznie(2ALU+2AGU).
Moduł osiąga maksymalnie 4 IPC ale z tego co widać po wydajności to będzie gdzieś ~3.5 IPC podczas gdy Rdzeń SB/IB potrafi wyciągnąć do 5 IPC.

Jeśli w Module ograniczeniem są klastry integer to czemu w SR ma być 2x więcej dekoderów(8) bo chyba nie dla lepszego skalowania gdzie wystarczyło by 6(2x 3) dekoderów a Integer ma wciąż mięć 2ALU+2AGU a i w ST wydajność ma znacznie wzrosnąć.
Dodanie 4 dekoderów na pojedynczy klaster integer zagwarantuje 4 mikrooperacje dla 4 jednostek wykonawczych(2ALU+2AGU) zamiast tylko dwóch i 8 IPC dla Modułu.

Rdzeń K10 ma 3 dekodery x86 które w teorii mogą puścić 3 makrooperacje które z kolei scheduler integer mógł puścić jako 6 mikrooperacji dla 6 jednostek wykonawczych(3ALU/AGU) ale w praktyce były to tylko 3 mikrooperacje.
Analogicznie tak też jest w Module BD/PD gdzie 4 dekodery x86 puszczają na bloki wykonawcze 4 mikrooperacje i jeśli przyjć że Moduł ma 2x 2 dekodery x86 to tłumaczy tak niską wydajność dla ST jak i MT.
@PCCPU (autor: Promilus | data: 1/12/12 | godz.: 14:39)
"W dokumentacji dla programistów"
TU:
http://support.amd.com/...414_15h_sw_opt_guide.pdf
jest jednak trochę inaczej to opisane. Idiotyzmem byłoby pakowanie 4 jednostek na potok gdy 2 zawsze byłyby bezużyteczne.
"Rdzeń SB/IB potrafi wyciągnąć do 5 IPC"
http://www.realworldtech.com/bulldozer/10/
Specjalnie dałem to by uświadomić ci, że nie ma większego problemu z samym execution engine. Problem jest z dekoderami, co zauważyłeś, ale nie aż tak poważny by cuda opowiadać o temash, że z taką częstotliwością jak buldek byłby lepszym wyborem bo WŁAŚNIE NIE BYŁBY.
@Promilus (autor: PCCPU | data: 1/12/12 | godz.: 16:01)
Oczywiście moge się mylić ale tak jak napisałeś też uważam że ilość jednostek arytmetyczno-logicznych i adresujących jest wystarczająca a główny problem wydajności leży po stronie dekoderów.

Co do niewykorzystania wszystkich jednostek wykonawczych w BD to wszystko jest możliwe bo tylko AMD wie jak bardzo niedopracowana/nafaszerowana błędami jest ta mikroarchitektura co zresztą poniekąd sami przyzali tym że BD od początku miał być taki jak Steamroller.

Co do Tamash(Rdzenie Jaguar) to nawet mi przez myśl nieprzeszło że mógłby być czymś pokroju Baniasa bo ten ostatni miał wyższe IPC od Pentium III a z kolei Pentium 4 niższe co było wyraźnie widać po pierwszych wersjach stosunkowo nisko taktowanych P4.

Czas pokaże ile można wycisnąć z 2ALU+2AGU po testach SR.

D O D A J K O M E N T A R Z

Aby dodawać komentarze, należy się wpierw zarejestrować, ewentualnie jeśli posiadasz już swoje konto, należy się zalogować.