Pentium 4 z 2MB cache, czyli czy więcej znaczy wydajniej

M E N U

» Nowości

» Archiwum

» Recenzje / Testy

» Board

» Rejestracja

Szukaj @ TwojePC

RECENZJE | Pentium 4 z 2MB cache, czyli czy więcej znaczy wydajniej

Pentium 4 z 2MB cache, czyli czy więcej znaczy wydajniej Autor: Lancer \| Data: 17/03/05
Po zeszłorocznej, niespodziewanej informacji Intela o rezygnacji z produkcji Pentium 4 z zegarem 4GHz, na ten rok gigant przygotował niespotykany wcześniej wysyp nowości, chcąc pokazać, że cały czas ma wiele do zaoferowania. Do tej pory nie zdarzyło się, by w tak krótkim czasie została pokazana seria różnych linii procesorów. Kilkanaście dni temu pojawiły się modele stanowiące dalszy rozwój znanego od roku rdzenia Prescott - układy wersji 6xx i nowy, flagowy wyrób firmy - Pentium 4 3,73GHz Extreme Edition. Na tym jednak nie koniec. Już za kilka tygodni ukaże się kolejna linia wyrobów Intela, pod znanym już dziś oznaczeniem Pentium D. Ma ona wielkie szanse na bycie pierwszą konsumencką rodziną mikroprocesorów wielordzeniowych. Będzie się więc działo... Do tej pory ujawnione i wprowadzone na rynek zostały jedynie układy Pentium 4 6xx i to one będą tym razem stanowiły przedmiot naszego zainteresowania. Na wielordzeniowe, wzbudzające wiele emocji pomysły Intela jeszcze troszeczkę musimy poczekać. Niemniej i tak będzie ciekawie...

Co pod maską?

Nowe procesory, tworzące linię Pentium 4 6xx, to tak naprawdę znane już od roku układy Prescott poddane delikatnemu liftingowi, a pracujące w gnieździe LGA775. Niestety, mimo licznych spekulacji, od roku nie pojawił się żaden model na socket 478 i nic nie wskazuje na zwrot w tej sytuacji. Zmodernizowany układ zyskał nazwę Prescott 2M. W dużym skrócie można go określić jako Prescotta z rdzeniem w steppingu E0 z powiększonym do 2MB cache L2 i dodaną funkcją EIST. Tyle w ogólnikach. Przejdźmy do konkretów.

Od czasu steppingu D0, który na dobre pojawił się wraz z Prescottem na gniazdo LGA775, w procesorze zaszło kilka drobnych, ale dosyć istotnych zmian. Jak wiadomo Prescott od urodzenia był układem bardzo "prądożernym", a co gorsze bardzo gorącym. Z czasem inżynierom m.in. dzięki udoskonaleniom samego procesu produkcyjnego, a także zmianom w samym rdzeniu, udało się ograniczyć emisję ciepła. I tak, o ile w modelu P4 540 (3,2GHz) z rdzeniem D0 TDP było ono na poziomie 115W, to takie same układy serii SL7PX i SL7PW korzystające ze steppingu E0 mają ten parametr już na poziomie 84W. Niestety, modele 560 i 570 mają już TDP na poziomie 115W (norma 04B). Tyle wynikło z samych starań technologów. A co na to konstruktorzy? Oni też dodali coś od siebie. Krokiem mającym uczynić Prescotta procesorem chłodniejszym i bezpieczniejszym było wprowadzenie metod redukcji ciepła Enhanced Halt Mode C1E i ochrony termicznej Thermal Monitoring 2. Przyjrzyjmy się tym zagadnieniom bliżej.

W chwili zakończenia przez program wykonywania zadania, system operacyjny przesyła instrukcję HALT. Procesor odczytując rozkaz systemu przechodzi w tryb oszczędności, podczas którego niepotrzebne jednostki są wyłączane (przechodząc do martwej pętli, wykonując puste rozkazy w czasie których nie jest pobierany kod z pamięci). Powoduje to obniżenie emisji ciepła. Tak działał wcześniejszy model redukcji cieplnej C1. W trybie C1E dodatkowo układ redukuje pobór mocy poprzez obniżenie napięcia zasilającego (o około 0,2V) i zmniejszenie zegara taktującego przez obniżenie mnożnika do najniższego możliwego (14x).

Tryb ochrony termicznej Thermal Monitoring 2 korzysta z podobnych mechanizmów, lecz działa tylko w przypadku stwierdzenia przegrzania. Po przekroczeniu pewnej progowej wartości następuje redukcja mnożnika i napięcia zasilającego skutkując obniżeniem emitowanej mocy. TM2 jest uzupełnieniem wcześniejszej funkcji Thermal Monitoring 1. Ta pierwsza w chwili przegrzania odcinała połowę cykli zegarowych powodując obniżenie emisji cieplnej. Niestety, taki stan procesora, mimo iż skutecznie chroni go przed przegrzaniem, powoduje zakłócenia w pracy m.in. podsystemu pamięci, kiedy dane żądane przez procesor mogą być odrzucane, z uwagi na redukcję zegara. Powstające w ten sposób błędy skutkować mogą zatrzymaniem całego systemu.

Drugą nowinką zaimplementowaną w rdzeniu E0 było dodanie Execute Disable Bit. To nic innego jak znany z procesorów AMD bit No eXecute (NX), zaszyty w tabelach translacji, umożliwiający zablokowanie instrukcji w buforze bez wpływu na pozostałe dane, chroniąc w ten sposób system choćby przed przepełnieniem stosu.

Dwie omówione wyżej cechy znalazły zastosowanie w procesorach Pentium 4 i Celeron, opartych o jądro Prescott ze steppingiem E0. Możemy je rozpoznać po literce "J" w indeksie procesora (np. Pentium 4 560J). Kolejnym krokiem ku serii 6xx było wprowadzenie rdzenia Prescott 2M w postaci steppingu N0.

Co nowego oferuje N0? Mamy kolejne dwie zmiany. Pierwsza wprowadza technologię EIST (Enanced SpeedStep Technology). Funkcja ta jest bardzo podobna do Cool&Quiet AMD i stanowi rozwinięcie Enhanced Halt Mode C1E. Różnica polega na tym, że w zależności od obciążenia procesor automatycznie reguluje zegar i poziom napięcia zasilającego, dostosowując dzięki temu wydajność (i ilość wydzielanej mocy) do bieżących potrzeb. Tak jak wcześniej, najniższym mnożnikiem jest 14-stka. Trzeba tu wtrącić, że rozwiązanie AMD jest elastyczniejsze, ponieważ w stanie głębokiego spoczynku K8 może zredukować zegar aż do mnożnika 4x (co przy znamionowym zegarze szyny referencyjnej 200MHz i mnożniku 4x końcowo daje 800MHz), a napięcie do 0,8V. W przypadku EIST możliwa najniższa jest wartość 2,8GHz - tak więc, im wyższy jest końcowy zegar procesora, tym więcej poziomów pracy EIST (dla modelu 3GHz są tylko dwie wartości, dla modelu 3,6GHz już pięć). Trudno ogólnie określić poziom napięcia zasilającego w najniższym trybie pracy EIST, z uwagi na indywidualnie dobierany przez producenta parametr znamionowego napięcia dla każdej partii procesorów. Standardowe napięcie Vcore w zależności od serii waha się od 1,2 do 1,4V i nie jest ono z góry ustalone.

Druga zmiana to powiększona pamięć podręczna cache L2. Ma on teraz rozmiar aż 2048KB. Warto dodać, że pierwotnie większy cache miał mieć dopiero następca Prescotta - Tejas, a i to dopiero w wymiarze 0,065um. Cóż, Tejasa nie będzie, a 2MB cache mamy już teraz. Parametry szyny dostępowej nie uległy zmianie (8-śmio drożna, 256-bitowa z 64-bitowym wierszem pamięci). Niestety, prawdopodobnie kolejny raz zwiększyła się latencja cache. Trudno jednak wyrokować, jaką ten parametr w praktyce ma wartość. Pierwotne pomiary jakie wykonałem wykazywały, że zarówno Prescott z 1 jak i z 2MB cache L2 ma opóźnienie około 30cykli. Jednak już np. program CacheMem wskazuje na 24 cykle dla rdzenia z 1MB i 27 cykli dla 2MB Prescotta. Cóż, na pewno rdzeń ma teraz więcej pamięci, ale niestety jest również możliwe, że ma do niej dłuższy czas dostępu.

Na tym koniec nowinek. Czy o czymś zapomniałem? Nie :) Ale należy dodać, że w końcu wraz z rdzeniem N0 dostajemy oficjalnie wsparcie dla 64 bitowych instrukcji zgodnych z AMD64, które w języku Intela zwą się EM64T (Extended Memory 64 Technology). Dlaczego nie zaliczyłem ich do nowinek? Ano, o intelowskim rozszerzeniu x86-64 pisałem już rok temu przy okazji premiery nowego jądra Pentium 4. Niestety do teraz owe rozszerzenia w procesorach Pentium 4 Prescott były zablokowane, choć od dawna już były dostępne dla serwerowych odmian tego rdzenia (Nocona). Co prawda, już od ponad pół roku niektóre serie Pentium 4 miały EM64T aktywne, ale były one udostępniane w niewielkich seriach i to tylko najbardziej zaufanym partnerom giganta. Teraz to się zmienia i dostęp do EM64T może mieć każdy.

Wiemy już co piszczy, teraz dowiemy się gdzie piszczy. Procesory ze steppingiem E0 dostępne są obecnie już we wszystkich procesorach LGA, zastępując tym samym starszy stepping D0. Układy rozpoznać można po wspomnianej już literce "J" w indeksie modelu procesora. I tak, na rynku dostępne są modele 520 (2,8GHz), 530J (3,0GHz), 540J (3,2GHz), 550J (3,4GHz), 560J (3,6GHz) i 570J (3,8GHz). Stepping E0 trafił też do Celeronów D.

A co z N0? Stepping ten znalazł zastosowanie w serii procesorów Pentium 4 z 2MB buforem. Układy zyskały nowy indeks: 6xx. I tak, dostępne są następujące modele P4 620 (2,8GHz), 630 (3,0GHz), 640 (3,2GHz), 650 (3,4GHz) oraz 660 (3,6GHz). Wszystkie układy wyposażone są w 64bitowe rozszerzenia EM64T z bitem NX, technologią Thermal Monitor 2 i Enhanced Halt Mode C1E. Technologię EIST wspierają modele od 630 w górę, z tego prostego powodu, że P4 620 pracuje z mnożnikiem 14x, a co za tym idzie EIST nie będzie działać z uwagi na wyczerpane pole do manewru mnożnikiem.

Do serii desktopowych układów dołączył jeszcze jeden model. Wersja Extreme Edition. To bardzo nietypowy model. O ile wcześniejsze procesory tej serii oparte były o 0,13um jądro Gallatin, które w praktyce było Northwoodem z dodanym cacheL3, to teraz Ekstremalna wersja trafiła w wymiar 0,09um i pod względem technologicznym niczym nie odbiega od zwykłych Pentiumów serii 6xx. Układ oparty jest o ten sam stepping N0, ma 2MB cacheL2 (L3 już nie ma). Dostępny jest jeden model, taktowany zegarem 3,73GHz. Układ nie ma żadnego indeksu i jest oznaczony po prostu jako Pentium 4 3,73GHz EE. Jednym wyróżnikiem, w stosunku do tradycyjnych modeli 6xx, jest podniesione do 266MHz (QPB 1066MHz) taktowanie szyny FSB. Układ pracuje przy mnożniku 14x, przy czym, podobnie jak model P4 620, ma wyłączoną technologię EIST. I tu mamy paradoks. Zarówno model P4 620, jak i P4 3,73GHz EE pracują z tym samym mnożnikiem i mają niemal te same możliwości. Różni je jedynie... szyna FSB, a co za tym idzie końcowe taktowanie i .... cena. Ekstremalny Pentium ma, tradycyjnie już, kosztować 1000$. To dosyć oryginalne podejście i pewnie z uwagi na chęć zachowania równowagi rynkowej model P4 620 będzie dostępny jedynie na wybranych rynkach w ograniczonych ilościach. Sprytnie ;)

Poniższa tabelka przedstawia zestawienie najważniejszych cech nowej rodziny procesorów Pentium na gniazdo LGA. Jak widać, dla nowych modeli aż do 3,4GHz TDP zachowano na w miarę rozsądnym poziomie. Warto uzmysłowić sobie, jak mocno potaniała produkcja P4 EE wraz z przejściem do nowego wymiaru technologicznego. Ilość tranzystorów w stosunku do starszego rdzenia Gallatin pozostała na podobnym poziomie, ale wymiary samego rdzenia drastycznie spadły. A mniejszy rdzeń oznacza niższy jednostkowy koszt produkcji.

(kliknij, aby powiększyć)

Testy wydajności - część I

Pierwsza część testów ma dać ogólne pojęcie o wydajności nowego rdzenia w stosunku do wcześniejszego modelu firmy Intel, a także produktu konkurencji w postaci procesora AMD Athlon 64 4000+. W dalszych rozdziałach zobaczymy też na co stać model P4 640. W teście użyty został system operacyjny Microsoft Windows XP Professional z dodatkiem Service Pack 2.

Zaczynamy testami z gier. Pierwszy test wypada dosyć pozytywnie dla procesora Pentium EE w porównaniu z tradycyjnym modelem. Konkurencyjny Athlon radzi sobie jednak bardzo dobrze i zostaje niewiele z tyłu.

Starsza wersja 3DMark to ostoja procesora K8, który radzi sobie całkiem nieźle (co widać po wynikach testów). Najszybszy prezentowany procesor Intela nie jest w stanie sobie poradzić z układem AMD, choć w teście podstawowym jest o 9% wydajniejszy od P4 560.

Kolejny test i sytuacja ulega zmianie po raz pierwszy. Widać, że na wynik benchmarka, wraz z nadejściem ery kart graficznych pokroju NV40/R420, coraz większy wpływ ma moc samego procesora. Tu układy Intela skutecznie konkurują z procesorem AMD. Ponad 300 punktową przewagą nad swym starszym bratem szczyci się P4 3,73GHz EE. Sytuacja odwraca się w teście programowych obliczeń graficznych. Tu Athlon o 10% wyskakuje ponad najszybszego pośród Inteli.

Ostatnia edycja programu "Szalonej Cebuli" (aka Futuremark). Wpływ procesora na test podstawowy jest minimalny, a nawet w trybie "CPU test" niewiele widać. Warto dodać, że program, jak niestety mało jeszcze który, korzysta z dobrodziejstw technologii SMT (HyperThreading).

Starszy z benchmarków opartych na grze Aquanox. Program zwraca w miarę stabilne wyniki, a co ważniejsze, podaje nie tylko średni, ale i minimalny poziom wyświetlanych klatek. Athlon wyraźnie lepiej sobie radzi od układów Intela. Wyższy nie tylko średni, ale i minimalny poziom ramek.

Athlon ponownie finiszuje pierwszy. P4 EE nie zyskuje wielkiej przewagi nad P4 560. Niecałe 3FPS różnicy.

Syntetyki mamy już za sobą. Przejdźmy do testów z prawdziwych gier. X2, a tu Athlon zdobywa kolejne punkty. Mikroskopijna przewaga P4 EE nad klasycznym P4.

Unreal Engine, tu w postaci sieciowego Unreal Tournament. P4 najsłabszy z całej stawki. P4 EE niestety nie wypada rewelacyjnie.

Pierwsza z wielkiej trójki gier FPP zeszłego roku. Nie jest niespodzianką wygrana procesora AMD we wszystkich kategoriach. Zwraca uwagę stosunkowo wysoki minimalny FPS w przypadku CPU AMD.

8% przewaga Ekstremalnego Pentium nad modelem 3,6GHz. Tradycyjnie Athlon z przodu.

Gra roku 2004. Zdecydowana przewaga układu AMD nad produktami Intela. Średni FSP wyższy aż o 24%!

W grach przewaga układu AMD i stosunkowo niewielka różnica miedzy procesorem rynku średniego-P4 560 a tym z najwyższej półki o zegarze 3,73GHz. A jak sprawa wygląda w innych zastosowaniach? Zacznijmy od teorii. Tu już K8 nie radzi sobie tak dobrze. Dzięki wykorzystaniu przez benchmark możliwości, jakie niesie HT, Pentiumy radzą sobie całkiem nieźle. Testy systemu pamięci pokazują, jak dużo może dać wzrost taktowania szyny FSB w układach Intela. Wydajność podsystemu pamięci drastycznie wzrosła. Ale do tego nie jest potrzebne DDR2 i tak wysokie zegary. Athlon korzystający z pamięci PC3200 dzięki niskim opóźnieniom, wynikającym nie tylko z krótszych timingów pamięci, ale głównie czerpiący korzyść ze zintegrowanego kontrolera pamięci, radzi sobie równie dobrze.

Kolejny, typowo teoretyczny program. Wynik ukazuje jednak poprzez wykorzystanie programów podobnych do tych, z którymi mamy do czynienia na co dzień. Tu układy Intela działają znacznie sprawniej i nawet 3,6GHz Pentium jest w stanie wywalczyć sporo lepsze wyniki od układu AMD. P4 EE nie wypada jednak rewelacyjnie w stosunku do modelu "560".

Jak nazwa wskazuje, program służący do wyszukiwania liczby Pi. Różnice między poszczególnymi układami stosunkowo niewielkie, biorąc pod uwagę wielkość próbki.

WinRAR to przykład programu, potrafiącego doskonale wykorzystać zalety architektury Athlona 64. Widoczne dokładne przeciwieństwo tego co prezentuje jeden z podtestów PCMarka. Tam przewagą dysponowały układy Pentium. Tu jest inaczej.

Ponownie kompresja danych...a raczej konwersja. Minimalna przewaga Athlona nad Pentium 4 560 i zwycięstwo P4 EE.

Przejdźmy do konwersji plików video. Tu ponownie zwycięstwo Intela i to przy korzystaniu z kodeka DivX jak i Xvid. P4 EE radzi sobie nieźle, ale nie zyskuje dużej przewagi nad modelem "560". Warto zauważyć, że Athlon lepiej sobie radzi, jeśli do konwersji został użyty kodek XviD. Wówczas strata do procesorów Pentium jest mniejsza (w pierwszym przypadku różnica jest na poziomie 20%, w drugim już tylko 11%). W ogólnym spojrzeniu DivX jest sporo szybszy od XviD.

Konwersja przy pomocy aplikacji dostarczanej przez twórcę systemu operacyjnego. P4 EE tylko o 7s szybszy od układu Pentium 4 taktowanego zegarem 3,6GHz.

Za to program zajmujący się przekładem tekstu poradził sobie z tłumaczeniem wyraźnie sprawniej na platformie K8. Kolejny raz widać, jak niewiele szybszy w stosunku do modelu podstawowego jest P4 EE.

Benchmark, oparty o program mający pokazać, na co stać 64bitowe układy x86, napisany przez programistów firmy nVidia. Tu wersja 32bitowa. Wyniki w trybie 64 bitowym zostaną zaprezentowane dalej. Kolejny raz zwraca uwagę minimalny FSP.

Program łączący pliki graficzne, umożliwiający np. tworzenie obrazów panoramicznych. Praca przebiega wydajniej, jeśli odbywa się na platformie K8. Szybki Pentium ledwie 13s przed modelem 3,6GHz.

Zwycięstwo układów Intela, choć różnica między nimi niewielka. Athlon o 3 minuty dłużej wykonywał zadanie niż P4 560.

Pentium 4 ExtremeEditon okazuje się być najszybszym pośród trójki testowanych procesorów. Zadanie wykonał niemal minutę przed A64. Pentium 560 o 20s przed Athlonem.

Test w tym programie minimalnie wygrywa Athlon 64 4000+. Widać że w ostatnim teście układy Intela przyspieszyły, dzięki wykorzystaniu wieloprocesorowości. Co prawda tylko wirtualnej, ale jednak...

Na koniec SPECViewperf w najnowszej, ósmej wersji. W ogólnej kwalifikacji układ AMD radził sobie lepiej, choć w kilku przypadkach Pentiumy skutecznie zagroził modelowi 4000+ i ogólnie rywalizacja jest całkiem wyrównana. Niestety P4 3,73GHz nie jest wcale wiele szybszy od P4 560.

64 bit > 32 bit ?

Ponieważ wciąż nie jest osiągalna finalna wersja systemu Microsoftu z obsługą 64btiowych układów x86, korzystałem z najnowszej dostępnej obecnie odmiany Windows XP x64 Professional RC2. Wersja ta, występująca w kompilacji 1433, jest już bardzo bliska odmianie końcowej, więc jej formę można z dużym prawdopodobieństwem traktować jako produkt, który niedługo będzie dostępny na rynku. Odmiana ta, w przeciwieństwie do pierwszych wersji beta, bez problemu potrafi pracować zarówno z oryginalnym rozszerzeniem AMD64, jak i intelowską implementacją tych rozkazów, czyli EM64T.

Niestety, z uwagi na brak czasu, a nie oszukujmy się - także umiejętności, nie zdecydowałem się na testy w innym 64-bitowym środowisku programowym niż system firmy MS.

- Benchmarki 64bit

Wyraźne przyspieszenie po przesiadce na nowy system. Gwałtownie wzrosła ilość klatek w środowisku 64bit, aczkolwiek test działa niemal tak samo szybko w przypadku obu konkurujących platform. Możemy odnotować wzrost wydajności na poziomie niemal 40%.

Kolejny test przynoszący gwałtowny wzrost wydajności. Procesor Pentium uzyskał 30, a Athlon 42% lepsze wyniki.

Test syntetyczny pokazujący jak teoretycznie wzrasta możliwość obliczeniowa w nowym środowisku. Układu AMD zyskać on może nawet 65% przyrost wydajności. Pentium nie odnotował takiego wzrostu - jedynie 21% szybciej.

Widoczny wzrost wydajności w przypadku procesora korzystającego z rozszerzenia AMD64. Co ciekawe EM64T działa wprost przeciwnie.

Sytuacja się powtarza. Jedynie układ AMD zyskuje na mocy, skracając czas pracy o 5 minut. Pentium swoje zadanie w nowym środowisku wykonywał w czasie o 5 minut dłuższym. Takie zachowanie procesora, w tym i poprzednim teście, może mieć związek z silną optymalizacją pod 64bitowe procesory AMD. Niestety, reakcja programu wynikać też może z pewnych ograniczeń zaimplementowanych w architekturę NetBurst technologii EM64T. Niektóre typy operacji jak mnożenia całkowitoliczbowe, przesunięcia, są po prostu wykonywane wolniej w trybie 64 niż 32bitowym.

Znowu ciekawe rzeczy się dzieją. Tym razem jednak widać wyraźne przyspieszenie po stronie układu Intela. K8 nie zyskuje wiele w teście. Program jest prawdopodobnie zoptymalizowany lepiej pod architekturę EM64T, programiści przy pracy posługiwali się kompilatorem Intela, a dodatkowo używane przez program algorytmy są różne dla 32 i 64bitowej wersji benchmarku - stąd rozbieżności.

Aplikacja jest typowym "demem" mającym pokazać moc 64bitowej architektury nowych procesorów. Widać wyraźnie, jak mocno skrócił się czas kompresji. Warto jednak odnotować, że procesor AMD zyskał bardziej na czasie pracy od układu Intela.

Wyraźne skrócenie obliczeń na platformie AMD. Program zwrócił wynik aż o 56% szybciej niż w środowisku 32bitowym. Pentium też nie próżnuje. EM64T pozwala wydobyć 35% mocy.

- Benchmarki 32bit

Teraz uruchamiamy typowy, 32bitowy program w środowisku 64bit. WoW64 (o tym dalej) radzi sobie całkiem nieźle. Pentium stracił tylko 11s, co stanowi niewielki procent całości obliczeń. Za to ciekawa rzecz w przypadku procesora AMD. Tu wynik ukazał się szybciej o 8s w stosunku do Windowsa 32bitowego.

3DMark notuje statę. Program szybciej działał pod kontrolą starszego systemu i to zarówno w teście podstawowym jak i benchmarku samego procesora.

FarCry miał być jedną z pierwszych gier korzystających z instrukcji x86-64. Niestety, do dnia dzisiejszego stosowna wersja nie pojawiła się na rynku. I dlatego też użyłem zwykłej wersji 32bitowej. Program reaguje podobnie jak 3DMark. Widoczna strata wydajności. Co ciekawe jednak, jest ona mniejsza w przypadku platformy AMD. Procesor Intela wyszedł troszkę gorzej na zmianie systemu operacyjnego.

Kodowanie dźwięku przebiega niemal identycznie szybko niezależnie od wersji systemu.

Podobnie zachował się program tłumaczący języki.

Niestety, z doborem testów pod 64-bitowe środowisko Windows nie jest łatwo. Ale to nie dziwi. Brak finalnej wersji systemu nie daje twórcom oprogramowania powodów do pośpiechu w pisaniu dedykowanych wersji swojego software. Jednak sytuacja na pewno się zmieni. Jeszcze niedawno tylko AMD w rodzinie procesorów Athlon 64/Opteron dawało możliwość uruchamiania 64-bitowego kodu. Za sprawą działań firmy Intel sytuacja ulegnie zmianie.

Te kilka zaledwie programów daje pojęcie o stanie oprogramowania działającego pod kontrolą 64bitowych systemów Microsoft. Jest go mało, część jest w wersji beta, a część wyraźnie gorzej pracuje w środowisku 64bit niż w 32bitach w niektórych konfiguracjach. Ma na to zapewne wpływ czas powstawania owych wersji i są one wybitnie zoptymalizowane na pracę z jednym, bądź drugim rozszerzeniem. Zaskakująco jednak dobra okazuje się praca typowo 32bitowych aplikacji. Nie działają one co prawda szybciej niż w 32bitowch Windowsach, ale spadki wydajności nie są duże. Warto bowiem dodać, że każde 32bitowe oprogramowanie jest uruchamiane w 64bitach przy pomocy emulatora. Microsoft swoje rozwiązanie nazwał WOW64 (Windows on Windows 64). Rozszerzenie adresów procesora pozwala teraz na pracę z 32GB RAM pamięci fizycznej i 16TB wirtualnej (wersja 32bit tylko 4GB, a system potrafił alokować maksymalnie 2GB pamięci dla jednego procesu). Podobnie jak wcześniejsza, 32bitowa odmiana wersja Professional, obsługuje do 2 procesorów fizycznych (jedno i dwurdzeniowe). Jak wiemy, premiera systemu wyjątkowo się przeciąga i mamy już ponad półtoraroczny poślizg.

Dla wielu, ogłoszenie przez Intela powszechnej dostępności technologii EM64T i jednocześnie bliskie w końcu wprowadzenie Windowsa 64 jest ewidentną grą na zwłokę i wymierzone w stronę AMD działania dwu gigantów - Microsoftu i Intela. AMD64 jest powszechnie dostępne od dawna. Intel czekać kazał o wiele dłużej.

Odłóżmy jednak na bok teorie spiskowe i zajmijmy się faktami. Należy zdać sobie sprawę z faktu, że od dawna tak wiele nie zależało od zgodności obu producentów procesorów w kwestii implementowanych instrukcji(x86-64). Bez powszechnej obecności programowo zgodnych rozwiązań lansowanych przez dwie firmy, szans na powodzenie całego 64 bitowego projektu by nie było. Jeszcze jakiś czas temu nie było wiadomo, czy nie doczekamy się dwu odmian 64bitowego Windowsa - osobnego dla AMD i Intela. Takie działanie nie wpłynęłoby pozytywnie na rynek. Na szczęście stało się inaczej i wydaje się, że mamy pełną zgodność programową instrukcji obu graczy rynku mikroprocesorów. Nie oszukujmy się jednak - jakkolwiek rozwiązanie Intela nie jest tak dobre jak AMD (z uwagi na konieczność dostosowania możliwości do dostępnej architektury NetBurst), to 64bitowa forma stworzona przez Intela miałaby o wiele większe pole przebicia, niż konkurent posiadający mniejsze przebicie rynkowe. Na szczęście mamy zgodne ze sobą rozwiązania i czekamy już tylko na stosowne działania programistów. A z całą pewnością decyzja Intela o powszechnym wprowadzeniu mikroprocesorów z obsługą 64bitowego kodu wpłynie na zmianę sytuacji (EM64T także w Celeronach!) i z czasem powodów do zmiany 32 na 64 bity będzie coraz więcej. Także sam Microsoft powoli zmienia bieg rzeczy zapowiadając, że ich następny system, tj. Longhorn ma być też systemem 64bitowym, więc impuls do optymistycznego zerkania w przyszłość jest tym silniejszy. Na koniec warto jeszcze rozróżnić dwie odmiany 64bitowych Windowsów XP. Wersja przeznaczona do pracy z procesorami zgodnymi z AMD64 nazywa się Windows XP Professional x64 Edition. Istnieje jeszcze bowiem druga odmiana: Windows XP 64bit Edition - jest to odmiana dedykowana dla intelowskiego rozwiązania IA64 (czyli Itanium).

Wracajmy jednak do naszych testów. Przyglądając się poszczególnym tabelkom, a szczególnie tym wykonanym na aplikacjach 32bitowych, widać że nowy system operacyjny nie zawsze jest w stanie zastąpić powszechną wersję 32bitową. Kilka testów straciło na wydajności, ale np. dla gier duże znaczenie ma jakość użytego sterownika graficznego, który może mieć sporo do powiedzenia. A właśnie gry na te kilka ledwie przypadków zanotowały największą stratę. Na sterownikach warto się zatrzymać, bowiem np. Intel nie udostępnia jeszcze dedykowanego "drivera" dla wciąż testowej wersji systemu Microsoftu do swoich chipsetów. Nie inaczej jest z wieloma innymi producentami, którzy albo sterownika jeszcze nie wydali wcale, bądź są one ciągle w wersji beta. Na szczęście wersja RC2 ma dosyć pokaźną bazę danych urządzeń i system bez problemów wykrył wszystkie komponenty testowej konfiguracji.

Inne programy działać potrafią niemal tak samo sprawnie w 32 jak i 64bitach. Widać tu wyraźny postęp i stopniowe doskonalenie systemu, który ciągle zyskiwał na wydajności wraz z kolejnymi odmianami testowymi. Cóż, funkcjonalności swej 32bitowej odmiany nowy Windows bez odpowiedniego oprogramowania na pewno nie osiągnie, ale efekt pracy panów z Redmont jest całkiem niezły.

1 = 2 ?

Wiedzieliśmy już starcia procesorów przy znamionowych zegarach. Zamieszajmy więc trochę.

Teraz możemy przyjrzeć się temu, co się dzieje z naszymi bohaterami, jeśli pracują przy podobnych zegarach, a różnią się wielkością pamięci podręcznej. W pierwszym przypadku mamy do czynienia ze standardowo pracującym Pentium 4 3,73GHz EE i inżynieryjną wersją P4 560, z mnożnikiem obniżonym do wartości 14x, ale z podniesioną do 266MHz szyną FSB. Mamy więc starcie układów identycznie taktowanych, ale różniących się pojemnością cache L2. Zobaczymy, ile realnie daje większa pamięć i na jaki przyrost można liczyć z tytułu posiadania nowej wersji Pentium.

W drugim przypadku mamy nieco inną sytuację, na pierwszy rzut oka może trochę dziwną. Oto model P4 640 starł się z P4 550 (naszemu testowemu modelowi 560 obniżyliśmy mnożnik do 17, otrzymując w ten sposób procesor P4 550 taktowany zegarem 3,4GHz). Tu chciałem osiągnąć coś nieco innego. Oto Intel ustawił bowiem procesory z 2MB buforem na podobnym poziomie cenowym, co model serii 5xx z 1MB pamięci, ale taktowany zegarem realnie o 200MHz wyższym. I tak przykładowo, możemy odnieść wrażenie, że 3,2GHz P4 630 to cenowy odpowiednik 3,4GHz P4 540. A więc, czy faktycznie można postawić znak równości między 2MB cacheL2, a o 200MHz wyższym zegarem CPU?

Ogólny sens tych dwóch porównań jest taki, że ma dać odpowiedź na pytanie, ile dają działania Intela mające w zamierzeniu zwiększyć wydajność produkowanych procesorów i czy faktycznie NetBurst jest aż tak zależny od pojemności pamięci podręcznej, jak do tej pory się uważa.

Quake przyspiesza o 9% w stosunku do tak samo taktowanego modelu P4, ale tylko z połową pamięci podręcznej. Widać to też w drugim teście. Pojemniejszy cacheL2 pozwala skutecznie zminimalizować 200MHz różnicę dzielącą procesory P4 640 i 550.

W pierwszym teście ponownie widać wpływ pamięci podręcznej. Układy korzystające z rdzenia Prescott 2M są szybsze i nawet model 640 przegania 550.

W teście podstawowym brak poważniejszych różnic w dwu zestawionych klasach. Ma na to oczywiście wpływ karta graficzna. W teście samego procesora widać już lepiej, że 2MB pamięci daje delikatny przypływ wydajności.

Doom nie reaguje zbyt mocno na podwojony rozmiar cache.

Test dwóch układów z 266MHz szyną FSB (QPB 1066MHz) nie wykazuje wielkich różnic, za to 3,2GHz P4 640 może skutecznie rywalizować z 3,4GHz P4 550.

Stosunkowo niewielki na ogólne wyniki wpływ procesorów z dużą pamięcią podręczną.

Aquamark też lubi wysokie zegary. 2MB bufor nie daje zbyt wiele.

Sytuacja się powtarza.

Co ciekawe, Sandra pokazuje pewien wpływ pamięci podręcznej na typowo syntetyczne testy w starciu pierwszej pary. Prescott 2M jest delikatnie szybszy od odpowiednika z 1MB pamięcią. Ciekawy jest też test pamięci. Tu starszy procesor wygrywa, potrafiąc się szybciej porozumiewać z RAMem. Inaczej jest przypadku drugiej pary. Niewielka przewaga P4 640, aczkolwiek różnica jest na granicy błędu pomiarowego. Czyżby widoczny był wpływ wyższej latencji cacheL2 Prescotta 2M?

PC Mark nie czerpie wielkich korzyści z większego cache. Wyższy zegar ma większy wpływ na końcowe rezultaty.

SuperPi nie korzysta z dużej pamięci. Czysta moc obliczeniowa ma większe znaczenie...

...podobnie WinRAR...

...jak i program do konwersji językowej....

...audio...

...video...

...graficznej...

W dalszym ciągu nie widać wpływu pamięci na szybkość wykonywanych zadań.

Cinema też nie przyspiesza. Liczy się czysta moc obliczeniowa jednostek procesora.

Za to przyjrzenie się wynikom programu SPECviewperf w kilku przypadkach pozwala odnotować minimalny spadek wydajności układu korzystającego z większej pamięci podręcznej. Cache nie ma niemal żadnego pozytywnego wpływu na szybkość wyświetlania grafiki, a P4 EE wręcz okazuje się minimalnie wolniejszy od podkręconego P4 560. P4 640 też nie ma szans w starciu z modelem 3,4GHz ale 1MB buforem. Wniosek jest jeden - procesor ma jednak dłuższy czas dostępu do cache L2.

Jak widać, w starciu cenowych odpowiedników (640 vs 560), nowy procesor Intela nie wypada zbyt korzystnie. Oba układy zostały wycenione na podobnym poziomie, ale okazuje się, że wyższy zegar niejednokrotnie jest więcej wart niż powiększona pamięć podręczna. W środowisku 32bitowym daje to oczywistą przewagę. P4 560 jest po prostu szybszy od modelu 640. Oczywiście ten drugi oferuje dodatkowe, ciekawe funkcje, co może znacząco przemawiać za nową serią 6xx.

Widać jak powyższe porównanie burzy dwa mity. Po pierwsze, P4 wcale nie jest już tak mocno zależny od wielkości pamięci podręcznej. 2MB bufor nie daje wielkiej przewagi nad bratem. Oczywiście wpływ na to mogą mieć wyższe opóźnienia pamięci podręcznej, ale nie sposób do końca to zweryfikować. Drugi mit to zależność od podsystemu pamięci. Procesor wcale nie zyskuje tak wiele po przesiadce na szybszą szynę, co udowodniło już starcie P4 3,4GHz EE z tym samym modelem, ale na FSB 266MHz (QPB 1066MHz)-P4 3,46GHz EE.

Podkręcanie

Intel powiedział, że 4GHz Pentium 4 nie będzie. Ale mimo, że nie będzie go oficjalnie, to można sobie samemu zrobić :) Cóż, wyników oszałamiających nie udało mi się osiągnąć z uwagi na ograniczenia platformy testowej. Wyposażony byłem jedynie w referencyjny cooler Intela, który do podkręcania jest, delikatnie mówiąc, niewystarczający. Ale, od czego szafka pełna gadżetów? Po dołożeniu dwóch dodatkowych wentylatorów rozpraszających ciepło byłem gotowy do testów.

P4 EE udało mi się wykręcić całkiem nieźle - do 4,25GHz i to bez podnoszenia napięcia. Procesor bez trudu liczył przez godzinę dwie niezależne próbki Prime95 (po jednej na procesor logiczny), co można uznać za jako taki punkt odniesienia, mówiący o stabilności podkręconego układu. Oczywiście, by myśleć o wysokim o/c należy zaopatrzyć się w dobrą płytę główną z najlepszym chipsetem. Układy i915P/925X nie wydają się tu odpowiednie, bowiem, ogólnie mówiąc, pracują stabilnie do okolic 250MHz z uwagi na brak blokad magistral. Powyżej tej częstotliwości zaczyna już wadzić wytrzymałość pozostałych komponentów, jak karta graficzna PCIe i dyski twarde standardu SATA. Najlepszy jest oczywiście i925XE, potrafiący pracować stabilnie daleko poza 300MHz FSB, a przy tym nie musimy się martwić o stan drogocennych podzespołów. Wracajmy jednak do naszego procesora. Wydaje się, że po zapewnieniu odpowiednio wydajnej maszynerii chłodzącej nie powinno być problemów z przekroczeniem 4,3GHz. I nie mam tu na myśli wcale agregatów chłodniczych.

Niestety, testowy egzemplarz P4 640 to zupełne przeciwieństwo. Ten potrafił o wiele mniej i pracował ledwie z zegarem 3,6GHz. 4GHz, nawet mimo zmiany napięcia, nie dało się osiągnąć. Te dwa wyniki podkręcania układów z rdzeniem N0 świadczą o tym, jak krańcowo różnie potrafią pracować procesory wykonane według tego samego projektu. Na końcowy zegar ma bowiem wpływ bardzo wiele czynników i trzeba mieć nie tylko wiedzę, ale i wiele szczęścia by zyskać efekt "dobrej sztuki". Sądząc po tym, co średnio potrafią różne modele układów z rdzeniem E0 i N0, próbka, która się mi trafiła, to po prostu wypadek przy pracy, czy jak kto woli, typowy przypadek procesora wyprodukowanego w poniedziałek :)

Podsumowanie

Po przyjrzeniu się wszystkim testom możemy niestety czuć pewien niesmak. Jakkolwiek układy Prescott z 2MB cacheL2 są bardzo szybie, to można było liczyć na poważniejszy wpływ dużej pamięci na sumaryczną wydajność. Tymczasem okazuje się, że procesor wcale tak mocno nie korzysta z pojemnego cache i często nie jest nawet odczuwalnie szybszy w porównaniu do P4 serii 5xx.

Sporym rozczarowaniem jest odświeżony układ P4 3,73GHz EE. Procesor, będący flagowym modelem firmy, powinien dysponować zauważalną przewagą wydajnościową. Tymczasem jest raczej średnio. Procesor wcale gwałtownie nie zyskuje na wydajności, ani wraz ze wzrostem taktowania szyny FSB, ani po podwojeniu pamięci podręcznej. W wielu przypadkach swą przewagę wersja Extreme Edition, nad porównywanym P4 560, zyskuje jedynie dzięki wyższemu zegarowi. Obalone zostają więc dwa błędne wnioski. Pierwszy - o ogromnej zależności architektury NerBurst od szyny FSB i przepływności pamięci (teza podważona już kilka miesięcy wcześniej - przy okazji porównania Extremalnych Pentiumów z zegarami 3,4 i 3,46GHz). Procesor zyskuje stosunkowo mało po podniesieniu szyny. Czasami nie korzysta z tego wcale. 2MB bufor też nie daje wiele. Programy aplikacyjne nie zyskują niemal nic, a jedynie niektóre gry przyspieszają nieznacznie. Nie pozwala to Pentium dogonić bardzo szybkiego w tego typu zadaniach Athlona 64. A od kosztującego 1000$ modelu wymagać można naprawdę wiele. Tymczasem okazuje się, że model ten nie tylko nie potrafi zdeklasować serii 560, ale paradoksalnie, w niektórych przypadkach może być wolniejszy od najszybszego procesora Intela - P4 580, procesora pracującego z 3,8GHz zegarem. Na koniec widzimy, jak nieznacznie architektura NetBurst jest podatna na przyspieszanie. Po przejściu z 0,13 do 0,09um procesu technologicznego, w ciągu roku jądro zyskało ledwie 400MHz więcej (P4 3,4GHz C vs P4 580), napotykając przy okazji na barierę termiczną, utrudniającą dalsze podnoszenie zegara. Między innymi, skutkiem owej bariery było anulowanie premiery 4GHz Pentium.

Ale nie samą wydajnością komputer żyje. A nie oszukujmy się - jakkolwiek na papierze nowe procesory nie zawsze wygrywają we wszystkich pojedynkach, to i tak dysponują olbrzymią mocą, którą ciężko wykorzystać. Na uwagę za to zasługują dodatki, jakimi raczy nas producent w nowej wersji rdzenia. Otrzymujemy nie tylko udoskonaloną ochronę termiczną, ale dzięki zmianom w procesie produkcyjnym nowe procesory mniej się grzeją, a także potrafią dostosować bieżącą wydajność do faktycznych zapotrzebowań, przy okazji oszczędzając na naszych rachunkach. Należy jedynie żałować, że przedział wydajnościowy, jakim raczy nas technologia EIST, jest stosunkowo wąski. Przydatniejsza okazałaby się możliwość pracy z zegarem od 2GHz w górę. Często 2,8GHz to zbyt dużo, a można pracować z jeszcze niższym zegarem - nieodczuwalnie wolniej, zaś znacznie chłodniej... Szkoda że EIST zabrakło w P4 EE.

Bit NX też jest przydatny. W dobie wszechobecnych robaków, pluskw, wirusów i innych mikrobów o stratę danych nie trudno. Nie jest to oczywiście panaceum na wszelkie problemy, ale pozwala czuć się pewniej i zneutralizować część zagrożeń.

W końcu doczekaliśmy się też powszechnie dostępnych 64 bitowych rozszerzeń x86 w procesorach Intela. Możemy śmiało migrować ku 64bitowym aplikacjom, które, jak widzieliśmy, są znacznie szybsze od 32bitowych odpowiedników. Mechanizmy Intela nie są może tak wydajne jak AMD, ale i tak dają znaczne przyspieszenie w nowym środowisku.

Właśnie dodatkowe funkcje, którymi Intel obdarzył serię 6xx, pozwalają pozytywnie ocenić odświeżoną linię układów Pentium 4 i wróżą wysoką sprzedaż. Łatwiej z nich skorzystać, niż z monstrualnej wydajności, a dodatki na pewno podniosą komfort codziennej pracy z PC. Bowiem nie sama wydajność się liczy, a funkcjonalność jest równie ważna. No chyba, że ktoś lubi grać w benchmarki, ale i tak nie od dziś wiadomo, że dobra szóstka nie jest zła.

*) szczególne szóstka w Totolotka

Sprzęt do testów dostarczyły firmy:

	AMD Polska www.amd.pl

	Intel Polska www.intel.pl