Nietypowy problem unieruchamia procesory EPYC 2. generacji

Autor: Zbyszek | źródło: TechPowerUp | 16:08 W ostatnim czasie odkryty został nietypowy problem procesorów serwerowych AMD EPYC 2. generacji (nazwa kodowa Rome). Procesory te zadebiutowały na rynku w 2. połowie 2019 roku, i musiało upłynąć trochę czasu, aby okazało się, że cierpią one na nietypową przypadłość. Problem został zgłoszony do AMD przez co najmniej kilku posiadaczy serwerów z tymi procesorami, którzy raportowali wyłączenie się procesorów w serwerach nie restartowanych nigdy od około 3 lat, przy czym restart serwera całkowicie eliminuje problem i przywraca jego pełną sprawność. Jak się okazało, przyczyną problemu jest licznik CPU REFCLK powiązany z funkcją przechodzenia rdzeni w tryb uśpienia CC6.



Licznik CPU REFCLK odlicza co 10 ms, i przepełnia się po 1042 dniach i 12 godzinach ciągłego, nieprzerwanego działania procesorów EPYC 2. generacji - w efekcie powodując przejście rdzeni w tryb uśpienia CC6 na stałe. Wystarczy jednak zrestartować serwer a tym samym procesor, aby licznik CPU REFCLK znów odliczał od początku, a procesor działał w pełni ponownie.



Błąd nie powinien mieć miejsca, jednak z drugiej strony ciągła praca serwera przez okres prawie 3 lat, bez żadnej przerwy serwisowej na wgranie koniecznych aktualizacji bezpieczeństwa i innych poprawek, nie jest zbyt częstą praktyką. Na razie nie wiadomo jeszcze, czy AMD przygotuje poprawkę eliminującą nietypowy problem swoich procesorów.



