-
1. Data: 2022-10-08 03:21:37
Temat: Asus PRIME X370-PRO i 5-5600X
Od: Marcin Debowski <a...@I...zoho.com>
Mam ww. mobo z ww. cpu. Działa to dobrze z 5-3600X i 7-1700PRO ale już
nie z ww., mimo że bios (obecnie najnowszy) i producent deklarują, że
obsługuje. A nie działą to w ten sposób, że jak się próbuje cokolwiek
robić (odpalić coś więcej niż pulpit) to następuje restart. Tak samo pod
W10 jak i pod Mintem.
Takiemu restartowi pod Mintem zawsze towarzyszy ten komunikat:
[ 316.856151] [Hardware Error]: Corrected error, no action required.
[ 316.856156] [Hardware Error]: CPU:0 (19:21:2)
MC12_STATUS[Over|CE|MiscV|AddrV|-|-|SyndV|CECC|-|-|-
]: 0xdc2040000602010b
[ 316.856160] [Hardware Error]: Error Addr: 0x00000000000a9f40
[ 316.856161] [Hardware Error]: IPID: 0x000700b020350500, Syndrome:
0x000000232a1f0f0e
[ 316.856164] [Hardware Error]: L3 Cache Ext. Error Code: 2, L3M Tag ECC Error.
[ 316.856166] [Hardware Error]: cache level: L3/GEN, tx: GEN, mem-tx: GEN
Trafień po google za dużo nie ma, ale trochę przeraził mnie ten wątek:
https://forums.linuxmint.com/viewtopic.php?f=18&t=34
2467&sid=d16b627e8602f5980f0eedc4042a2c87&start=20
Byłby to pierwszy w moim życiu nowy cpu, który jest tak dyskretnie
uszkodzony. Nie przypuszczałem, że takie rzeczy się zdarzają.
Jakieś pomysły, co można sprawdzić, zanim zacznę się przepychać z AMD?
--
Marcin
-
2. Data: 2022-10-08 04:39:27
Temat: Re: Asus PRIME X370-PRO i 5-5600X
Od: Szwambuł Trantiputl <t...@d...com>
Wcale nie przypadkiem, dnia Sat, 08 Oct 2022 01:21:37 GMT
doszła do mnie wiadomość <Bg40L.452826$9f26.10294@fx09.ams1>
od Marcin Debowski <a...@I...zoho.com> :
>Mam ww. mobo z ww. cpu. Działa to dobrze z 5-3600X i 7-1700PRO ale już
>nie z ww., mimo że bios (obecnie najnowszy) i producent deklarują, że
>obsługuje. A nie działą to w ten sposób, że jak się próbuje cokolwiek
>robić (odpalić coś więcej niż pulpit) to następuje restart. Tak samo pod
>W10 jak i pod Mintem.
>
>Takiemu restartowi pod Mintem zawsze towarzyszy ten komunikat:
>
>[ 316.856151] [Hardware Error]: Corrected error, no action required.
>[ 316.856156] [Hardware Error]: CPU:0 (19:21:2)
MC12_STATUS[Over|CE|MiscV|AddrV|-|-|SyndV|CECC|-|-|-
]: 0xdc2040000602010b
>[ 316.856160] [Hardware Error]: Error Addr: 0x00000000000a9f40
>[ 316.856161] [Hardware Error]: IPID: 0x000700b020350500, Syndrome:
0x000000232a1f0f0e
>[ 316.856164] [Hardware Error]: L3 Cache Ext. Error Code: 2, L3M Tag ECC Error.
>[ 316.856166] [Hardware Error]: cache level: L3/GEN, tx: GEN, mem-tx: GEN
>
>Trafień po google za dużo nie ma, ale trochę przeraził mnie ten wątek:
>https://forums.linuxmint.com/viewtopic.php?f=18&t=3
42467&sid=d16b627e8602f5980f0eedc4042a2c87&start=20
>
>Byłby to pierwszy w moim życiu nowy cpu, który jest tak dyskretnie
>uszkodzony. Nie przypuszczałem, że takie rzeczy się zdarzają.
>
>Jakieś pomysły, co można sprawdzić, zanim zacznę się przepychać z AMD?
https://wiki.ubuntu.com/Kernel/Reference/stress-ng
rogram ma opcję do testowania cache, nie odpalałem go nigdy u siebie.
--
Pójdziesz Pleśniowy
Legniesz Ciekliwy
Nakarmisz osty
Najesz pokrzywy
Stanisław Grochowiak.
-
3. Data: 2022-10-08 09:15:42
Temat: Re: Asus PRIME X370-PRO i 5-5600X
Od: m4rkiz <m...@m...od.wujka.na.g.com>
W dniu 08.10.2022 o 03:21, Marcin Debowski pisze:
> Jakieś pomysły, co można sprawdzić, zanim zacznę się przepychać z AMD?
https://www.techradar.com/news/amd-ryzen-5000-proces
sor-failures-are-they-really-that-bad
nie wiem czy problemem było tylko doa czy inne problemy też miały
-
4. Data: 2022-10-08 14:59:23
Temat: Re: Asus PRIME X370-PRO i 5-5600X
Od: marrgol <m...@a...invalid>
On 08/10/2022 at 03.21, Marcin Debowski wrote:
> Mam ww. mobo z ww. cpu. Działa to dobrze z 5-3600X i 7-1700PRO ale już
> nie z ww., mimo że bios (obecnie najnowszy) i producent deklarują, że
> obsługuje. A nie działą to w ten sposób, że jak się próbuje cokolwiek
> robić (odpalić coś więcej niż pulpit) to następuje restart. Tak samo pod
> W10 jak i pod Mintem.
>
> Takiemu restartowi pod Mintem zawsze towarzyszy ten komunikat:
>
> [ 316.856151] [Hardware Error]: Corrected error, no action required.
> [ 316.856156] [Hardware Error]: CPU:0 (19:21:2)
MC12_STATUS[Over|CE|MiscV|AddrV|-|-|SyndV|CECC|-|-|-
]: 0xdc2040000602010b
> [ 316.856160] [Hardware Error]: Error Addr: 0x00000000000a9f40
> [ 316.856161] [Hardware Error]: IPID: 0x000700b020350500, Syndrome:
0x000000232a1f0f0e
> [ 316.856164] [Hardware Error]: L3 Cache Ext. Error Code: 2, L3M Tag ECC Error.
> [ 316.856166] [Hardware Error]: cache level: L3/GEN, tx: GEN, mem-tx: GEN
>
> Trafień po google za dużo nie ma, ale trochę przeraził mnie ten wątek:
> https://forums.linuxmint.com/viewtopic.php?f=18&t=34
2467&sid=d16b627e8602f5980f0eedc4042a2c87&start=20
>
> Byłby to pierwszy w moim życiu nowy cpu, który jest tak dyskretnie
> uszkodzony. Nie przypuszczałem, że takie rzeczy się zdarzają.
>
> Jakieś pomysły, co można sprawdzić, zanim zacznę się przepychać z AMD?
Pod linuxem spróbowałbym najnowszego mikrokodu (jeszcze cieplutki):
https://git.kernel.org/pub/scm/linux/kernel/git/firm
ware/linux-firmware.git/commit/?id=fdf1a65258522edf1
8a0a1768fbafa61ed07e598
Trzeba ściągnąć plik archiwum ponad 400MB żeby wydłubać z niego
plik kilkukilobajtowy... :-/ Niestety AMD nie ma zwyczaju chwalić się
tym, co poprawili.
Testowo, w BIOS-ie, jeśli jest możliwość, spróbowałbym ciut podbić
napięcie zasilania procka lub/i pamięci, ew. jeszcze wydłużyć timingi
pamięci i wyłączyć OpCache, bo objaw jest trochę taki, jak przy
overclockingu (zakładam, że próbowałeś instalować 5-5600X więcej
niż raz i nie jest to problem z chłodzeniem procka).
--
mrg
-
5. Data: 2022-10-09 02:32:51
Temat: Re: Asus PRIME X370-PRO i 5-5600X
Od: Marcin Debowski <a...@I...zoho.com>
On 2022-10-08, marrgol <m...@a...invalid> wrote:
> On 08/10/2022 at 03.21, Marcin Debowski wrote:
>> Mam ww. mobo z ww. cpu. Działa to dobrze z 5-3600X i 7-1700PRO ale już
>> nie z ww., mimo że bios (obecnie najnowszy) i producent deklarują, że
>> obsługuje. A nie działą to w ten sposób, że jak się próbuje cokolwiek
>> robić (odpalić coś więcej niż pulpit) to następuje restart. Tak samo pod
>> W10 jak i pod Mintem.
>>
>> Takiemu restartowi pod Mintem zawsze towarzyszy ten komunikat:
>>
>> [ 316.856151] [Hardware Error]: Corrected error, no action required.
>> [ 316.856156] [Hardware Error]: CPU:0 (19:21:2)
MC12_STATUS[Over|CE|MiscV|AddrV|-|-|SyndV|CECC|-|-|-
]: 0xdc2040000602010b
>> [ 316.856160] [Hardware Error]: Error Addr: 0x00000000000a9f40
>> [ 316.856161] [Hardware Error]: IPID: 0x000700b020350500, Syndrome:
0x000000232a1f0f0e
>> [ 316.856164] [Hardware Error]: L3 Cache Ext. Error Code: 2, L3M Tag ECC Error.
>> [ 316.856166] [Hardware Error]: cache level: L3/GEN, tx: GEN, mem-tx: GEN
>>
>> Trafień po google za dużo nie ma, ale trochę przeraził mnie ten wątek:
>> https://forums.linuxmint.com/viewtopic.php?f=18&t=34
2467&sid=d16b627e8602f5980f0eedc4042a2c87&start=20
>>
>> Byłby to pierwszy w moim życiu nowy cpu, który jest tak dyskretnie
>> uszkodzony. Nie przypuszczałem, że takie rzeczy się zdarzają.
>>
>> Jakieś pomysły, co można sprawdzić, zanim zacznę się przepychać z AMD?
>
> Pod linuxem spróbowałbym najnowszego mikrokodu (jeszcze cieplutki):
> https://git.kernel.org/pub/scm/linux/kernel/git/firm
ware/linux-firmware.git/commit/?id=fdf1a65258522edf1
8a0a1768fbafa61ed07e598
> Trzeba ściągnąć plik archiwum ponad 400MB żeby wydłubać z niego
> plik kilkukilobajtowy... :-/ Niestety AMD nie ma zwyczaju chwalić się
> tym, co poprawili.
>
> Testowo, w BIOS-ie, jeśli jest możliwość, spróbowałbym ciut podbić
> napięcie zasilania procka lub/i pamięci, ew. jeszcze wydłużyć timingi
> pamięci i wyłączyć OpCache, bo objaw jest trochę taki, jak przy
> overclockingu (zakładam, że próbowałeś instalować 5-5600X więcej
> niż raz i nie jest to problem z chłodzeniem procka).
Dzięki. Przeinstalowałem wszystko fizycznie, z wymianą pasty włącznie,
ale zaczynam się poważnie zastanawiać, czy to jednak nie są restarty z
przegrzania bo jest więcej zastanawiających objawów - np. rozpakowywanie
dużego pliku gzip wywala się po ca 40GB danych, chyba, że zatrzymam
proces (crt-z) po 20, a potem wznowię. Mogę tak dociągnąć rzecz do końca
robiąc takie 20GB przerwy.
Ale taki ffmpeg przy hevc potrafi wywalić się w ciągu kilkunatu sekund,
za to stress z wysyceniem wszystkich rdzeni dopiero po 2ch minutach.
Polecany w tym wątku stress-ng (-> dzięki za wskazówkę) przy teście L3
na wszystkich rdzeniach również wytrzymuje ponad 2 min.
Z drugie strony, pod windows dawał się wystartować, zerkałem na
temperaturę i była np. 65, po czym chwilę później następował restart.
Ale już przestał, tj. windows już nie startuje. Parę losowych restartów
położyło trupem i nie daje się naprawić ani przeistalować.
A pod Linuksem w bieżącym jądrze (5.4) nadal nie mam obsługi pomiaru
temperatury dla Ryzenów 5, ale widzę po google, że w wyższych jądrach
już jest, więc chyba muszę zacząć od tego.
Zastanawiające jest też, że jak wchodzę do monitoringu w biosie, to
zwiększenie/zmniejszenie obrotów wentylatora cpu 3x powoduje bardzo
nieznaczne zmiany temperatury i są one bardzo powolne.
No więc objawy są trochę dziwne, ale sugerujące, że jednak coś może być
z przegrzewaniem. Jeszcze się okaże, że to cpu cooler (be quiet! Shadow
Rock Tf 2, 160W TDP).
A, i jeszcze zauważyłe, że nie każde wyrzucenie "Hardware error"
skutkuje restartem, ale zdecydowana większość skutkuje w ciągu kolejnych
sekund. To też jakby wskazuje na przegrzewanie.
--
Marcin
-
6. Data: 2022-10-09 02:42:51
Temat: Re: Asus PRIME X370-PRO i 5-5600X
Od: Marcin Debowski <a...@I...zoho.com>
On 2022-10-08, m4rkiz <m...@m...od.wujka.na.g.com> wrote:
> W dniu 08.10.2022 o 03:21, Marcin Debowski pisze:
>> Jakieś pomysły, co można sprawdzić, zanim zacznę się przepychać z AMD?
>
> https://www.techradar.com/news/amd-ryzen-5000-proces
sor-failures-are-they-really-that-bad
> nie wiem czy problemem było tylko doa czy inne problemy też miały
Hmm, interesujące. Więc normą jest jakieś 2% DOA. Wydawałoby się, że
dużo mniej.
--
Marcin
-
7. Data: 2022-10-09 04:10:26
Temat: Re: Asus PRIME X370-PRO i 5-5600X
Od: Szwambuł Trantiputl <t...@d...com>
Wcale nie przypadkiem, dnia Sun, 09 Oct 2022 00:32:51 GMT
doszła do mnie wiadomość <TEo0L.1153514$%fx6.950614@fx14.ams1>
od Marcin Debowski <a...@I...zoho.com> :
>On 2022-10-08, marrgol <m...@a...invalid> wrote:
>> On 08/10/2022 at 03.21, Marcin Debowski wrote:
>>> Mam ww. mobo z ww. cpu. Działa to dobrze z 5-3600X i 7-1700PRO ale już
>>> nie z ww., mimo że bios (obecnie najnowszy) i producent deklarują, że
>>> obsługuje. A nie działą to w ten sposób, że jak się próbuje cokolwiek
>>> robić (odpalić coś więcej niż pulpit) to następuje restart. Tak samo pod
>>> W10 jak i pod Mintem.
>>>
>>> Takiemu restartowi pod Mintem zawsze towarzyszy ten komunikat:
>>>
>>> [ 316.856151] [Hardware Error]: Corrected error, no action required.
>>> [ 316.856156] [Hardware Error]: CPU:0 (19:21:2)
MC12_STATUS[Over|CE|MiscV|AddrV|-|-|SyndV|CECC|-|-|-
]: 0xdc2040000602010b
>>> [ 316.856160] [Hardware Error]: Error Addr: 0x00000000000a9f40
>>> [ 316.856161] [Hardware Error]: IPID: 0x000700b020350500, Syndrome:
0x000000232a1f0f0e
>>> [ 316.856164] [Hardware Error]: L3 Cache Ext. Error Code: 2, L3M Tag ECC Error.
>>> [ 316.856166] [Hardware Error]: cache level: L3/GEN, tx: GEN, mem-tx: GEN
>>>
>>> Trafień po google za dużo nie ma, ale trochę przeraził mnie ten wątek:
>>> https://forums.linuxmint.com/viewtopic.php?f=18&t=34
2467&sid=d16b627e8602f5980f0eedc4042a2c87&start=20
>>>
>>> Byłby to pierwszy w moim życiu nowy cpu, który jest tak dyskretnie
>>> uszkodzony. Nie przypuszczałem, że takie rzeczy się zdarzają.
>>>
>>> Jakieś pomysły, co można sprawdzić, zanim zacznę się przepychać z AMD?
>>
>> Pod linuxem spróbowałbym najnowszego mikrokodu (jeszcze cieplutki):
>> https://git.kernel.org/pub/scm/linux/kernel/git/firm
ware/linux-firmware.git/commit/?id=fdf1a65258522edf1
8a0a1768fbafa61ed07e598
>> Trzeba ściągnąć plik archiwum ponad 400MB żeby wydłubać z niego
>> plik kilkukilobajtowy... :-/ Niestety AMD nie ma zwyczaju chwalić się
>> tym, co poprawili.
>>
>> Testowo, w BIOS-ie, jeśli jest możliwość, spróbowałbym ciut podbić
>> napięcie zasilania procka lub/i pamięci, ew. jeszcze wydłużyć timingi
>> pamięci i wyłączyć OpCache, bo objaw jest trochę taki, jak przy
>> overclockingu (zakładam, że próbowałeś instalować 5-5600X więcej
>> niż raz i nie jest to problem z chłodzeniem procka).
>
>Dzięki. Przeinstalowałem wszystko fizycznie, z wymianą pasty włącznie,
>ale zaczynam się poważnie zastanawiać, czy to jednak nie są restarty z
>przegrzania bo jest więcej zastanawiających objawów - np. rozpakowywanie
>dużego pliku gzip wywala się po ca 40GB danych, chyba, że zatrzymam
>proces (crt-z) po 20, a potem wznowię. Mogę tak dociągnąć rzecz do końca
>robiąc takie 20GB przerwy.
>
>Ale taki ffmpeg przy hevc potrafi wywalić się w ciągu kilkunatu sekund,
>za to stress z wysyceniem wszystkich rdzeni dopiero po 2ch minutach.
>Polecany w tym wątku stress-ng (-> dzięki za wskazówkę) przy teście L3
>na wszystkich rdzeniach również wytrzymuje ponad 2 min.
>
>Z drugie strony, pod windows dawał się wystartować, zerkałem na
>temperaturę i była np. 65, po czym chwilę później następował restart.
>Ale już przestał, tj. windows już nie startuje. Parę losowych restartów
>położyło trupem i nie daje się naprawić ani przeistalować.
>
>A pod Linuksem w bieżącym jądrze (5.4) nadal nie mam obsługi pomiaru
>temperatury dla Ryzenów 5, ale widzę po google, że w wyższych jądrach
>już jest, więc chyba muszę zacząć od tego.
>
>Zastanawiające jest też, że jak wchodzę do monitoringu w biosie, to
>zwiększenie/zmniejszenie obrotów wentylatora cpu 3x powoduje bardzo
>nieznaczne zmiany temperatury i są one bardzo powolne.
>
>No więc objawy są trochę dziwne, ale sugerujące, że jednak coś może być
>z przegrzewaniem. Jeszcze się okaże, że to cpu cooler (be quiet! Shadow
>Rock Tf 2, 160W TDP).
>
>A, i jeszcze zauważyłe, że nie każde wyrzucenie "Hardware error"
>skutkuje restartem, ale zdecydowana większość skutkuje w ciągu kolejnych
>sekund. To też jakby wskazuje na przegrzewanie.
Ja bym jeszcze pokombinował z ograniczeniem TDP do 65W, wyłączeniem
boost lub ustawieniem napięcia CPU w tryb offset i ZEJŚCIEM o
<=100mV(to samo dla chipsetu), będzie się grzał sporo mniej(u mnie
temperatury spadały o 5-7 stopni w stresie, a wydajność o mniej niż
10%), natomiast jeśli to CPU jest na gwarancji, to bym wysłał.
--
Pójdziesz Pleśniowy
Legniesz Ciekliwy
Nakarmisz osty
Najesz pokrzywy
Stanisław Grochowiak.
-
8. Data: 2022-10-09 05:11:36
Temat: Re: Asus PRIME X370-PRO i 5-5600X
Od: Marcin Debowski <a...@I...zoho.com>
On 2022-10-09, Marcin Debowski <a...@I...zoho.com> wrote:
> No więc objawy są trochę dziwne, ale sugerujące, że jednak coś może być
> z przegrzewaniem. Jeszcze się okaże, że to cpu cooler (be quiet! Shadow
> Rock Tf 2, 160W TDP).
No więc to jednak chyba nie temperatura sama w sobie przynajmniej. Przy
wysyceniu stress'em osiąga 75C gdy następuje restart, a przy stress-ng
zrestartował się już przy 65C. Gzip -d daje maks 65C przy czym raz przy
tej temp. wywaliło Hardware Error (L3) ale bez restartu po czym ponownie
już bez większych obciążeń przy 38C też bez restartu.
Zmiana mikrokodu, nie mam o tyle przekonania, że restartuje jak dziki
także pod windows, więc coś musi być gdzieindziej też na rzeczy.
Ale też jeszcze się taki błąd sprzętowy pojawia, bez restartów:
[ 0.566026] mce: [Hardware Error]: Machine check events logged
[ 0.566027] mce: [Hardware Error]: CPU 0: Machine Check: 0 Bank 12:
fea040000602010b
[ 0.566029] mce: [Hardware Error]: TSC 0 ADDR a9f40 MISC d012026a00000000 SYND
232d1f0f0e IPID 700b020350500
[ 0.566031] mce: [Hardware Error]: PROCESSOR 2:a20f12 TIME 1665140162 SOCKET 0
APIC 0 microcode a201205
L3 cache to są pamięci ECC?
--
Marcin
-
9. Data: 2022-10-09 13:06:06
Temat: Re: Asus PRIME X370-PRO i 5-5600X
Od: pioruns <w...@c...pl>
On Sun, 09 Oct 2022 03:11:36 GMT, Marcin Debowski wrote:
> L3 cache to są pamięci ECC?
Tak, wewnetrzna pamiec w CPU L1, L2 i L3 jest ECC. Jak widac ladnie Ci
wykrywa bledy pamieci L3. I nastepuje restart bo dane zostaly utracone.
Nie ma co zmniejszac TDP czy bawic sie ustawieniami, bo nowy proc na
gwarancji ma dzialac na default ustawieniach, za to zaplaciles.
Jesli masz mozliwosc, to sprawdz jeszcze na innej plycie i zasilaczu czy
wszystko tak samo. Ale juz mowiles ze proc 3600X dzialal na tej samej
plycie, a wiec plyta raczej dobra. A wiec CPU do reklamacji.
--
pozdrawiam, pioruns
_,.-'~'-.,__,.-'~'-.,__,.-'~'-.,__,.
Registered Linux User #454644
-
10. Data: 2022-10-09 15:10:41
Temat: Re: Asus PRIME X370-PRO i 5-5600X
Od: marrgol <m...@a...invalid>
On 09/10/2022 at 05.11, Marcin Debowski wrote:
> Zmiana mikrokodu, nie mam o tyle przekonania, że restartuje jak dziki
> także pod windows, więc coś musi być gdzieindziej też na rzeczy.
Właśnie dlatego pomyślałem o mikrokodzie, że wywala się w różnych
OS-ach. Mikrokod może być tu właśnie tą częścią wspólną, bo nie
jest specyficzny dla systemu operacyjnego, tylko dla procesora.
System może tylko uaktualniać lub nie kod zaszyty w procesorze
lub załadowany do niego przez BIOS. Nie wiem, czy Windows to robi
czy nie (jeśli nie, to wygląda na to, że jest do tego narzędzie od
VMware: https://flings.vmware.com/vmware-cpu-microcode-updat
e-driver),
ale jeśli nie, to procek pod Windows może pracować nawet ze starszą
wersją mikrokodu, niż pod linuxem. A sprawdzenie pod linuxem, czy
najnowsza wersja pomaga, czy nie, jest banalnie proste -- wystarczy
wrzucić pliki .bin stąd (jednak nie trzeba ściągać całego archiwum,
jak napisałem wcześniej):
https://git.kernel.org/pub/scm/linux/kernel/git/firm
ware/linux-firmware.git/plain/amd-ucode
do katalogu /lib/firmware/amd-ucode i zrestartować system (być może
jeszcze najpierw wygenerować nowy initrd/initramfs, bo nie wiem,
w którym momencie Mint ładuje mikrokod).
I jeszcze taki cytat motywujący do zrobienia tego testu ;-) (wprawdzie
z readme do mikrokodów od Intela, ale to bez różnicy):
,,## Why update the microcode?
Updating your microcode can help to mitigate certain potential security
vulnerabilities in CPUs as well as address certain functional issues
that could, for example, result in unpredictable system behavior such
as hangs, crashes, unexpected reboots, data errors, etc."
--
mrg