-
11. Data: 2020-10-14 21:58:50
Temat: Re: Ryzen 7 1700 + ECC RAM
Od: JaceK <JaceK@wu_pe.pe_el>
On 14.10.2020 21:27, pioruns wrote:
> Na końcu artykułu występuje jest podobne zjawisko jak opisane przez
> Ciebie - ale tutaj jest błąd, którego nie naprawia pamięć ECC, bo ponad
> dwa bity błędu. Nawet serwerowa platforma z 100% zaimplementowanym ECC
> tego nie naprawi. Jedyne co to można mieć żal do systemu operacyjnego,
> że od razu nie walnął BSODa, ale to chyba wina systemu. Zresztą można
> łatwo napisać narzędzie aby robiło od razu reset po wykryciu takiego
> błędu jak komuś bardzo zależy.
>
Możliwe, że to ten artykuł. Ale 2 bitowa korekcja chyba jest możliwa.
Implementowana jest przez niektórych producentów, niestety.
https://www.reddit.com/r/Amd/comments/bsszwg/ecc_ryz
en_and_2bit_errors/
"Asrock is the only manufacturer that has enabled 2-bit error detection
on Ryzen (edit) on all of their boards"
U mnie dmidecode daje taki wynik:
Physical Memory Array
Location: System Board Or Motherboard
Use: System Memory
Error Correction Type: Multi-bit ECC <--
Maximum Capacity: 128 GB
Error Information Handle: Not Provided
Number Of Devices: 2
-
12. Data: 2020-10-14 22:34:30
Temat: Re: Ryzen 7 1700 + ECC RAM
Od: pioruns <w...@w...com>
On 14/10/2020 20:58, JaceK wrote:
> Możliwe, że to ten artykuł. Ale 2 bitowa korekcja chyba jest możliwa.
> Implementowana jest przez niektórych producentów, niestety.
>
> https://www.reddit.com/r/Amd/comments/bsszwg/ecc_ryz
en_and_2bit_errors/
>
> "Asrock is the only manufacturer that has enabled 2-bit error detection
> on Ryzen (edit) on all of their boards"
>
> U mnie dmidecode daje taki wynik:
>
> Physical Memory Array
> Location: System Board Or Motherboard
> Use: System Memory
> Error Correction Type: Multi-bit ECC <--
> Maximum Capacity: 128 GB
> Error Information Handle: Not Provided
> Number Of Devices: 2
Super.
A masz Reg czy Unbuffered?
Ciekawe jak u mnie będzie chodziło :)
--
pozdrawiam, pioruns
_,.-'~'-.,__,.-'~'-.,__,.-'~'-.,__,.
Registered Linux User #454644
-
13. Data: 2020-10-14 22:42:52
Temat: Re: Ryzen 7 1700 + ECC RAM
Od: JaceK <JaceK@wu_pe.pe_el>
On 14.10.2020 22:34, pioruns wrote:
> A masz Reg czy Unbuffered?
>
> Ciekawe jak u mnie będzie chodziło :)
Unbuffered w parze z Xeonem. Nie zdecydowałem się na Ryzena jeszcze, ale
śledzę temat.
JaceK
-
14. Data: 2020-10-16 02:10:16
Temat: Re: Ryzen 7 1700 + ECC RAM
Od: Marcin Debowski <a...@I...zoho.com>
On 2020-10-14, pioruns <w...@w...com> wrote:
> On 14/10/2020 00:26, Marcin Debowski wrote:
>> Nie mogę tam wleźć, bo str. uważa, że ją atakuję :)
>> A nie masz możliwość zakupu tech kości aby sprawdzić i jeśli nie działają,
>> zwrócić?
>
> Właśnie tak zrobiłem. Zakupiłem jedną kość 16GB 2666MHz DDR4 ECC CL19
> DIMM marki Kingston Server Premier:
> https://www.ebuyer.com/834676-kingston-server-premie
r-ksm26ed8-16me-16gb-2666mhz-ddr4-ecc-cl19-dimm-ksm2
6ed8-16me
>
> Zobaczymy jak przyjdzie, czy działa :)
Też jestem ciekaw :)
>> ECC są generalnie bardzo drogie. Chyba mimo wszystko próbowałbym to
>> jakoś ogarnąć programowo. Nie wiem, zrobić automatyczne tworzenie plików
>> par2 z bardzo niską redundancją (0.1-0.5%) z okresowym spradzaniem?
>
> A możesz przybliżyć co masz na myśli z tworzeniem tych plików, dokładniej?
Jakiś skrypt, który skanuje dyski, jeśli znajdzie nowy plik to zapuszcza
par2 i robi plik korekcyjny. Wczesniej oczywiście sprawdza czy ten już
nie istnieje. Jak potem stwierdzisz uszkodzenie to będzie łatwo
odtworzyć. Miejsca przy niskiej redundancji tez to nie zajmie.
> Wyczerpały mi się pomysły, dlatego wziąłem się za pamięć ECC, bo serwer
> chodzi 24/7, to fakt. A dane odnośnie statystycznej ilości bitów
> uszkodzonych na miesiąc na 1 GB zwykłego RAM mnie powalił. Dalej myślę,
> czy to czasem nie dyski, czy kontroler czy coś. Przykładowo, jeden z
> dysków raportuje się tak:
>
> Model Family: Seagate Barracuda 3.5
> Device Model: ST2000DM006-2DM164
> Serial Number: Z4Z9VCVN
> LU WWN Device Id: 5 000c50 0a5def0ef
> Firmware Version: CC26
> User Capacity: 2,000,398,934,016 bytes [2.00 TB]
> Sector Sizes: 512 bytes logical, 4096 bytes physical
> Rotation Rate: 7200 rpm
> Form Factor: 3.5 inches
> Device is: In smartctl database [for details use: -P show]
> ATA Version is: ACS-2, ACS-3 T13/2161-D revision 3b
> SATA Version is: SATA 3.1, 6.0 Gb/s (current: 6.0 Gb/s)
>
> ID# ATTRIBUTE_NAME: RAW_VALUE
> 1 Raw_Read_Error_Rate: 125205888
> 7 Seek_Error_Rate: 1829851896660
E, chyba się zgubiłem, to powyższe nie wygląda jak prawie padły dysk?
Moja 1TB Toshiba 2.5" z 2x dłuższym godzinowo przebiegiem ma tu 2x 0.
Też pracuje w serwerze 24/7, ram zwykły.
> 9 Power_On_Hours: 14599
> 240 Head_Flying_Hours: 11119h+37m+20.737s
> 241 Total_LBAs_Written: 226553923475
> 242 Total_LBAs_Read: 464637728080
> Nie wiem jak czytać "Total_LBAs_Written" i "Total_LBAs_Read", ale jeśli
> przyjąć, że LBA to 512 bajtów, to dyski zapisują 36 TB na rok i czytają
> 283 TB na rok, po przeliczeniu ile pracowały. A mają po 2 TB pojemności.
> Gdyby to były SSD to już by się dawno zajechały, mam wrażenie :)
Przyjmując rozmiar sektora 512 powyższe oznacza że w ciągu 14599h
zapisano ca 100TB. Wychodzi ca 2.1MB/s. Przyjmując dalej, że
nieuśredniona prędkość zapisu była w granicach 70MB/s, oznacza to, że w
ciągu roku dysk zapisywał 12 dni więc te dane dla błędów RAMu należałoby
przemnożyć przez 12 i podzielić przez 365.
To tego jeszcze operacje dyskowe nie korzystają z pełnego RAM, a zapewne
z jakiejś niewielkiej jego częsci, więc to się też tak nie przekłada, że
czym masz więcej ramu, tym większe prawdopodobieństwo błędu na dysku a
jest to raczej proporcjonalne do statystycznej zajętości RAMu przez
jakiś dyskowy cache czy inny bufor wykorzystywany do zapisu. To są
pewnie dziesiątki-setki MB niż GB, więc i prawdopodobieństwo, że
dziabnie taki fragment jest pomniejszoneo dalszy rząd wielkości.
Czyli przy 1bit/miesiac/1GB wychodzi mi pi x drzwi, ze powinieneś mieć z
tego błędów na dysku w granicach 1 bit na 30 lat.
--
Marcin
-
15. Data: 2020-10-16 02:17:41
Temat: Re: Ryzen 7 1700 maks temperatura
Od: Marcin Debowski <a...@I...zoho.com>
Podepne się z jednym pytaniem, bo połowa jest sprzętowo w temacie.
Jest coś dziwnego z tym cpu jeśli chodzi o dane dotyczące maks.
temperatury. Google, praktycznie jednomyślnie podaje 75C. Większość ze
stron, które tak podają jest z okolic 2017. Natomiast na str. AMD stoi
jak wół, że 95C. O co tu chodzi? Są jakieś różne wersje tego cpu, które się
tak drastycznie różnią, czy też AMD się wczesniej zabezpieczał?
--
Marcin
-
16. Data: 2020-10-16 13:33:43
Temat: Re: Ryzen 7 1700 + ECC RAM
Od: pioruns <w...@w...com>
On 16/10/2020 01:10, Marcin Debowski wrote:
>> ID# ATTRIBUTE_NAME: RAW_VALUE
>> 1 Raw_Read_Error_Rate: 125205888
>> 7 Seek_Error_Rate: 1829851896660
> E, chyba się zgubiłem, to powyższe nie wygląda jak prawie padły dysk?
>
> Moja 1TB Toshiba 2.5" z 2x dłuższym godzinowo przebiegiem ma tu 2x 0.
> Też pracuje w serwerze 24/7, ram zwykły.
>
Każdy producent inaczej pokazuje Error Rates. Niektóre dyski nie
pokazują tu nic, zero, a niektóre miliony korekcji, bo każdy kontroler
co innego uznaje jako "błąd".
--
pozdrawiam, pioruns
_,.-'~'-.,__,.-'~'-.,__,.-'~'-.,__,.
Registered Linux User #454644
-
17. Data: 2020-10-16 13:39:45
Temat: Re: Ryzen 7 1700 maks temperatura
Od: pioruns <w...@w...com>
On 16/10/2020 01:17, Marcin Debowski wrote:
> Podepne się z jednym pytaniem, bo połowa jest sprzętowo w temacie.
>
> Jest coś dziwnego z tym cpu jeśli chodzi o dane dotyczące maks.
> temperatury. Google, praktycznie jednomyślnie podaje 75C. Większość ze
> stron, które tak podają jest z okolic 2017. Natomiast na str. AMD stoi
> jak wół, że 95C. O co tu chodzi? Są jakieś różne wersje tego cpu, które się
> tak drastycznie różnią, czy też AMD się wczesniej zabezpieczał?
>
Różnica 20 C wynika z offsetu +20 C, który nadal AMD sensorom tCTL w
tych procesorach. Czyli, podają one o 20C gorętszą temperaturę niż jest
w rzeczywistości.
Wyjaśnienie:
https://www.guru3d.com/news-story/amd-ryzen-7-have-a
-temperature-20-degree-c-reporting-offset.html
Niektóre narzędzia dla Windows podają temperaturą jaką serwuje procesor
(błędną, wyższą o 20C), a niektóre już przeliczają z offsetem i podają
prawidłową, fizyczną temperaturę, niższą o 20C. Dlatego też potem wyniki
na internecie się tak różnią.
Odpal PC z stanu uśpienia (niech stoi parę godzin aby był zimny), miej
już otwarte wszelakie narzędzia pomiarowe na ekranie, zobacz jakie są
temperatury od zimnego. Na starcie powinno być 20C czy praktycznie tyle
co temperatura otoczenia. W ten sposób znajdziesz narzędzia, które
pokazują z offsetem i bez offsetu.
--
pozdrawiam, pioruns
_,.-'~'-.,__,.-'~'-.,__,.-'~'-.,__,.
Registered Linux User #454644
-
18. Data: 2020-10-16 13:46:34
Temat: Re: Ryzen 7 1700 + ECC RAM
Od: pioruns <w...@w...com>
On 16/10/2020 01:10, Marcin Debowski wrote:
>> Właśnie tak zrobiłem. Zakupiłem jedną kość 16GB 2666MHz DDR4 ECC CL19
>> DIMM marki Kingston Server Premier:
>> https://www.ebuyer.com/834676-kingston-server-premie
r-ksm26ed8-16me-16gb-2666mhz-ddr4-ecc-cl19-dimm-ksm2
6ed8-16me
>>
>> Zobaczymy jak przyjdzie, czy działa :)
>
> Też jestem ciekaw :)
Kostka 16GB dzisiaj przyszła. Będę testował, najpierw w desktopie (też
AM4 + Ryzen), a potem w serwerze :)
>>> ECC są generalnie bardzo drogie. Chyba mimo wszystko próbowałbym to
>>> jakoś ogarnąć programowo. Nie wiem, zrobić automatyczne tworzenie plików
>>> par2 z bardzo niską redundancją (0.1-0.5%) z okresowym spradzaniem?
>>
>> A możesz przybliżyć co masz na myśli z tworzeniem tych plików, dokładniej?
>
> Jakiś skrypt, który skanuje dyski, jeśli znajdzie nowy plik to zapuszcza
> par2 i robi plik korekcyjny. Wczesniej oczywiście sprawdza czy ten już
> nie istnieje. Jak potem stwierdzisz uszkodzenie to będzie łatwo
> odtworzyć. Miejsca przy niskiej redundancji tez to nie zajmie.
Fajne narzędzie ten parchive, obczaję :) Przyda się do backupów może.
Ale, Btrfs nie robi czegoś podobnego domyślnie? On porównuje zapisy na
obu dyskach w swoim "raid1" i patrzy, czy wszystkie pliki są poprawnie
zapisane. Robi to cały czas. Potrafi odtworzyć plik gdy dane zostaną
uszkodzone, a także pracować z jednym dyskiem z zdegradowanym raidem.
Nie zastąpi to danych nadmiarowych jak w WinRAR czy parchive, czy
macierzy RAID6, ale spójność danych trzyma.
Ma jednak trochę różnic od mdadm. Używam obydwu mdadm i btrfs w trybie
RAID1.
--
pozdrawiam, pioruns
_,.-'~'-.,__,.-'~'-.,__,.-'~'-.,__,.
Registered Linux User #454644
-
19. Data: 2020-10-16 14:00:43
Temat: Re: Ryzen 7 1700 maks temperatura
Od: Marcin Debowski <a...@I...zoho.com>
On 2020-10-16, pioruns <w...@w...com> wrote:
> On 16/10/2020 01:17, Marcin Debowski wrote:
>> Podepne się z jednym pytaniem, bo połowa jest sprzętowo w temacie.
>>
>> Jest coś dziwnego z tym cpu jeśli chodzi o dane dotyczące maks.
>> temperatury. Google, praktycznie jednomyślnie podaje 75C. Większość ze
>> stron, które tak podają jest z okolic 2017. Natomiast na str. AMD stoi
>> jak wół, że 95C. O co tu chodzi? Są jakieś różne wersje tego cpu, które się
>> tak drastycznie różnią, czy też AMD się wczesniej zabezpieczał?
>>
> Różnica 20 C wynika z offsetu +20 C, który nadal AMD sensorom tCTL w
> tych procesorach. Czyli, podają one o 20C gorętszą temperaturę niż jest
> w rzeczywistości.
> Wyjaśnienie:
> https://www.guru3d.com/news-story/amd-ryzen-7-have-a
-temperature-20-degree-c-reporting-offset.html
Ale to jest temperatura bieząca a ja mówię o maksymalnej. Mam rozumiec,
że niektórzy podają 75C z ofsetem?
Swoją drogą seria FX nie informowała o temperaturze, ale był to ofset
właśnie od T maks. Czy oni nie mogą się zdecydować na coś normalnego,
albo przynajmniej być konsekwentni?
> Niektóre narzędzia dla Windows podają temperaturą jaką serwuje procesor
> (błędną, wyższą o 20C), a niektóre już przeliczają z offsetem i podają
> prawidłową, fizyczną temperaturę, niższą o 20C. Dlatego też potem wyniki
> na internecie się tak różnią.
> Odpal PC z stanu uśpienia (niech stoi parę godzin aby był zimny), miej
> już otwarte wszelakie narzędzia pomiarowe na ekranie, zobacz jakie są
> temperatury od zimnego. Na starcie powinno być 20C czy praktycznie tyle
> co temperatura otoczenia. W ten sposób znajdziesz narzędzia, które
> pokazują z offsetem i bez offsetu.
Sprawdzam Asusowym do overclocking (AI Suite 3, płyta Prime X370-PRO, R7
1700 pro). Wydaje się podawać poprawnie. Tylko właśnie nie wiem jaki
maks. Automatyczna optymalizacja doszła do 79C przy zabawie z zegarem i
napięciami, więc w sumie wydaje się to wskazywać na 75C. Tylko, że to
jest MZ temperatura rzeczywistą, więc dlaczego AMD podaje 95C?
--
Marcin
-
20. Data: 2020-10-16 14:07:40
Temat: Re: Ryzen 7 1700 maks temperatura
Od: pioruns <w...@w...com>
On 16/10/2020 13:00, Marcin Debowski wrote:
> On 2020-10-16, pioruns <w...@w...com> wrote:
>> On 16/10/2020 01:17, Marcin Debowski wrote:
>>> Podepne się z jednym pytaniem, bo połowa jest sprzętowo w temacie.
>>>
>>> Jest coś dziwnego z tym cpu jeśli chodzi o dane dotyczące maks.
>>> temperatury. Google, praktycznie jednomyślnie podaje 75C. Większość ze
>>> stron, które tak podają jest z okolic 2017. Natomiast na str. AMD stoi
>>> jak wół, że 95C. O co tu chodzi? Są jakieś różne wersje tego cpu, które się
>>> tak drastycznie różnią, czy też AMD się wczesniej zabezpieczał?
>>>
>> Różnica 20 C wynika z offsetu +20 C, który nadal AMD sensorom tCTL w
>> tych procesorach. Czyli, podają one o 20C gorętszą temperaturę niż jest
>> w rzeczywistości.
>> Wyjaśnienie:
>> https://www.guru3d.com/news-story/amd-ryzen-7-have-a
-temperature-20-degree-c-reporting-offset.html
>
> Ale to jest temperatura bieząca a ja mówię o maksymalnej. Mam rozumiec,
> że niektórzy podają 75C z ofsetem?
Heh, no tak, mój błąd! Powinienem na przykładzie temp. max. to opisać.
Ale temp. max. ma taki sam offet jak temperatura aktualna.
>
> Swoją drogą seria FX nie informowała o temperaturze, ale był to ofset
> właśnie od T maks. Czy oni nie mogą się zdecydować na coś normalnego,
> albo przynajmniej być konsekwentni?
>
>> Niektóre narzędzia dla Windows podają temperaturą jaką serwuje procesor
>> (błędną, wyższą o 20C), a niektóre już przeliczają z offsetem i podają
>> prawidłową, fizyczną temperaturę, niższą o 20C. Dlatego też potem wyniki
>> na internecie się tak różnią.
>> Odpal PC z stanu uśpienia (niech stoi parę godzin aby był zimny), miej
>> już otwarte wszelakie narzędzia pomiarowe na ekranie, zobacz jakie są
>> temperatury od zimnego. Na starcie powinno być 20C czy praktycznie tyle
>> co temperatura otoczenia. W ten sposób znajdziesz narzędzia, które
>> pokazują z offsetem i bez offsetu.
>
> Sprawdzam Asusowym do overclocking (AI Suite 3, płyta Prime X370-PRO, R7
> 1700 pro). Wydaje się podawać poprawnie. Tylko właśnie nie wiem jaki
> maks. Automatyczna optymalizacja doszła do 79C przy zabawie z zegarem i
> napięciami, więc w sumie wydaje się to wskazywać na 75C. Tylko, że to
> jest MZ temperatura rzeczywistą, więc dlaczego AMD podaje 95C?
>
Moja interpretacja: (zgaduję)
Jak czytasz bezpośrednio z płyty głównej/BIOSu, to masz np. temperaturę
aktualną 60C zamiast 40C, a maksymalną 95C zamiast 75C. Dystans do
maksymalnej masz ten sam, co jakbyś użył narzędzia, które pokazuje 40C
aktualną i 75C maksymalną (czyli prawdziwe temperatury fizyczne).
Też mi się wydaje, że temp. max tych procesorów to 75C czyli (95C prosto
z BIOSu).
Odpal kompa z zimnego to się dowiesz co ten AI Suite 3 pokazuje tak
naprawdę.
Wydaje mi się, że cały ten cyrk jest zrobiony po to, aby ludziom się nie
paliły procki, procek który mówi, że jest 20C gorętszy niż jest w
rzeczywistości włączy sobie throttling szybciej i się nie zniszczy.
--
pozdrawiam, pioruns
_,.-'~'-.,__,.-'~'-.,__,.-'~'-.,__,.
Registered Linux User #454644