-
1. Data: 2014-07-19 22:47:57
Temat: [trochę OT] Petaflopy
Od: Borneq <b...@a...hidden.pl>
Najszybszy obecnie superkomputer świata Tianhe-2 to potwór za 390
milionów dolarów. Ma ponad 3 miliony rdzeni, choć taktowanie 1.1 Ghz to
mniej niż przeciętne Pentium z 3 GHZ, Ma 33,86 PFLOPS, ma 1,34 PB
pamięci i zużywa 24 MW energii.
Ile haszy mógłby obliczyć w procesie tworzenia Bitcoina? Podobno jedno
wyliczenie SHA256 wymaga 6350 operacji na 32 bitowych integerach. Uważa
się że każda taka operacja to dwa flopy*s pojedynczej precyzji, czyli
rzem 12700 flopów. To mi wygląda na przesadę, bo jedna operacja
stałoprzecinkowa to dużo mniej niż zmiennoprzecinkowa, a co dopiero
dwie. Jednak mnożąc Hasz/s przez 12700 i uzyskując flopy okazuje się jak
bardzo szybki jest sprzęt w rodzaju kart graficznych.
Ale od kart dużo szybsze są ASIC. Na przykład ANTMINER S3 -B3 ma
prędkość 478 GH/s czyli wynikało by że 6 petaflopów!
A kosztuje 460 dolarów i zużywa 366 watów, jest i szybszy 1 terahaszowy
AntMiner S2 za 1595 dolarów i zużywający tysiąc watów, jednak ten
mniejszy ma lepszy stosunek prędkości do ceny i zużycia prądu.
Z przelicznika 12700 flops na hasz/s wynikało by że sześć takich modułów
liczyło by szybciej hasz niż Tianhe-2 kosztując 2760 dolarów i zużywając
2.2 kW prądu.
Tylko niestety nadają się do jednego zadania. Układy programowalne FPGA
są dużo wolniejsze. Może w jakiejś przyszłości dało by się połączyć
zalety ASIC i FPGA, które programowało by się błyskawicznie. I zamiast
pisać program umieszczany w pamięci, który wykonywała by jednostka
centralna, przeprogramowywały by się kości do równoległego wykonania
zadania. Zrównoleglenie było by sposobem na przyśpieszenie kiedy już nie
dało by się podnieść prędkości taktowania znacznie wyżej niż obecne
typowe 3 GHz.
-
2. Data: 2014-07-20 00:11:15
Temat: Re: [trochę OT] Petaflopy
Od: firr <p...@g...com>
1 GHz z tego co wiem jest wydajniejszy
energetycznie dlatego GPu zdaje sie pracuja typowo z predkosciami okolo 1 GHz (nie
wiem dokladnie)
Ciekawe w sumie w jaka strone pojdzie dalszy rozwoj hardwaru, rozwoj klasycznych
prockow (x86) zestopowal ale, kompy potrzebuja ciagle roznac w moc i pewnie jednak
wlasnie beda rozly tylko moze beda budowane jakies nowe architektury, to co w sumie
robi gpu nie jset takie glupie, taki uklad cpu+gpu jest wlasnie nawet dosyc naturalny
- typowy proram potrzebuje swobodnego 1-watkowego swobodnego wykonywacza (tak jak na
cpu) plus czegost takiego jak gpu do parallenego przetwarzania hotspotów (ktore sa
petlami) - czyli ze zdziwiniem zauwazam
ze uklad cpu+gpu jest dosyc naturalny i ze to w gpu
trzeba pewnie pokladac wieksza nadzieje na przyspieszanie progsow niz w multi-cpu
zgodnie z ta wizja wlasciwie kazdy program powinno sie pisac pod pare cpu (wiekszosc
kodu programu) + gpu (hotspoty, wiekszosc runtime)
-
3. Data: 2014-07-21 19:31:18
Temat: Re: [trochę OT] Petaflopy
Od: firr <p...@g...com>
ps co do zwyklych pecetóf to operuja one w skali gigafloatów (kiedys juz byla o tym
mowa tj podawalem
swoje oszacowania ile to moze byc, nawet juz nie pamietam ile to wychodzilo, ale moje
obecne oszacowania
CPU
"memory bandwidth" - 1-2 GigaFlopa, podobno dla danych w cache to moze byc 6x
szybciej ale ja tego nie
obserwowalem, dominujacy czynnik to jest ta zwykla wartosc
"prosta arytmetyka" - tutaj w zasadzie nie wiem dokladnie ale z czytanych jakichs tam
benchmarkow
i z wlasnych oszacowan wynikalo by ze jest to okolo
2 gigaflopa dla kody skalarnego i ok 6 Gigaflopow
dla sse (na rdzeń) - nie sa to do konca pewne dla mnie wartosci ale chyba dosyc
rozsadne w realnym kodzie pewnie mozna osciagnac jakies wyniki pod to podchodzace
(czyli mozn anp ze 4 razy gorsze)
GPU
gpu sa podobno rozne i te slabsze 'na rynku' sa chyba kilkukrotnie slabsze niz te
mocniejsze
"memory bandwith" podobno gpu maja wiekszą wewnetrzna 'memory bandwidth' jesli chodzi
o ich wewnetrzny vram (za to te przesylowa ram->vram podobno jest mw taka sama lub
nawet ciut wolniejsza niz ta typowa dla ram i cpu - acz tego nie jestem pewiem ale
ponoc) - zalezy chyba od karty ale np dla
mocniejszej karty jest to np 30 Gigaflopow (czyli kilkanascie razy wiecej)
"prosta arytmatyka" - zalezy od karty ale podobno moze siegac tak ze 400 Gigaflopow
(moze to jest troche przesadzone ale podobno) Porownywanie ze
skalarnym rczeniem dawalo by 200x wieksza moc,
z sse tak z 70x wieksza moc, z 8 rdzeniami z sse
10 x wieksza moc (moze to jest i realistyczne
ale to jest dla mocnej karty, pewnie ta ktora ja mam jest akurat z 10 razy slabsza)
podsumowujac
cpu 1-2 GF mem /2-6 x cores, GF arithmetic
gpu 3?-30? GF mem / 40? - 400? GF arithmetic
sa to dane z roznych opinie w necie i troche z
moich testow jesli chodzi o cpu (te dane dot
gpu moga byc troche niepewne) ale z grubsza
jakos tak to chyba musi wygladac
w jeszcze wiekszym skrócie cpu mem 1-2 GFloata
cpu arithmetic 5 GFloatow na rdzen, gpu kilka do
30 razy lepiej niz cpu (z tym tez ze podobno
moc gpu szybko spada dla troche bardziej trudnych i rozgalezionych kerneli)
(nie sa to dokladne dane ale chodzi o to by miec jakies wyobrazenie
-
4. Data: 2014-07-21 20:17:13
Temat: Re: [trochę OT] Petaflopy
Od: Edek <e...@g...com>
Szarym od mżawki świtem Mon, 21 Jul 2014 10:31:18 -0700, firr wyrzucił
pustą ćwiartkę i oznajmił:
> ps co do zwyklych pecetóf to operuja one w skali gigafloatów (kiedys juz byla o tym
mowa tj podawalem
> swoje oszacowania ile to moze byc, nawet juz nie pamietam ile to wychodzilo, ale
moje obecne oszacowania
>
> CPU
>
> "memory bandwidth" - 1-2 GigaFlopa, podobno dla danych w cache to moze byc 6x
szybciej ale ja tego nie
> obserwowalem, dominujacy czynnik to jest ta zwykla wartosc
> "prosta arytmetyka" - tutaj w zasadzie nie wiem dokladnie ale z czytanych jakichs
tam benchmarkow
> i z wlasnych oszacowan wynikalo by ze jest to okolo
> 2 gigaflopa dla kody skalarnego i ok 6 Gigaflopow
> dla sse (na rdzeń) - nie sa to do konca pewne dla mnie wartosci ale chyba dosyc
rozsadne w realnym kodzie pewnie mozna osciagnac jakies wyniki pod to podchodzace
(czyli mozn anp ze 4 razy gorsze)
>
> GPU
>
> gpu sa podobno rozne i te slabsze 'na rynku' sa chyba kilkukrotnie slabsze niz te
mocniejsze
>
> "memory bandwith" podobno gpu maja wiekszą wewnetrzna 'memory bandwidth' jesli
chodzi o ich wewnetrzny vram (za to te przesylowa ram->vram podobno jest mw taka sama
lub nawet ciut wolniejsza niz ta typowa dla ram i cpu - acz tego nie jestem pewiem
ale ponoc) - zalezy chyba od karty ale np dla
> mocniejszej karty jest to np 30 Gigaflopow (czyli kilkanascie razy wiecej)
>
> "prosta arytmatyka" - zalezy od karty ale podobno moze siegac tak ze 400 Gigaflopow
(moze to jest troche przesadzone ale podobno) Porownywanie ze
> skalarnym rczeniem dawalo by 200x wieksza moc,
> z sse tak z 70x wieksza moc, z 8 rdzeniami z sse
> 10 x wieksza moc (moze to jest i realistyczne
> ale to jest dla mocnej karty, pewnie ta ktora ja mam jest akurat z 10 razy slabsza)
>
> podsumowujac
> cpu 1-2 GF mem /2-6 x cores, GF arithmetic
> gpu 3?-30? GF mem / 40? - 400? GF arithmetic
>
> sa to dane z roznych opinie w necie i troche z
> moich testow jesli chodzi o cpu (te dane dot
> gpu moga byc troche niepewne) ale z grubsza
> jakos tak to chyba musi wygladac
>
> w jeszcze wiekszym skrócie cpu mem 1-2 GFloata
> cpu arithmetic 5 GFloatow na rdzen, gpu kilka do
> 30 razy lepiej niz cpu (z tym tez ze podobno
> moc gpu szybko spada dla troche bardziej trudnych i rozgalezionych kerneli)
>
> (nie sa to dokladne dane ale chodzi o to by miec jakies wyobrazenie
Topowe:
330 GB/s RAM, jakieś 70 razy tyle pamięć na GPU. 5 TFlopów single precision.
http://en.wikipedia.org/wiki/List_of_Nvidia_graphics
_processing_units#GeForce_700_Series
http://en.wikipedia.org/wiki/List_of_Nvidia_graphics
_processing_units#Tesla
Wybrane:
GTX 650 Ti: 1.4 TFlopa, 80GB/s, 110W, jakieś 6 stówek czyli mniej niż porównywalne
cpu.
Oczywiście to są idealne dane, w real life ma się jakieś 70-90% przepustowości,
zależnie od możliwości algorytmu może być dużo mniej. Najwolniejsze jest kopiowanie
po PCIe.
Poza tym nie wiem skąd masz dane o cpu, wyglądają antycznie albo laptopowo żeby nie
powiedzieć kosmicznie.
--
Edek
-
5. Data: 2014-07-21 22:40:53
Temat: Re: [trochę OT] Petaflopy
Od: firr <p...@g...com>
z tymi 'informacjami' to moge dodac jest tak ze sa chyba dwa rodzaje owych
'informacji'
- wyidealizowane 'przemnozenia' czynnikow np jesli wciac procesor z avx i 4 rdzenie z
HT do tego 3 GHz
to z takiego przemnozenia wynika 8*8*3 = 192 GFlopy
(takie informacje niestety podaja zwykle w wiki czy gdzies)
- tez wyidealizowane ale przynajmniej realne benchmarki, cos w stylu np
mov ecx, 100*1000*1000
loop:
addps xmm0, xmm1
addps xmm0, xmm1
addps xmm0, xmm1
addps xmm0, xmm1
addps xmm0, xmm1
addps xmm0, xmm1
addps xmm0, xmm1
addps xmm0, xmm1
addps xmm0, xmm1
addps xmm0, xmm1
dec ecx
jnz loop
cos w tym stylu, ciekawe czy jakby to puscic realnie na tym kompie wspomianym powyzej
w 8 egzemplarzach na 8 watkach to by osiagnelo 192 GFlopy (mnemonik dla avx jest co
prawda jakis inny ale nie pamietam
alno jesli nie to czy cokolwiek realnego zdolnebybylo to osiagnac (przynakmniej cpu
wiem jak dziala a z testowaniem gpu jest deczko wieksza niewiadoma choc niby jest
podobnie, tez asm tyle ze w 'kernelach'
-
6. Data: 2014-07-22 03:01:14
Temat: Re: [trochę OT] Petaflopy
Od: firr <p...@g...com>
jeszcze z ciekawostek link nt wydajnosci starszych pecetów
http://www.roylongbottom.org.uk/linpack%20results.ht
m
jakis czas temu tez bylo juz to poruszane gdy szukalem info ile razy wolniejszy byl
386 25MHz
od obecnego mojego kompa (wyszlo o ile pamietam 30x30 = ok 900 razy, w srodku gdzies
tak chyba z pentium 200MHz)
Double Precision 100x100 compiled at 32 bits
Opt No opt
CPU MHz MFLOPS MFLOPS
AMD 80386 40 0.53 0.36
80486 DX2 66 2.63 1.74
AMD 5X86 100 3.34 2.24
Pentium 75 7.56 4.04
Cyrix P150 120 10.08 8.75
Cyrix PP166 133 11.53 8.33
Pentium 100 12.07 5.40
IBM 6x86 150 12.87 8.29
Pentium 133 17.05 5.60
Pentium 166 19.89 6.86
Cyrix PR233 188 19.98 11.88
Pentium 200 22.80 8.10
AMD K6 200 22.84 11.39
Pentium MMX 200 23.53 8.75
AMD K62 500 45.79 26.44
Pentium II 300 47.74 18.25
Pentium Pro 200 48.50 10.72
Pentium III 450 61.52 26.51
Pentium II 450 61.56 26.47
Apple G3 700 63.30 28.58
AMD K63 450 65.20 28.55
Celeron A 300 79.65 19.24
Pentium III 600 84.18 35.81
Celeron A 450 119.59 28.84
Athlon 500 180.79 39.70
Atom 1600 183.01 89.19
Pentium IIIE 600 185.22 59.43
Duron 600 225.06 34.81
Pentium III 1000 316.67 55.52
Athlon Tbird 1000 372.69 81.11
Duron 1000 374.05 57.88
PIII Tualatin 1200 380.08 128.79
Pentium 4 1700 382.00 131.59
Pentium 4 1900 533.93 107.17
Celeron M 1295 539.76 123.59
Athlon 4 1600 585.74 103.42
P4 Xeon 2200 599.24 123.69
Pentium 4E 3000 630.30 165.01
Ath4 Barton 1800 659.57 117.29
Turion 64 M 1900 697.32 123.69
Opteron 1991 753.08 131.89
Athlon XP 2080 764.03 136.05
Pentium M 1862 834.29 181.05
Pentium 4 3066 840.27 174.64
Athlon XP 2338 859.43 153.21
Athlon 64 2150 811.86 142.80
Athlon 64 2211 838.22 145.60
Core 2 Duo M 1830 997.68 111.41
Pentium 4 3678 1017.01 209.01
Core i5 2467M @@@@ 1064.70 315.46
Celeron C2 M 2000 1092.56 121.25
Core 2 Duo 1 CP 2400 1315.42 195.13
Phenom II 3000 1412.83 244.43
Core i7 930 **** 1764.75 428.00
Core i7 860 #### 2004.31 381.97
Core i7 3930K &&&& 2529.73 746.01
Core i7 4820K $$$1 2671.15 892.04
Core i7 4820K $$$2 2684.05 895.54
Core i7 3930K OC 3112.94 926.92
tutaj core2d wyszlo 1.3 GFloata ale jako ze jest to dla doulbe i chyba bardziej
realistyczny benchmark dosyc dobrze zgadza sie z oszacowaniami
(co prawda tam nizej jest wersja na sse i tylko 1.5 GFloata ale chyba widocznie jest
to wobec tego ograniczone przez przesył ramu)
i7 z jednej strony (az) dwa razy szybszy p4 z drugiej strony dwa razy wolniejszy -
wydaje mi sie ze od p4 mozna liczych chyba moment gdy
kompy zwlnily ten galopujacy rozwój, bo wczesniej ponizej p4 te predkosci spadaja na
leb na szyje,
p3 juz ma jakies wyjatkowo wolne egzemplarze,
pentium 100 MHz ktory kiedys posiadalem (byla to wyjatkowo kiepska maszyna) jedynie
12 Mflopow (kpina), 486 jedynie 3 MFlopy tez kpina, 385 pól Megaflopa, kpina
- w sumie ten wykres daje pewne dobre wyobrazenie co do mocy kompow, takiego czegos
poniekad szukałem; nalezaloby mi sie jeszcze troche nauczyc testowac moce gpu i
wyrobic takie same
wrazenia na temat tychże, ale to troszke trudniejsze
-
7. Data: 2014-07-22 09:35:02
Temat: Re: [trochę OT] Petaflopy
Od: Borneq <b...@a...hidden.pl>
W dniu 2014-07-22 03:01, firr pisze:
> jakis czas temu tez bylo juz to poruszane gdy szukalem info ile razy wolniejszy byl
386 25MHz
> od obecnego mojego kompa (wyszlo o ile pamietam 30x30 = ok 900 razy, w srodku
gdzies tak chyba z pentium 200MHz)
Zwłaszcza na liczbach zmiennoprzecinkowych, bo nie było koprocesora.
Pamiętam artykuł żółw, rower, rakieta
http://www.grush.one.pl/?issue=komputer.7.87&article
=rakieta
Okazuje się że współczesne komputery prześcigły w tych obliczeniach
tamtego Craya. 486 DX to był szał, gdy był już wbudowany koprocesor.
Operacje zaszyte w krzemie jak obliczenia koprocesora wykonywane są
znacznie szybciej niż program. Można by pomyśleć czy dobrze nie było by
mieć komputera hybrydowego, gdzie jedna część normalnie wykonuje
operacje z pamięci a druga to komputer rekonfigurowalny czy tzw
antykomputer - programowało by się bramki do konkretnego zadania.
Niestety, przynajmniej na chwilę obecną programowalne FPGA są znacznie
wolniejsze niż ASIC stworzone do konkretnego zadania. ASIC mają potworną
prędkość ale potrafią wykonywać tylko jedną rzecz.
-
8. Data: 2014-07-22 10:03:23
Temat: Re: [trochę OT] Petaflopy
Od: A.L. <a...@a...com>
On Tue, 22 Jul 2014 09:35:02 +0200, Borneq <b...@a...hidden.pl>
wrote:
>znacznie szybciej niż program. Można by pomyśleć czy dobrze nie było by
>mieć komputera hybrydowego, gdzie jedna część normalnie wykonuje
>operacje z pamięci a druga to komputer rekonfigurowalny czy tzw
>antykomputer - programowało by się bramki do konkretnego zadania.
>Niestety, przynajmniej na chwilę obecną programowalne FPGA są znacznie
>wolniejsze niż ASIC stworzone do konkretnego zadania. ASIC mają potworną
>prędkość ale potrafią wykonywać tylko jedną rzecz.
To juz w zasadzie bylo,
Przykaldem - komputer UMC-1 produkcji Politechniki Warszawskiej. W tym
komputerze posczegolne bity slowa adresowego kontrolowaly bezposrednio
bramki sterujace przeplywem danych. Komputer nie mial listy rozkazow w
klasycznym sensie. Umozliwialo to pisanie bardzo krotkich programow
robiacych calkiem skomplikowane rzeczy.
Koncepcja komputerow rekonfigurowalnych odzywala co jakis czas,
niestety wyladowala na smietniku.
Koncepcja kompilacji programow 'do krzemu" zajmowal sie Wirth (ten od
Pascala)
http://intranet.deei.fct.ualg.pt/IHS/Papers/Wirth98.
pdf
A.L.
-
9. Data: 2014-07-24 12:39:29
Temat: Re: [trochę OT] Petaflopy
Od: firr <p...@g...com>
W dniu poniedziałek, 21 lipca 2014 22:40:53 UTC+2 użytkownik firr napisał:
> z tymi 'informacjami' to moge dodac jest tak ze sa chyba dwa rodzaje owych
'informacji'
>
> - wyidealizowane 'przemnozenia' czynnikow np jesli wciac procesor z avx i 4 rdzenie
z HT do tego 3 GHz
>
> to z takiego przemnozenia wynika 8*8*3 = 192 GFlopy
>
w sumie najwiekszy problem tutaj jest z tym hyperthreadingiem, podobno to dziala
jedynie jesli
rdzenie maja duzo przestojow (tutaj nie mialoby to wogole miejsca wiec to nie daje
nic) a nawet wtedy gdy sa te przestoje to nie daje nigdy 2x, ciekawe czy to daje
chocby 1.5X nie mam pojecia
za to okazalo sie ze podobo haswell potrafi wykonywac dwie avx owe instrukcje w
jednym cyklu
co wiecej sa to miesznae mull i add, czyli
4 rdzenie * (float8 * 2 w cyklu * mull-add) * 2.5GHz
= 320 GFloat
mozna sobie wyobrazic ile to bedzie (by bylo) gdy intel wypusci 8 rdzeniaka z avx-512
-> 1280 GFLOAT
to by bylo duzo, tylko nieststy teraz wypada w zasadzie mowic zawsze chyba o dwu
mocach, sekwencyjnej (ktora zawsze jest limitowana w
okolinach 3 GHz, jesli dwa w cyklu i mul-add
to 12 GFLOPOW i rownoleglej ktora tu by siegala
sto albo i przyszlosciowo kilkaset razy wiecej
- tak wiec sie te sprawy przedstawiają, nie wiem
czy nawet to jest takie ciekawe ale tak naprawde
surowa moc jest potrzebna (na przyklad do liczenia
drobnoziarnistej czasteczkowej fizyki)
-
10. Data: 2014-07-24 22:11:15
Temat: Re: [trochę OT] Petaflopy
Od: firr <p...@g...com>
przy okazji moze tez warto wspomniec ze thruoughtput to nie jest szybosc; sam
szybkosc kompow wiazalbym bardziej z dynamiką; bardziej imponujace by byly na
przyklad dane ile gigaflopow jest w stanie wykonac jakis komputer np w reżimie
milisekundy a z tym pewnie nie jest juz tak dobrze
(przy okazji moge powiedziec ze np ten powszechny mit ze miedzy np 40 fps a 80 fps
nie ma roznicy nie zgadza sie z moimi obserwacjami ;/ - jest to chyba jednek z
najbardziej glupich mitow w dziedzinie )