eGospodarka.pl
eGospodarka.pl poleca

eGospodarka.plGrupypl.comp.programming[trochę OT] Petaflopy
Ilość wypowiedzi w tym wątku: 21

  • 1. Data: 2014-07-19 22:47:57
    Temat: [trochę OT] Petaflopy
    Od: Borneq <b...@a...hidden.pl>

    Najszybszy obecnie superkomputer świata Tianhe-2 to potwór za 390
    milionów dolarów. Ma ponad 3 miliony rdzeni, choć taktowanie 1.1 Ghz to
    mniej niż przeciętne Pentium z 3 GHZ, Ma 33,86 PFLOPS, ma 1,34 PB
    pamięci i zużywa 24 MW energii.
    Ile haszy mógłby obliczyć w procesie tworzenia Bitcoina? Podobno jedno
    wyliczenie SHA256 wymaga 6350 operacji na 32 bitowych integerach. Uważa
    się że każda taka operacja to dwa flopy*s pojedynczej precyzji, czyli
    rzem 12700 flopów. To mi wygląda na przesadę, bo jedna operacja
    stałoprzecinkowa to dużo mniej niż zmiennoprzecinkowa, a co dopiero
    dwie. Jednak mnożąc Hasz/s przez 12700 i uzyskując flopy okazuje się jak
    bardzo szybki jest sprzęt w rodzaju kart graficznych.
    Ale od kart dużo szybsze są ASIC. Na przykład ANTMINER S3 -B3 ma
    prędkość 478 GH/s czyli wynikało by że 6 petaflopów!
    A kosztuje 460 dolarów i zużywa 366 watów, jest i szybszy 1 terahaszowy
    AntMiner S2 za 1595 dolarów i zużywający tysiąc watów, jednak ten
    mniejszy ma lepszy stosunek prędkości do ceny i zużycia prądu.
    Z przelicznika 12700 flops na hasz/s wynikało by że sześć takich modułów
    liczyło by szybciej hasz niż Tianhe-2 kosztując 2760 dolarów i zużywając
    2.2 kW prądu.
    Tylko niestety nadają się do jednego zadania. Układy programowalne FPGA
    są dużo wolniejsze. Może w jakiejś przyszłości dało by się połączyć
    zalety ASIC i FPGA, które programowało by się błyskawicznie. I zamiast
    pisać program umieszczany w pamięci, który wykonywała by jednostka
    centralna, przeprogramowywały by się kości do równoległego wykonania
    zadania. Zrównoleglenie było by sposobem na przyśpieszenie kiedy już nie
    dało by się podnieść prędkości taktowania znacznie wyżej niż obecne
    typowe 3 GHz.


  • 2. Data: 2014-07-20 00:11:15
    Temat: Re: [trochę OT] Petaflopy
    Od: firr <p...@g...com>

    1 GHz z tego co wiem jest wydajniejszy
    energetycznie dlatego GPu zdaje sie pracuja typowo z predkosciami okolo 1 GHz (nie
    wiem dokladnie)

    Ciekawe w sumie w jaka strone pojdzie dalszy rozwoj hardwaru, rozwoj klasycznych
    prockow (x86) zestopowal ale, kompy potrzebuja ciagle roznac w moc i pewnie jednak
    wlasnie beda rozly tylko moze beda budowane jakies nowe architektury, to co w sumie
    robi gpu nie jset takie glupie, taki uklad cpu+gpu jest wlasnie nawet dosyc naturalny
    - typowy proram potrzebuje swobodnego 1-watkowego swobodnego wykonywacza (tak jak na
    cpu) plus czegost takiego jak gpu do parallenego przetwarzania hotspotów (ktore sa
    petlami) - czyli ze zdziwiniem zauwazam
    ze uklad cpu+gpu jest dosyc naturalny i ze to w gpu
    trzeba pewnie pokladac wieksza nadzieje na przyspieszanie progsow niz w multi-cpu

    zgodnie z ta wizja wlasciwie kazdy program powinno sie pisac pod pare cpu (wiekszosc
    kodu programu) + gpu (hotspoty, wiekszosc runtime)


  • 3. Data: 2014-07-21 19:31:18
    Temat: Re: [trochę OT] Petaflopy
    Od: firr <p...@g...com>

    ps co do zwyklych pecetóf to operuja one w skali gigafloatów (kiedys juz byla o tym
    mowa tj podawalem
    swoje oszacowania ile to moze byc, nawet juz nie pamietam ile to wychodzilo, ale moje
    obecne oszacowania

    CPU

    "memory bandwidth" - 1-2 GigaFlopa, podobno dla danych w cache to moze byc 6x
    szybciej ale ja tego nie
    obserwowalem, dominujacy czynnik to jest ta zwykla wartosc
    "prosta arytmetyka" - tutaj w zasadzie nie wiem dokladnie ale z czytanych jakichs tam
    benchmarkow
    i z wlasnych oszacowan wynikalo by ze jest to okolo
    2 gigaflopa dla kody skalarnego i ok 6 Gigaflopow
    dla sse (na rdzeń) - nie sa to do konca pewne dla mnie wartosci ale chyba dosyc
    rozsadne w realnym kodzie pewnie mozna osciagnac jakies wyniki pod to podchodzace
    (czyli mozn anp ze 4 razy gorsze)

    GPU

    gpu sa podobno rozne i te slabsze 'na rynku' sa chyba kilkukrotnie slabsze niz te
    mocniejsze

    "memory bandwith" podobno gpu maja wiekszą wewnetrzna 'memory bandwidth' jesli chodzi
    o ich wewnetrzny vram (za to te przesylowa ram->vram podobno jest mw taka sama lub
    nawet ciut wolniejsza niz ta typowa dla ram i cpu - acz tego nie jestem pewiem ale
    ponoc) - zalezy chyba od karty ale np dla
    mocniejszej karty jest to np 30 Gigaflopow (czyli kilkanascie razy wiecej)

    "prosta arytmatyka" - zalezy od karty ale podobno moze siegac tak ze 400 Gigaflopow
    (moze to jest troche przesadzone ale podobno) Porownywanie ze
    skalarnym rczeniem dawalo by 200x wieksza moc,
    z sse tak z 70x wieksza moc, z 8 rdzeniami z sse
    10 x wieksza moc (moze to jest i realistyczne
    ale to jest dla mocnej karty, pewnie ta ktora ja mam jest akurat z 10 razy slabsza)

    podsumowujac
    cpu 1-2 GF mem /2-6 x cores, GF arithmetic
    gpu 3?-30? GF mem / 40? - 400? GF arithmetic

    sa to dane z roznych opinie w necie i troche z
    moich testow jesli chodzi o cpu (te dane dot
    gpu moga byc troche niepewne) ale z grubsza
    jakos tak to chyba musi wygladac

    w jeszcze wiekszym skrócie cpu mem 1-2 GFloata
    cpu arithmetic 5 GFloatow na rdzen, gpu kilka do
    30 razy lepiej niz cpu (z tym tez ze podobno
    moc gpu szybko spada dla troche bardziej trudnych i rozgalezionych kerneli)

    (nie sa to dokladne dane ale chodzi o to by miec jakies wyobrazenie


  • 4. Data: 2014-07-21 20:17:13
    Temat: Re: [trochę OT] Petaflopy
    Od: Edek <e...@g...com>

    Szarym od mżawki świtem Mon, 21 Jul 2014 10:31:18 -0700, firr wyrzucił
    pustą ćwiartkę i oznajmił:

    > ps co do zwyklych pecetóf to operuja one w skali gigafloatów (kiedys juz byla o tym
    mowa tj podawalem
    > swoje oszacowania ile to moze byc, nawet juz nie pamietam ile to wychodzilo, ale
    moje obecne oszacowania
    >
    > CPU
    >
    > "memory bandwidth" - 1-2 GigaFlopa, podobno dla danych w cache to moze byc 6x
    szybciej ale ja tego nie
    > obserwowalem, dominujacy czynnik to jest ta zwykla wartosc
    > "prosta arytmetyka" - tutaj w zasadzie nie wiem dokladnie ale z czytanych jakichs
    tam benchmarkow
    > i z wlasnych oszacowan wynikalo by ze jest to okolo
    > 2 gigaflopa dla kody skalarnego i ok 6 Gigaflopow
    > dla sse (na rdzeń) - nie sa to do konca pewne dla mnie wartosci ale chyba dosyc
    rozsadne w realnym kodzie pewnie mozna osciagnac jakies wyniki pod to podchodzace
    (czyli mozn anp ze 4 razy gorsze)
    >
    > GPU
    >
    > gpu sa podobno rozne i te slabsze 'na rynku' sa chyba kilkukrotnie slabsze niz te
    mocniejsze
    >
    > "memory bandwith" podobno gpu maja wiekszą wewnetrzna 'memory bandwidth' jesli
    chodzi o ich wewnetrzny vram (za to te przesylowa ram->vram podobno jest mw taka sama
    lub nawet ciut wolniejsza niz ta typowa dla ram i cpu - acz tego nie jestem pewiem
    ale ponoc) - zalezy chyba od karty ale np dla
    > mocniejszej karty jest to np 30 Gigaflopow (czyli kilkanascie razy wiecej)
    >
    > "prosta arytmatyka" - zalezy od karty ale podobno moze siegac tak ze 400 Gigaflopow
    (moze to jest troche przesadzone ale podobno) Porownywanie ze
    > skalarnym rczeniem dawalo by 200x wieksza moc,
    > z sse tak z 70x wieksza moc, z 8 rdzeniami z sse
    > 10 x wieksza moc (moze to jest i realistyczne
    > ale to jest dla mocnej karty, pewnie ta ktora ja mam jest akurat z 10 razy slabsza)
    >
    > podsumowujac
    > cpu 1-2 GF mem /2-6 x cores, GF arithmetic
    > gpu 3?-30? GF mem / 40? - 400? GF arithmetic
    >
    > sa to dane z roznych opinie w necie i troche z
    > moich testow jesli chodzi o cpu (te dane dot
    > gpu moga byc troche niepewne) ale z grubsza
    > jakos tak to chyba musi wygladac
    >
    > w jeszcze wiekszym skrócie cpu mem 1-2 GFloata
    > cpu arithmetic 5 GFloatow na rdzen, gpu kilka do
    > 30 razy lepiej niz cpu (z tym tez ze podobno
    > moc gpu szybko spada dla troche bardziej trudnych i rozgalezionych kerneli)
    >
    > (nie sa to dokladne dane ale chodzi o to by miec jakies wyobrazenie

    Topowe:

    330 GB/s RAM, jakieś 70 razy tyle pamięć na GPU. 5 TFlopów single precision.
    http://en.wikipedia.org/wiki/List_of_Nvidia_graphics
    _processing_units#GeForce_700_Series
    http://en.wikipedia.org/wiki/List_of_Nvidia_graphics
    _processing_units#Tesla

    Wybrane:
    GTX 650 Ti: 1.4 TFlopa, 80GB/s, 110W, jakieś 6 stówek czyli mniej niż porównywalne
    cpu.

    Oczywiście to są idealne dane, w real life ma się jakieś 70-90% przepustowości,
    zależnie od możliwości algorytmu może być dużo mniej. Najwolniejsze jest kopiowanie
    po PCIe.

    Poza tym nie wiem skąd masz dane o cpu, wyglądają antycznie albo laptopowo żeby nie
    powiedzieć kosmicznie.

    --
    Edek


  • 5. Data: 2014-07-21 22:40:53
    Temat: Re: [trochę OT] Petaflopy
    Od: firr <p...@g...com>

    z tymi 'informacjami' to moge dodac jest tak ze sa chyba dwa rodzaje owych
    'informacji'
    - wyidealizowane 'przemnozenia' czynnikow np jesli wciac procesor z avx i 4 rdzenie z
    HT do tego 3 GHz
    to z takiego przemnozenia wynika 8*8*3 = 192 GFlopy
    (takie informacje niestety podaja zwykle w wiki czy gdzies)
    - tez wyidealizowane ale przynajmniej realne benchmarki, cos w stylu np

    mov ecx, 100*1000*1000
    loop:
    addps xmm0, xmm1
    addps xmm0, xmm1
    addps xmm0, xmm1
    addps xmm0, xmm1
    addps xmm0, xmm1
    addps xmm0, xmm1
    addps xmm0, xmm1
    addps xmm0, xmm1
    addps xmm0, xmm1
    addps xmm0, xmm1
    dec ecx
    jnz loop

    cos w tym stylu, ciekawe czy jakby to puscic realnie na tym kompie wspomianym powyzej
    w 8 egzemplarzach na 8 watkach to by osiagnelo 192 GFlopy (mnemonik dla avx jest co
    prawda jakis inny ale nie pamietam

    alno jesli nie to czy cokolwiek realnego zdolnebybylo to osiagnac (przynakmniej cpu
    wiem jak dziala a z testowaniem gpu jest deczko wieksza niewiadoma choc niby jest
    podobnie, tez asm tyle ze w 'kernelach'


  • 6. Data: 2014-07-22 03:01:14
    Temat: Re: [trochę OT] Petaflopy
    Od: firr <p...@g...com>

    jeszcze z ciekawostek link nt wydajnosci starszych pecetów

    http://www.roylongbottom.org.uk/linpack%20results.ht
    m

    jakis czas temu tez bylo juz to poruszane gdy szukalem info ile razy wolniejszy byl
    386 25MHz
    od obecnego mojego kompa (wyszlo o ile pamietam 30x30 = ok 900 razy, w srodku gdzies
    tak chyba z pentium 200MHz)


    Double Precision 100x100 compiled at 32 bits

    Opt No opt
    CPU MHz MFLOPS MFLOPS

    AMD 80386 40 0.53 0.36
    80486 DX2 66 2.63 1.74
    AMD 5X86 100 3.34 2.24
    Pentium 75 7.56 4.04
    Cyrix P150 120 10.08 8.75
    Cyrix PP166 133 11.53 8.33
    Pentium 100 12.07 5.40
    IBM 6x86 150 12.87 8.29
    Pentium 133 17.05 5.60
    Pentium 166 19.89 6.86
    Cyrix PR233 188 19.98 11.88
    Pentium 200 22.80 8.10
    AMD K6 200 22.84 11.39
    Pentium MMX 200 23.53 8.75
    AMD K62 500 45.79 26.44
    Pentium II 300 47.74 18.25
    Pentium Pro 200 48.50 10.72
    Pentium III 450 61.52 26.51
    Pentium II 450 61.56 26.47
    Apple G3 700 63.30 28.58
    AMD K63 450 65.20 28.55
    Celeron A 300 79.65 19.24
    Pentium III 600 84.18 35.81
    Celeron A 450 119.59 28.84
    Athlon 500 180.79 39.70
    Atom 1600 183.01 89.19
    Pentium IIIE 600 185.22 59.43
    Duron 600 225.06 34.81
    Pentium III 1000 316.67 55.52
    Athlon Tbird 1000 372.69 81.11
    Duron 1000 374.05 57.88
    PIII Tualatin 1200 380.08 128.79
    Pentium 4 1700 382.00 131.59
    Pentium 4 1900 533.93 107.17
    Celeron M 1295 539.76 123.59
    Athlon 4 1600 585.74 103.42
    P4 Xeon 2200 599.24 123.69
    Pentium 4E 3000 630.30 165.01
    Ath4 Barton 1800 659.57 117.29
    Turion 64 M 1900 697.32 123.69
    Opteron 1991 753.08 131.89
    Athlon XP 2080 764.03 136.05
    Pentium M 1862 834.29 181.05
    Pentium 4 3066 840.27 174.64
    Athlon XP 2338 859.43 153.21
    Athlon 64 2150 811.86 142.80
    Athlon 64 2211 838.22 145.60
    Core 2 Duo M 1830 997.68 111.41
    Pentium 4 3678 1017.01 209.01
    Core i5 2467M @@@@ 1064.70 315.46
    Celeron C2 M 2000 1092.56 121.25
    Core 2 Duo 1 CP 2400 1315.42 195.13
    Phenom II 3000 1412.83 244.43
    Core i7 930 **** 1764.75 428.00
    Core i7 860 #### 2004.31 381.97
    Core i7 3930K &&&& 2529.73 746.01
    Core i7 4820K $$$1 2671.15 892.04
    Core i7 4820K $$$2 2684.05 895.54
    Core i7 3930K OC 3112.94 926.92


    tutaj core2d wyszlo 1.3 GFloata ale jako ze jest to dla doulbe i chyba bardziej
    realistyczny benchmark dosyc dobrze zgadza sie z oszacowaniami
    (co prawda tam nizej jest wersja na sse i tylko 1.5 GFloata ale chyba widocznie jest
    to wobec tego ograniczone przez przesył ramu)
    i7 z jednej strony (az) dwa razy szybszy p4 z drugiej strony dwa razy wolniejszy -
    wydaje mi sie ze od p4 mozna liczych chyba moment gdy
    kompy zwlnily ten galopujacy rozwój, bo wczesniej ponizej p4 te predkosci spadaja na
    leb na szyje,
    p3 juz ma jakies wyjatkowo wolne egzemplarze,
    pentium 100 MHz ktory kiedys posiadalem (byla to wyjatkowo kiepska maszyna) jedynie
    12 Mflopow (kpina), 486 jedynie 3 MFlopy tez kpina, 385 pól Megaflopa, kpina
    - w sumie ten wykres daje pewne dobre wyobrazenie co do mocy kompow, takiego czegos
    poniekad szukałem; nalezaloby mi sie jeszcze troche nauczyc testowac moce gpu i
    wyrobic takie same
    wrazenia na temat tychże, ale to troszke trudniejsze


  • 7. Data: 2014-07-22 09:35:02
    Temat: Re: [trochę OT] Petaflopy
    Od: Borneq <b...@a...hidden.pl>

    W dniu 2014-07-22 03:01, firr pisze:
    > jakis czas temu tez bylo juz to poruszane gdy szukalem info ile razy wolniejszy byl
    386 25MHz
    > od obecnego mojego kompa (wyszlo o ile pamietam 30x30 = ok 900 razy, w srodku
    gdzies tak chyba z pentium 200MHz)

    Zwłaszcza na liczbach zmiennoprzecinkowych, bo nie było koprocesora.
    Pamiętam artykuł żółw, rower, rakieta
    http://www.grush.one.pl/?issue=komputer.7.87&article
    =rakieta
    Okazuje się że współczesne komputery prześcigły w tych obliczeniach
    tamtego Craya. 486 DX to był szał, gdy był już wbudowany koprocesor.
    Operacje zaszyte w krzemie jak obliczenia koprocesora wykonywane są
    znacznie szybciej niż program. Można by pomyśleć czy dobrze nie było by
    mieć komputera hybrydowego, gdzie jedna część normalnie wykonuje
    operacje z pamięci a druga to komputer rekonfigurowalny czy tzw
    antykomputer - programowało by się bramki do konkretnego zadania.
    Niestety, przynajmniej na chwilę obecną programowalne FPGA są znacznie
    wolniejsze niż ASIC stworzone do konkretnego zadania. ASIC mają potworną
    prędkość ale potrafią wykonywać tylko jedną rzecz.


  • 8. Data: 2014-07-22 10:03:23
    Temat: Re: [trochę OT] Petaflopy
    Od: A.L. <a...@a...com>

    On Tue, 22 Jul 2014 09:35:02 +0200, Borneq <b...@a...hidden.pl>
    wrote:

    >znacznie szybciej niż program. Można by pomyśleć czy dobrze nie było by
    >mieć komputera hybrydowego, gdzie jedna część normalnie wykonuje
    >operacje z pamięci a druga to komputer rekonfigurowalny czy tzw
    >antykomputer - programowało by się bramki do konkretnego zadania.
    >Niestety, przynajmniej na chwilę obecną programowalne FPGA są znacznie
    >wolniejsze niż ASIC stworzone do konkretnego zadania. ASIC mają potworną
    >prędkość ale potrafią wykonywać tylko jedną rzecz.

    To juz w zasadzie bylo,

    Przykaldem - komputer UMC-1 produkcji Politechniki Warszawskiej. W tym
    komputerze posczegolne bity slowa adresowego kontrolowaly bezposrednio
    bramki sterujace przeplywem danych. Komputer nie mial listy rozkazow w
    klasycznym sensie. Umozliwialo to pisanie bardzo krotkich programow
    robiacych calkiem skomplikowane rzeczy.

    Koncepcja komputerow rekonfigurowalnych odzywala co jakis czas,
    niestety wyladowala na smietniku.

    Koncepcja kompilacji programow 'do krzemu" zajmowal sie Wirth (ten od
    Pascala)

    http://intranet.deei.fct.ualg.pt/IHS/Papers/Wirth98.
    pdf

    A.L.


  • 9. Data: 2014-07-24 12:39:29
    Temat: Re: [trochę OT] Petaflopy
    Od: firr <p...@g...com>

    W dniu poniedziałek, 21 lipca 2014 22:40:53 UTC+2 użytkownik firr napisał:
    > z tymi 'informacjami' to moge dodac jest tak ze sa chyba dwa rodzaje owych
    'informacji'
    >
    > - wyidealizowane 'przemnozenia' czynnikow np jesli wciac procesor z avx i 4 rdzenie
    z HT do tego 3 GHz
    >
    > to z takiego przemnozenia wynika 8*8*3 = 192 GFlopy
    >

    w sumie najwiekszy problem tutaj jest z tym hyperthreadingiem, podobno to dziala
    jedynie jesli
    rdzenie maja duzo przestojow (tutaj nie mialoby to wogole miejsca wiec to nie daje
    nic) a nawet wtedy gdy sa te przestoje to nie daje nigdy 2x, ciekawe czy to daje
    chocby 1.5X nie mam pojecia

    za to okazalo sie ze podobo haswell potrafi wykonywac dwie avx owe instrukcje w
    jednym cyklu
    co wiecej sa to miesznae mull i add, czyli

    4 rdzenie * (float8 * 2 w cyklu * mull-add) * 2.5GHz
    = 320 GFloat

    mozna sobie wyobrazic ile to bedzie (by bylo) gdy intel wypusci 8 rdzeniaka z avx-512
    -> 1280 GFLOAT

    to by bylo duzo, tylko nieststy teraz wypada w zasadzie mowic zawsze chyba o dwu
    mocach, sekwencyjnej (ktora zawsze jest limitowana w
    okolinach 3 GHz, jesli dwa w cyklu i mul-add
    to 12 GFLOPOW i rownoleglej ktora tu by siegala
    sto albo i przyszlosciowo kilkaset razy wiecej
    - tak wiec sie te sprawy przedstawiają, nie wiem
    czy nawet to jest takie ciekawe ale tak naprawde
    surowa moc jest potrzebna (na przyklad do liczenia
    drobnoziarnistej czasteczkowej fizyki)


  • 10. Data: 2014-07-24 22:11:15
    Temat: Re: [trochę OT] Petaflopy
    Od: firr <p...@g...com>

    przy okazji moze tez warto wspomniec ze thruoughtput to nie jest szybosc; sam
    szybkosc kompow wiazalbym bardziej z dynamiką; bardziej imponujace by byly na
    przyklad dane ile gigaflopow jest w stanie wykonac jakis komputer np w reżimie
    milisekundy a z tym pewnie nie jest juz tak dobrze
    (przy okazji moge powiedziec ze np ten powszechny mit ze miedzy np 40 fps a 80 fps
    nie ma roznicy nie zgadza sie z moimi obserwacjami ;/ - jest to chyba jednek z
    najbardziej glupich mitow w dziedzinie )

strony : [ 1 ] . 2 . 3


Szukaj w grupach

Szukaj w grupach

Eksperci egospodarka.pl

1 1 1

Wpisz nazwę miasta, dla którego chcesz znaleźć jednostkę ZUS.

Wzory dokumentów

Bezpłatne wzory dokumentów i formularzy.
Wyszukaj i pobierz za darmo: