-
Data: 2013-03-01 11:14:05
Temat: Re: programował ktoś na taki sprzęt?
Od: "M.M." <m...@g...com> szukaj wiadomości tego autora
[ pokaż wszystkie nagłówki ]Użytkownik Adam Majewski napisał:
>Adam Majewski
> alternatywą jest Xeon Phi korzystający ze standardowego
> kodu ( np. c+OpnMP )
Niezłe!
W dniu czwartek, 28 lutego 2013 19:30:54 UTC+1 użytkownik bartekltg napisał:
> A po co Ci stos w koprocesorze;)
Zwykła-zachłanna natura człowieka :)
> To się zupełnie nie nadaje
> do przechodzenia grafu czy liczenia silni rekurencyjnie.
Nie mam pewnych informacji, ale gdzieś o uszy mi się obiła
plotka, że ktoś na to szachy napisał. Mnie też się to
wydaje dziwne, ale któż to wie...
> To cierpi nawet, jeśli są rozgałęzienia programu.
To niedobrze :(
> Bardzo dobrze. Ale w swoich zadaniach, to nie jest uniwersalny
> procesor do wszystkiego.
> Z lekkim przymrożeniem oka możesz patrzeć na to jak na
> koprocesor, tylko on nie dostaje do przemnożenia
> dwa double, tylko dwie macierze zespolone po 200MB,
> albo jakąś funkcję do policzenia w tysiącach punktów naraz.
Myślę o tym głównie pod kątem czegoś podobnego do symulowanego
wyżarzania, czyli w kółko liczenie wartości funkcji. Niestety
ta funkcja, choć nie jest funkcją rekurencyjną, ma
dużo ifów.
> Jak się sprawdza. AMD Phenon II X4 955 (3.2GHz)
> kontra
> GTX 460v2 (też nie kręcone)
> Przy tym, co karty lubią najbardziej, czyli mnożeniu
> gęstych macierzy karta była jakieś 12 razy szybsza
> na dużych danych. Wliczając w to czas transferu danych!
Jeśli wierzyć temu co piszą na wiki, to GTX 460v2 też ma
ponad 1TFLOP... 12 razy na czymś co karta lubi najbardziej...
to nie aż tak dużo. Powiedzmy że bez transferu byłoby to
ze 20 razy, a na gąszczu if-ów 10 razy... hmmm. Myślałem
że to będzie przyspieszenie rzędu 100-200 razy.
Gdzieś czytałem benchmark w którym cztery tesle działały
270 razy szybciej niż dwa zwykłe procesory. Aplikacja to
jakaś sieć neuronowa. Kurcze... jeśli karta ma prawie 3tys
rdzeni i nawet gdy rdzeń jest 10 razy wolniejszy od rdzenia
w głównym procesorze, to nadal karta powinna dawać przyspieszenie
rzędu 50-100 razy.
Może to jednak kwestia asemblera? Nie wiem jak jest dzisiaj.
Ale jakieś kilkanaście lat temu, jak przepisałem niechlujnie
procedurę w asemblerze, to działała 3 razy szybciej niż
skompilowana kompilatorem C/C++. Gdy przepisałem ją porządnie,
to działała 3-4 razy szybciej. Gdy dostosowałem jeszcze
strukturę danych, czyli tak jakby zmiana algorytmu, to dało się
wyciągnąć nawet 5 razy. Potem pojawiły się lepsze kompilatory,
które od swoich starszych poprzedników generowały kod 3 razy
szybszy. Można było je pokonać pisząc ręcznie w asm, ale to
wymagało dużo pracy. Potem już w asemblerze nie pisałem i teraz
generalnie nie znam się, ale faktem jest, że często pojawiają się nowe
procesory. Czy kompilatory nadążają za nowymi procesorami?
Jak jest teraz, to nie wiem, ale kiedyś pojawiały się z
dużym opóźnieniem. Karta graficzna, czy tam taki koprocesor,
to tak jakby większa nowość niż nowy procesor... może
języki wysokiego poziomu na te karty kuleją i pisząc w
asemblerze da się uzyskać przyspieszenie nawet 10 krotne
względem języka wysokopoziomowego?
> Oczywiście, obliczenia za pomocą bibliotek, nie własnych wynalazków.
Więc te 12 razy to może jednak dobre oszacowanie, nie wiem
już co myśleć.
> Za 15kzł chciałbym więcej RAMu:)
> "Panie, a co ja mam zrobi na tych marnych 4GB na węźle" :)
Podejrzewam że mnie by wystarczyło nawet 0.5GB na kartę. Ale
myślałem że to będą przyspieszenia rzędu 100 razy względem i7.
Pozdrawiam i dzięki wszystkim za odpowiedzi!
Następne wpisy z tego wątku
- 01.03.13 13:56 Michoo
- 01.03.13 14:26 Edek Pienkowski
- 02.03.13 10:51 Roman W
- 02.03.13 16:59 M.M.
- 02.03.13 17:27 Edek Pienkowski
- 02.03.13 18:06 M.M.
- 02.03.13 18:34 Edek Pienkowski
- 02.03.13 18:51 firr kenobi
- 02.03.13 18:51 firr kenobi
- 02.03.13 19:10 M.M.
- 03.03.13 01:55 Roman W
- 03.03.13 10:50 firr kenobi
- 03.03.13 10:51 firr kenobi
- 03.03.13 10:51 firr kenobi
- 03.03.13 19:24 M.M.
Najnowsze wątki z tej grupy
- Popr. 14. Nauka i Praca Programisty C++ w III Rzeczy (pospolitej)
- Arch. Prog. Nieuprzywilejowanych w pełnej wer. na nowej s. WWW energokod.pl
- 7. Raport Totaliztyczny: Sprawa Qt Group wer. 424
- TCL - problem z escape ostatniego \ w nawiasach {}
- Nauka i Praca Programisty C++ w III Rzeczy (pospolitej)
- testy-wyd-sort - Podsumowanie
- Tworzenie Programów Nieuprzywilejowanych Opartych Na Wtyczkach
- Do czego nadaje się QDockWidget z bibl. Qt?
- Bibl. Qt jest sztucznie ograniczona - jest nieprzydatna do celów komercyjnych
- Co sciaga kretynow
- AEiC 2024 - Ada-Europe conference - Deadlines Approaching
- Jakie są dobre zasady programowania programów opartych na wtyczkach?
- sprawdzanie słów kluczowych dot. zła
- Re: W czym sie teraz pisze programy??
- Re: (PDF) Surgical Pathology of Non-neoplastic Gastrointestinal Diseases by Lizhi Zhang
Najnowsze wątki
- 2025-01-06 Popr. 14. Nauka i Praca Programisty C++ w III Rzeczy (pospolitej)
- 2025-01-06 Ostrów Wielkopolski => Area Sales Manager OZE <=
- 2025-01-06 Do IO i innych elektrooszolomow, tu macie prawdziwe smrody
- 2025-01-06 Białystok => Full Stack .Net Engineer <=
- 2025-01-06 Kraków => Business Development Manager - Network and Network Security
- 2025-01-06 Katowice => Regionalny Kierownik Sprzedaży (OZE) <=
- 2025-01-06 Warszawa => Spedytor Międzynarodowy <=
- 2025-01-06 Lublin => Programista Delphi <=
- 2025-01-06 Gdańsk => Specjalista ds. Sprzedaży <=
- 2025-01-06 śnieg
- 2025-01-05 Żarówka do lampy z czujnikiem ruchu
- 2025-01-05 Rozkręcają się
- 2025-01-04 pozew za naprawę sprzętu na youtube
- 2025-01-04 gasik
- 2025-01-04 13. Raport Totaliztyczny: Powszechna Deklaracja Praw Człowieka Nie Chroni Przed Wyzyskiem Ani Przed Eksploatacją