-
221. Data: 2015-01-24 10:53:24
Temat: Re: python...
Od: "M.M." <m...@g...com>
On Saturday, January 24, 2015 at 12:17:19 AM UTC+1, firr wrote:
> W dniu piątek, 23 stycznia 2015 23:35:27 UTC+1 użytkownik M.M. napisał:
> > On Friday, January 23, 2015 at 10:57:27 PM UTC+1, firr wrote:
> > > W dniu piątek, 23 stycznia 2015 16:50:43 UTC+1 użytkownik M.M. napisał:
> > > > On Friday, January 23, 2015 at 1:08:03 AM UTC+1, firr wrote:
> > > > > W dniu piątek, 23 stycznia 2015 00:38:59 UTC+1 użytkownik Wojciech Muła
napisał:
> > > > > > On Thursday, January 22, 2015 at 9:47:08 PM UTC+1, M.M. wrote:
> > > > > > > On Thursday, January 22, 2015 at 12:40:00 PM UTC+1, firr wrote:
> > > > > > > > tak naprawde chyba jesli dzis chce sie mowic o wydajnosci to nalezy
> > > > > > > > pisac pod gpu opencl/cuda, cos takiego
> > > > > > > W większości przypadków chyba masz rację. Obliczeniówka powinna być
> > > > > > > na gpu.
> > > > > >
> > > > > > Model obliczeniowy GPU zakłada równoległość danych, co się sprawdza
> > > > > > we względnie niewielu zastosowaniach.
> > > > Zapomniałem, że ja ciągle trafiam na niestatystyczne przypadki :D
> > > > Nie wiem jak często Wam się trafiają zadania trudne obliczeniowe, które
> > > > można optymalizować przez zrównoleglenie.
> > > >
> > > > > > Do tego pamięci GPU i CPU są
> > > > > > rozłączne, więc zachodzi konieczność transferu danych, co obniża
> > > > > > całkowite przyspieszenie.
> > > > Niestety, narzut na transfery to pewnie problem.
> > > >
> > > > > >
> > > > > mozna poszukac nawet zwykle konsumerskie testy, np
> > > > >
> > > > > http://www.dobreprogramy.pl/Komputer-okazal-sie-nie-
dosc-szybki-OpenCL-moze-postawic-kwestie-wydajnosci-
na-glowie,News,58947.html
> > > > >
> > > > > jesli sa jako tako dobrze zrobione
> > > > > (o tym to nigdy nie wiadomo ale
> > > > > pewnie z grubsza ok) to pokazuje ze
> > > > > mozliwe jest "mw" kilkukrotne przyspieszenie a wiec wydaje sie
> > > > Słyszałem że jak coś da się wrzucić do pamięci karty i potem w
> > > > pętli mielić przez całe godziny, to uzyskuje się przyspieszenie
> > > > 100-200 razy. Obawiam się jednak, że to jest możliwe tylko pod
> > > > warunkiem optymalizacji na jedną konkretną kartę - ale nie wiem
> > > > na pewno. Może ogólnie to jest tylko kilkukrotne przyspieszenie.
> > > >
> > >
> > > 200-300 to mz bajki gpu nie jest
> > > az tyle mocniejsze, mysle ze dobre gpu jest najwyzej kilkanascie razy
mocniejsze niz dobre cpu przy tym
> > > jest tez o wiele badziej podoatne na
> > > spowolnienia
> > >
> > > kilkukrotnie to jednak nie jest malo, (!) - jest to calkiem sporo
> > > chyab tez te trudnosci w kodowaniu
> > > opencl sa przesadzone, chyba nie jest az tak zle
> > > - byc moze nidlugo wykonam jakies testy
> >
> > Mnie chodziło m/w o takie porównanie. Bierzemy z 5 algorytmów w miarę
> > podatnych na zrównoleglanie. Robimy wyżyłowaną implementację w asemblerze
> > na cpu i na gpu. Oczywiście też na cpu równolegle. No i mierzymy czasy.
> > Nie wyjdzie 100 razy szybciej na najnowszych teslach czy odpowiednikach
> > z konkurencji?
> >
> nie wydaje mi sie.. tak jak mowilem mz raczej to jest zakres kilka-kilkanascie
razy, (przynajmniej co do ogolnej przepustowosci, moze czytsa arytmetyka bylaby
szybsza (?) ale czysta arytmetyka jest raczej mniej przydatna -- pewnie mozna
poszukac info w necie, i moze sam zrobie testy, na razie odpoczywam
Widziałem kiedyś takie benchmarki. Niestety do szczegółów się nie dokopałem,
ani nie mam pewności, że były zrobione uczciwie, bo robił producent gpu.
Niemniej jednak wydajność była rzędu 100-200 razy większa, a konfiguracja
sprzętowa to 2cpu vs 4gpu.
Pozdrawiam
-
222. Data: 2015-01-24 21:56:05
Temat: Re: python...
Od: A.L. <a...@a...com>
On Sat, 24 Jan 2015 01:53:24 -0800 (PST), "M.M." <m...@g...com>
wrote:
>On Saturday, January 24, 2015 at 12:17:19 AM UTC+1, firr wrote:
>> W dniu piątek, 23 stycznia 2015 23:35:27 UTC+1 użytkownik M.M. napisał:
>> > On Friday, January 23, 2015 at 10:57:27 PM UTC+1, firr wrote:
>> > > W dniu piątek, 23 stycznia 2015 16:50:43 UTC+1 użytkownik M.M. napisał:
>> > > > On Friday, January 23, 2015 at 1:08:03 AM UTC+1, firr wrote:
>> > > > > W dniu piątek, 23 stycznia 2015 00:38:59 UTC+1 użytkownik Wojciech Muła
napisał:
>> > > > > > On Thursday, January 22, 2015 at 9:47:08 PM UTC+1, M.M. wrote:
>> > > > > > > On Thursday, January 22, 2015 at 12:40:00 PM UTC+1, firr wrote:
>> > > > > > > > tak naprawde chyba jesli dzis chce sie mowic o wydajnosci to nalezy
>> > > > > > > > pisac pod gpu opencl/cuda, cos takiego
>> > > > > > > W większości przypadków chyba masz rację. Obliczeniówka powinna być
>> > > > > > > na gpu.
>> > > > > >
>> > > > > > Model obliczeniowy GPU zakłada równoległość danych, co się sprawdza
>> > > > > > we względnie niewielu zastosowaniach.
>> > > > Zapomniałem, że ja ciągle trafiam na niestatystyczne przypadki :D
>> > > > Nie wiem jak często Wam się trafiają zadania trudne obliczeniowe, które
>> > > > można optymalizować przez zrównoleglenie.
>> > > >
>> > > > > > Do tego pamięci GPU i CPU są
>> > > > > > rozłączne, więc zachodzi konieczność transferu danych, co obniża
>> > > > > > całkowite przyspieszenie.
>> > > > Niestety, narzut na transfery to pewnie problem.
>> > > >
>> > > > > >
>> > > > > mozna poszukac nawet zwykle konsumerskie testy, np
>> > > > >
>> > > > > http://www.dobreprogramy.pl/Komputer-okazal-sie-nie-
dosc-szybki-OpenCL-moze-postawic-kwestie-wydajnosci-
na-glowie,News,58947.html
>> > > > >
>> > > > > jesli sa jako tako dobrze zrobione
>> > > > > (o tym to nigdy nie wiadomo ale
>> > > > > pewnie z grubsza ok) to pokazuje ze
>> > > > > mozliwe jest "mw" kilkukrotne przyspieszenie a wiec wydaje sie
>> > > > Słyszałem że jak coś da się wrzucić do pamięci karty i potem w
>> > > > pętli mielić przez całe godziny, to uzyskuje się przyspieszenie
>> > > > 100-200 razy. Obawiam się jednak, że to jest możliwe tylko pod
>> > > > warunkiem optymalizacji na jedną konkretną kartę - ale nie wiem
>> > > > na pewno. Może ogólnie to jest tylko kilkukrotne przyspieszenie.
>> > > >
>> > >
>> > > 200-300 to mz bajki gpu nie jest
>> > > az tyle mocniejsze, mysle ze dobre gpu jest najwyzej kilkanascie razy
mocniejsze niz dobre cpu przy tym
>> > > jest tez o wiele badziej podoatne na
>> > > spowolnienia
>> > >
>> > > kilkukrotnie to jednak nie jest malo, (!) - jest to calkiem sporo
>> > > chyab tez te trudnosci w kodowaniu
>> > > opencl sa przesadzone, chyba nie jest az tak zle
>> > > - byc moze nidlugo wykonam jakies testy
>> >
>> > Mnie chodziło m/w o takie porównanie. Bierzemy z 5 algorytmów w miarę
>> > podatnych na zrównoleglanie. Robimy wyżyłowaną implementację w asemblerze
>> > na cpu i na gpu. Oczywiście też na cpu równolegle. No i mierzymy czasy.
>> > Nie wyjdzie 100 razy szybciej na najnowszych teslach czy odpowiednikach
>> > z konkurencji?
>> >
>> nie wydaje mi sie.. tak jak mowilem mz raczej to jest zakres kilka-kilkanascie
razy, (przynajmniej co do ogolnej przepustowosci, moze czytsa arytmetyka bylaby
szybsza (?) ale czysta arytmetyka jest raczej mniej przydatna -- pewnie mozna
poszukac info w necie, i moze sam zrobie testy, na razie odpoczywam
>
>Widziałem kiedyś takie benchmarki. Niestety do szczegółów się nie dokopałem,
>ani nie mam pewności, że były zrobione uczciwie, bo robił producent gpu.
>Niemniej jednak wydajność była rzędu 100-200 razy większa, a konfiguracja
>sprzętowa to 2cpu vs 4gpu.
>Pozdrawiam
>
Pieprzenie.
A.L.
-
223. Data: 2015-01-25 10:52:28
Temat: Re: python...
Od: firr <p...@g...com>
W dniu sobota, 24 stycznia 2015 21:55:59 UTC+1 użytkownik A. L. napisał:
> On Sat, 24 Jan 2015 01:53:24 -0800 (PST), "M.M." <m...@g...com>
> wrote:
>
> >On Saturday, January 24, 2015 at 12:17:19 AM UTC+1, firr wrote:
> >> W dniu piątek, 23 stycznia 2015 23:35:27 UTC+1 użytkownik M.M. napisał:
> >> > On Friday, January 23, 2015 at 10:57:27 PM UTC+1, firr wrote:
> >> > > W dniu piątek, 23 stycznia 2015 16:50:43 UTC+1 użytkownik M.M. napisał:
> >> > > > On Friday, January 23, 2015 at 1:08:03 AM UTC+1, firr wrote:
> >> > > > > W dniu piątek, 23 stycznia 2015 00:38:59 UTC+1 użytkownik Wojciech Muła
napisał:
> >> > > > > > On Thursday, January 22, 2015 at 9:47:08 PM UTC+1, M.M. wrote:
> >> > > > > > > On Thursday, January 22, 2015 at 12:40:00 PM UTC+1, firr wrote:
> >> > > > > > > > tak naprawde chyba jesli dzis chce sie mowic o wydajnosci to
nalezy
> >> > > > > > > > pisac pod gpu opencl/cuda, cos takiego
> >> > > > > > > W większości przypadków chyba masz rację. Obliczeniówka powinna być
> >> > > > > > > na gpu.
> >> > > > > >
> >> > > > > > Model obliczeniowy GPU zakłada równoległość danych, co się sprawdza
> >> > > > > > we względnie niewielu zastosowaniach.
> >> > > > Zapomniałem, że ja ciągle trafiam na niestatystyczne przypadki :D
> >> > > > Nie wiem jak często Wam się trafiają zadania trudne obliczeniowe, które
> >> > > > można optymalizować przez zrównoleglenie.
> >> > > >
> >> > > > > > Do tego pamięci GPU i CPU są
> >> > > > > > rozłączne, więc zachodzi konieczność transferu danych, co obniża
> >> > > > > > całkowite przyspieszenie.
> >> > > > Niestety, narzut na transfery to pewnie problem.
> >> > > >
> >> > > > > >
> >> > > > > mozna poszukac nawet zwykle konsumerskie testy, np
> >> > > > >
> >> > > > > http://www.dobreprogramy.pl/Komputer-okazal-sie-nie-
dosc-szybki-OpenCL-moze-postawic-kwestie-wydajnosci-
na-glowie,News,58947.html
> >> > > > >
> >> > > > > jesli sa jako tako dobrze zrobione
> >> > > > > (o tym to nigdy nie wiadomo ale
> >> > > > > pewnie z grubsza ok) to pokazuje ze
> >> > > > > mozliwe jest "mw" kilkukrotne przyspieszenie a wiec wydaje sie
> >> > > > Słyszałem że jak coś da się wrzucić do pamięci karty i potem w
> >> > > > pętli mielić przez całe godziny, to uzyskuje się przyspieszenie
> >> > > > 100-200 razy. Obawiam się jednak, że to jest możliwe tylko pod
> >> > > > warunkiem optymalizacji na jedną konkretną kartę - ale nie wiem
> >> > > > na pewno. Może ogólnie to jest tylko kilkukrotne przyspieszenie.
> >> > > >
> >> > >
> >> > > 200-300 to mz bajki gpu nie jest
> >> > > az tyle mocniejsze, mysle ze dobre gpu jest najwyzej kilkanascie razy
mocniejsze niz dobre cpu przy tym
> >> > > jest tez o wiele badziej podoatne na
> >> > > spowolnienia
> >> > >
> >> > > kilkukrotnie to jednak nie jest malo, (!) - jest to calkiem sporo
> >> > > chyab tez te trudnosci w kodowaniu
> >> > > opencl sa przesadzone, chyba nie jest az tak zle
> >> > > - byc moze nidlugo wykonam jakies testy
> >> >
> >> > Mnie chodziło m/w o takie porównanie. Bierzemy z 5 algorytmów w miarę
> >> > podatnych na zrównoleglanie. Robimy wyżyłowaną implementację w asemblerze
> >> > na cpu i na gpu. Oczywiście też na cpu równolegle. No i mierzymy czasy.
> >> > Nie wyjdzie 100 razy szybciej na najnowszych teslach czy odpowiednikach
> >> > z konkurencji?
> >> >
> >> nie wydaje mi sie.. tak jak mowilem mz raczej to jest zakres kilka-kilkanascie
razy, (przynajmniej co do ogolnej przepustowosci, moze czytsa arytmetyka bylaby
szybsza (?) ale czysta arytmetyka jest raczej mniej przydatna -- pewnie mozna
poszukac info w necie, i moze sam zrobie testy, na razie odpoczywam
> >
> >Widziałem kiedyś takie benchmarki. Niestety do szczegółów się nie dokopałem,
> >ani nie mam pewności, że były zrobione uczciwie, bo robił producent gpu.
> >Niemniej jednak wydajność była rzędu 100-200 razy większa, a konfiguracja
> >sprzętowa to 2cpu vs 4gpu.
> >Pozdrawiam
> >
>
> Pieprzenie.
>
> A.L.
nie za madry komment.. oznaki demencji?
-
224. Data: 2015-01-26 02:29:48
Temat: Re: python...
Od: Roman W <b...@g...pl>
On Sat, 24 Jan 2015 14:56:05 -0600, A.L. <a...@a...com> wrote:
> >Widziałem kiedyś takie benchmarki. Niestety do szczegółów się nie
dokopałem,
> >ani nie mam pewności, że były zrobione uczciwie, bo robił
producent gpu.
> >Niemniej jednak wydajność była rzędu 100-200 razy większa, a
konfiguracja
> >sprzętowa to 2cpu vs 4gpu.
> >Pozdrawiam
> >
> Pieprzenie.
> A.L.
Niekoniecznie. Znałem takie przypadki z pierwszej ręki.
RW
-
225. Data: 2015-01-26 19:12:20
Temat: Re: python...
Od: "M.M." <m...@g...com>
On Monday, January 26, 2015 at 2:29:51 AM UTC+1, Roman W wrote:
> On Sat, 24 Jan 2015 14:56:05 -0600, A.L. wrote:
> > >Widziałem kiedyś takie benchmarki. Niestety do szczegółów się nie
> dokopałem,
> > >ani nie mam pewności, że były zrobione uczciwie, bo robił
> producent gpu.
> > >Niemniej jednak wydajność była rzędu 100-200 razy większa, a
> konfiguracja
> > >sprzętowa to 2cpu vs 4gpu.
> > Pieprzenie.
> > A.L.
> Niekoniecznie. Znałem takie przypadki z pierwszej ręki.
> RW
Mogę poprosić o zdradzenie jakiś szczegółów? Co to były za
obliczenia? Jaka karta i jaki cpu było porównywane? Czy
było dużo transferów? W jakich językach programowania było
to zaimplementowane? Ile czasu zajęła jedna i druga wersja?
Z góry dziękuję.
-
226. Data: 2015-01-26 20:15:27
Temat: Re: python...
Od: Wojciech Muła <w...@g...com>
On Saturday, January 24, 2015 at 9:55:59 PM UTC+1, A. L. wrote:
> >Widziałem kiedyś takie benchmarki. Niestety do szczegółów się nie dokopałem,
> >ani nie mam pewności, że były zrobione uczciwie, bo robił producent gpu.
> >Niemniej jednak wydajność była rzędu 100-200 razy większa, a konfiguracja
> >sprzętowa to 2cpu vs 4gpu.
> >Pozdrawiam
>
> Pieprzenie.
U nas wyszło 50-60 x dla konfiguracji 2GPU vs 4CPU, ale bez wliczania
czasu transferu. Algorytm bardzo prosty, pełna równoległość danych.
Tyle mogę powiedzieć.
Natomiast wszelkie nieco bardziej zaawansowane algorytmy, gdzie są
jakieś zależności między iteracjami, nieliniowe dostępy do pamięci
(np. drzewa, listy wiązane) etc. tną wydajność.
w.
-
227. Data: 2015-01-26 20:43:50
Temat: Re: python...
Od: firr <p...@g...com>
W dniu poniedziałek, 26 stycznia 2015 20:15:30 UTC+1 użytkownik Wojciech Muła
napisał:
> On Saturday, January 24, 2015 at 9:55:59 PM UTC+1, A. L. wrote:
> > >Widziałem kiedyś takie benchmarki. Niestety do szczegółów się nie dokopałem,
> > >ani nie mam pewności, że były zrobione uczciwie, bo robił producent gpu.
> > >Niemniej jednak wydajność była rzędu 100-200 razy większa, a konfiguracja
> > >sprzętowa to 2cpu vs 4gpu.
> > >Pozdrawiam
> >
> > Pieprzenie.
>
> U nas wyszło 50-60 x dla konfiguracji 2GPU vs 4CPU, ale bez wliczania
> czasu transferu. Algorytm bardzo prosty, pełna równoległość danych.
> Tyle mogę powiedzieć.
>
> Natomiast wszelkie nieco bardziej zaawansowane algorytmy, gdzie są
> jakieś zależności między iteracjami, nieliniowe dostępy do pamięci
> (np. drzewa, listy wiązane) etc. tną wydajność.
>
bez transferu sie nie liczy
(poznawczo sie liczy ale tak naprawde chodzi raczej o realny processing)
-
228. Data: 2015-01-27 00:06:35
Temat: Re: python...
Od: "M.M." <m...@g...com>
On Monday, January 26, 2015 at 8:43:53 PM UTC+1, firr wrote:
> W dniu poniedziałek, 26 stycznia 2015 20:15:30 UTC+1 użytkownik Wojciech Muła
napisał:
> > On Saturday, January 24, 2015 at 9:55:59 PM UTC+1, A. L. wrote:
> > > >Widziałem kiedyś takie benchmarki. Niestety do szczegółów się nie dokopałem,
> > > >ani nie mam pewności, że były zrobione uczciwie, bo robił producent gpu.
> > > >Niemniej jednak wydajność była rzędu 100-200 razy większa, a konfiguracja
> > > >sprzętowa to 2cpu vs 4gpu.
> > > >Pozdrawiam
> > >
> > > Pieprzenie.
> >
> > U nas wyszło 50-60 x dla konfiguracji 2GPU vs 4CPU, ale bez wliczania
> > czasu transferu. Algorytm bardzo prosty, pełna równoległość danych.
> > Tyle mogę powiedzieć.
> >
> > Natomiast wszelkie nieco bardziej zaawansowane algorytmy, gdzie są
> > jakieś zależności między iteracjami, nieliniowe dostępy do pamięci
> > (np. drzewa, listy wiązane) etc. tną wydajność.
> >
>
> bez transferu sie nie liczy
> (poznawczo sie liczy ale tak naprawde chodzi raczej o realny processing)
Ale daje dobre oszacowanie.
Chciałbym wiedzieć w jakich narzędziach były przygotowane aplikacje, czy
asembler czy coś wyższego poziomu i czy aplikacja była dedykowana na
konkretną kartę/procesor, czy ogólna, kompilująca się na dowolny sprzęt.
Dziękuję
-
229. Data: 2015-01-27 04:02:39
Temat: Re: python...
Od: A.L. <a...@a...com>
On Mon, 26 Jan 2015 01:29:48 +0000, Roman W
<b...@g...pl> wrote:
>On Sat, 24 Jan 2015 14:56:05 -0600, A.L. <a...@a...com> wrote:
>> >Widziałem kiedyś takie benchmarki. Niestety do szczegółów się nie
>dokopałem,
>> >ani nie mam pewności, że były zrobione uczciwie, bo robił
>producent gpu.
>> >Niemniej jednak wydajność była rzędu 100-200 razy większa, a
>konfiguracja
>> >sprzętowa to 2cpu vs 4gpu.
>> >Pozdrawiam
>> >
>
>
>> Pieprzenie.
>
>
>> A.L.
>
>Niekoniecznie. Znałem takie przypadki z pierwszej ręki.
>
>RW
Pieprzenie
A.L.
-
230. Data: 2015-01-27 08:12:07
Temat: Re: python...
Od: firr <p...@g...com>
W dniu wtorek, 27 stycznia 2015 04:02:41 UTC+1 użytkownik A. L. napisał:
> On Mon, 26 Jan 2015 01:29:48 +0000, Roman W
> <b...@g...pl> wrote:
>
> >On Sat, 24 Jan 2015 14:56:05 -0600, A.L. <a...@a...com> wrote:
> >> >Widziałem kiedyś takie benchmarki. Niestety do szczegółów się nie
> >dokopałem,
> >> >ani nie mam pewności, że były zrobione uczciwie, bo robił
> >producent gpu.
> >> >Niemniej jednak wydajność była rzędu 100-200 razy większa, a
> >konfiguracja
> >> >sprzętowa to 2cpu vs 4gpu.
> >> >Pozdrawiam
> >> >
> >
> >
> >> Pieprzenie.
> >
> >
> >> A.L.
> >
> >Niekoniecznie. Znałem takie przypadki z pierwszej ręki.
> >
> >RW
>
> Pieprzenie
>
> A.L.
takie uwagi nie sa sensowne,
(chyba zeby zalozyc ze usenet to Jim henson's Muppet Show,)
(chyba znowy ponarzekam na drowie.. co za koszmar, )