-
Path: news-archive.icm.edu.pl!news.gazeta.pl!not-for-mail
From: Edek Pienkowski <e...@g...com>
Newsgroups: pl.comp.programming
Subject: Re: kryzys jezyków kompilowanych do kodu 'natywnego'
Date: Sun, 15 Apr 2012 09:37:49 +0000 (UTC)
Organization: "Portal Gazeta.pl -> http://www.gazeta.pl"
Lines: 93
Message-ID: <jme4td$su1$1@inews.gazeta.pl>
References: <jm74e2$g97$1@inews.gazeta.pl> <jm8l2q$k1b$1@inews.gazeta.pl>
<jm8lrt$hk4$1@inews.gazeta.pl> <jm910j$flf$1@polsl.pl>
<7930108.1291.1334317069612.JavaMail.geo-discussion-forums@ynbq18>
<jm9en8$5uv$1@inews.gazeta.pl> <jm9uk3$rrn$2@inews.gazeta.pl>
<jmaf6t$cgr$1@inews.gazeta.pl> <jmbkh8$bn3$1@inews.gazeta.pl>
<jmbmsq$gei$1@inews.gazeta.pl> <jmbrpl$bn3$2@inews.gazeta.pl>
<jmdd9f$snq$1@inews.gazeta.pl>
NNTP-Posting-Host: 81.219.27.0
Mime-Version: 1.0
Content-Type: text/plain; charset=UTF-8
Content-Transfer-Encoding: 8bit
X-Trace: inews.gazeta.pl 1334482669 29633 81.219.27.0 (15 Apr 2012 09:37:49 GMT)
X-Complaints-To: u...@a...pl
NNTP-Posting-Date: Sun, 15 Apr 2012 09:37:49 +0000 (UTC)
X-User: pieniekusenet
User-Agent: Pan/0.135 (Tomorrow I'll Wake Up and Scald Myself with Tea; GIT 30dc37b
master)
Xref: news-archive.icm.edu.pl pl.comp.programming:196754
[ ukryj nagłówki ]Dnia Sun, 15 Apr 2012 02:54:39 +0000, M.M. napisal:
> Edek Pienkowski <e...@g...com> napisał(a):
>
>> Sieć NN, nuda jak cholera. Każdy pseudo-neuron był połączony z
>> poprzednim(i) layerem(ami) na zasadzie kształtu - layer 2D,
>> kształt tego rodzaju, że obejmuje neurony "najbliżej", z tymi ma link,
>> chociaż mógł być "co któryś", jak w iteracji ze step.
[...]
>
>> Różnice były rzędu kilku %, ale zdarzały się odchyły rzędu
>> 20% gorzej. Całość po kompilacji trafiała do jednej wielkiej
>> metody, zmieniałem głównie layout danych, kolejność iteracji,
>> alignment, opcje typu fp+sse/sse z różnym skutkiem no i
>> to PGO. Oczywiście główną alternatywą był push albo pull,
>> swoje też dodawał random.
[...]
>
> Czyli podsumowując napracowałeś się bardzo dużo nad implementacją, a
> efektów zbyt dużo nie było. Tak to już chyba jest... ale bardzo zdumiewa
> mnie fakt, że używając SEE / CUDA nie uzyskałeś na czymś takim jak
> sztuczne sieci neuronowe kolosalnego przyspieszenia. Gdzieś czytałem
> że na jednej tesli (która zdaje się ma 4 GPU) uzyskano przyspieszenie
> 260 razy względem dwu- (albo nawet cztero-) procesorowego Xeona.
Pisząc o % pisałem o CPU. Jeżeli chodzi o CUDA, to jabłka do gruszek,
zależy od karty. Pisząc o 1.3 miałem na myśli GeForce 8 - nie ma
o rząd wielkości lepszej przepustowości niż L2 CPU, było szybciej
jeżeli uruchomiło się 20 sieci zamiast jednej; przepisywałem to
później tak, żeby równolegle nie było 20 sieci tylko 20 przebiegów
jednej sieci; dla małych sieci ciężko było mieć 20 blocków
działających na jednym przebiegu jednej sieci.
Te o o których piszesz mogły mieć bardziej regularną strukturę,
dla kart GPU struktura dostępów do RAM ma kolosalne znaczenie.
O ile funkcje nie są b. skomplikowane, limitem jest RAM,
nie GFLOPS. Dlatego brałem część źródła do shared i z shared było
szybciej. Tyle, że już wtedy musiałem mieć albo testy albo
osobną kartę, bo debugger nie działa jak na niej siedzi desktop.
Sieć każdy-z-każdym można przyśpieszyć trywialnie.
Na CPU te kilka % w algorytmie, którego zasady zmienić się nie
da, to też coś.
>
> Nie wiem jak to dokładnie implementowałeś... w swojej implementacji
> czegoś podobnego właśnie nie widzę sensownego miejsca na optymalizację.
> Ja mam po prostu zbiór neuronów, a wejścia niczym się nie różnią od
> neuronów. W uproszczeniu neuron to u mnie jedna liczba zmiennoprzecinkowa.
> Potem ma tablicę mniej/więcej takich struktur:
> struct Connect {
> int input;
> int output
> float weight;
> };
>
> Serce i zarazem gorący punkt algorytmu to taka pętla:
>
> float neurony[1..ilosc_neuronow];
> neurony[1..ilosc_wejsc] = wektor_wyjsciowy;
> for( i=0 ; i<connects.size ; i++ ) {
> neurony[ connects[i].output ] += funkcja_nieliniowa( neurony[
> connects[i].input ] );
> neurony[ neurony[ connects[i].input ] = funkcja_zaniku( neurony[
> connects[i].input );
> }
> return neurony[ilosc_neuronow-ilosc_wyjsc..ilosc_neuronow];
>
> Co tu da się zoptymalizować to nie wiem :)
- Structure of Arrays vs. Array of Structures
- iterując po neuronach a nie po linkach (po linkach wewnętrzna pętla)
można mieć linki w tablicy, offsety tylko źródła w tablicy, a iterować
po docelowych neuronach (to pull, można analogicznie push)
- albo mieć nie offsety tylko pointery
- ponieważ nie ma pętli layerów, można wrzucić neurony wszystkich layerów
do jednej tablicy i jednej pętli
- i podobne, kolejność iteracji taka, żeby mieć najlepsze locality
Tą część CPU to można przepisać w dowolnych kombinacjach w kilka
godzin tak naprawdę, przy CUDA jest więcej zabawy z rozmieszczeniem
tego odpowiednio w pamięci.
> Ale na Tesli, do póki dane mieszczą się w jej pamięci, to powinno działać
> równolegle na 512 procesorach...
Nie mam Tesli... to czysto amatorska zabawa. Nie pamiętam liczb,
ale było szybciej nie o %, tylko wielokrotnie - przy czym co innego
8xxx, a co innego 4xx czy 5xx. To tak jakbyś porównywał p4 do i7.
Edek
Następne wpisy z tego wątku
- 15.04.12 12:11 Edek Pienkowski
- 16.04.12 22:01 AK
- 17.04.12 01:12 Andrzej Jarzabek
- 17.04.12 14:26 AK
Najnowsze wątki z tej grupy
- Can you activate BMW 48V 10Ah Li-Ion battery, connecting to CAN-USB laptop interface ?
- We Wrocławiu ruszyła Odra 5, pierwszy w Polsce komputer kwantowy z nadprzewodzącymi kubitami
- Ada-Europe - AEiC 2025 early registration deadline imminent
- John Carmack twierdzi, że gdyby gry były optymalizowane, to wystarczyły by stare kompy
- Ada-Europe Int.Conf. Reliable Software Technologies, AEiC 2025
- Linuks od wer. 6.15 przestanie wspierać procesory 486 i będzie wymagać min. Pentium
- ,,Polski przemysł jest w stanie agonalnym" - podkreślił dobitnie, wskazując na brak zamówień.
- Rewolucja w debugowaniu!!! SI analizuje zrzuty pamięci systemu M$ Windows!!!
- Brednie w wiki - hasło Dehomag
- Perfidne ataki krakerów z KRLD na skrypciarzy JS i Pajton
- Instytut IDEAS może zacząć działać: "Ma to być unikalny w europejskiej skali ośrodek badań nad sztuczną inteligencją."
- Instytut IDEAS może zacząć działać: "Ma to być unikalny w europejskiej skali ośrodek badań nad sztuczną inteligencją."
- Instytut IDEAS może zacząć działać: "Ma to być unikalny w europejskiej skali ośrodek badań nad sztuczną inteligencją."
- U nas propagują modę na SI, a w Chinach naukowcy SI po kolei umierają w wieku 40-50lat
- C++. Podróż Po Języku - komentarz
Najnowsze wątki
- 2025-07-12 Warszawa => PC Hardware Expert / Specjalista PC <=
- 2025-07-12 Warszawa => Account Manager - Usługi rekrutacyjne <=
- 2025-07-12 Warszawa => Administrator IT <=
- 2025-07-12 Warszawa => IT Administrator <=
- 2025-07-12 Warszawa => Asystent/tka ds. Administracji <=
- 2025-07-12 Warszawa => Specjalista/stka ds. Organizacji <=
- 2025-07-12 Warszawa => MENA New Business Manager <=
- 2025-07-12 Gdynia => Controlling systems Consultant <=
- 2025-07-12 Warszawa => Developer Microsoft Dynamics 365 Finance & Operations (D36
- 2025-07-12 Warszawa => Programista Microsoft Dynamics 365 Finance & Operations (D
- 2025-07-12 Warszawa => Dyrektor IT <=
- 2025-07-12 Warszawa => IT Director <=
- 2025-07-12 Czy wypowiedź Kaczyńskiego o Braunie jest skarżalna? ["działa z OBCEJ inspiracji"]
- 2025-07-11 Rejestrator temperatur - termopara, siec
- 2025-07-11 DPD, przeniesienie numerów z a2mobile i z Orange