-
Path: news-archive.icm.edu.pl!news.gazeta.pl!not-for-mail
From: " M.M." <m...@g...pl>
Newsgroups: pl.comp.programming
Subject: Re: odchylenie standardowe online
Date: Sat, 4 Feb 2012 09:50:49 +0000 (UTC)
Organization: "Portal Gazeta.pl -> http://www.gazeta.pl"
Lines: 75
Message-ID: <jgiv1p$7ii$1@inews.gazeta.pl>
References: <jg4sr8$lv$1@inews.gazeta.pl> <o...@a...home>
<jg573t$glv$1@inews.gazeta.pl> <jg57nu$6bg$1@node2.news.atman.pl>
<4f296d0d$0$1268$65785112@news.neostrada.pl>
<jgcjb1$8pk$1@node2.news.atman.pl>
<4f2ad4a1$0$1209$65785112@news.neostrada.pl>
<jgga8c$3ht$1@node2.news.atman.pl>
<4f2c2271$0$1232$65785112@news.neostrada.pl>
<jghahj$77l$1@node2.news.atman.pl>
<4f2c45b9$0$1232$65785112@news.neostrada.pl>
<jgihb1$dog$1@node2.news.atman.pl> <jgioan$lg3$1@inews.gazeta.pl>
<jgiph1$lov$1@node2.news.atman.pl>
NNTP-Posting-Host: localhost
Content-Type: text/plain; charset=ISO-8859-2
Content-Transfer-Encoding: 8bit
X-Trace: inews.gazeta.pl 1328349049 7762 172.20.26.236 (4 Feb 2012 09:50:49 GMT)
X-Complaints-To: u...@a...pl
NNTP-Posting-Date: Sat, 4 Feb 2012 09:50:49 +0000 (UTC)
X-User: mariotti
X-Forwarded-For: 89.229.34.123
X-Remote-IP: localhost
Xref: news-archive.icm.edu.pl pl.comp.programming:195072
[ ukryj nagłówki ]bartekltg <b...@g...com> napisał(a):
> W dniu 2012-02-04 08:56, M.M. pisze:
> > bartekltg<b...@g...com> napisaĹ(a):
> >
> >>> Oj! SkĂ d to wiesz?! DaÄšÂoby siĂ np. sprawdziĂ testem nieparametr
> ycznym,
> >>> lecz... nie w kaĚźdym przypadku bÄšÂĂÂdy sĂ opisane tzw. rozkÄšÂad
> em normalnym
> >> .
> >>
> >> Rozumiesz tekst pisany? Gdy bÄšÂĂÂdy sa takie a takie to
> >> teg lin jest w pewnym sensie najlepsza. Teraz pojĂ ĚÂ?
> >
> > Regresja liniowa to w ogole wdzieczna metoda. Odznacza sie mala
> > zlozonoscia i jednoznacznosc wyniku. Mozna miec caly dysk zawalony
> > danymi i bez problemu znalezc 2-3tys liniowych parametrow.
>
> Z ta maĹÄ zĹoĹźonoĹciÄ aĹź tak bym nie przesadzaĹ.
Trzeba zbudowac macierz N x (N+1) gdzie N to ilosc parametrow.
3tys parametrow daje rozmiar 9mln liczb w macierzy. Czyli
mamy 9mln operacy typu A[ i * N + j ] += input[i] * input[j];
Ile to moze trwac? Okolo 1-10ms? To mamy okolo 100-1000 wektorow
na sekunde na jednym rdzeniu. Czyli na 6 rdzeniach na godzine mamy
od okolo 20 do 200 mln rekordow. W porownaniu do optymalizacji
nieliniowych smiem nazywac to super wydajnoscia :)
> Z samej regresji przyjdzmy do prawdziwego zadadnienie,
> czyli najmniejszych kwadratĂłw.
> Macierz X, parametry b, wyniki y.
> Szukamy b takiego, aby wektor Xb-y miaĹ najmniejszÄ dĹugoĹÄ.
>
> X jest rozmiaru n=[iloĹÄ zmiennych] na m=[iloĹÄ prĂłbek].
>
> RozwiÄ zanie tego rĂłwnaniem normalnym sprowadza siÄ
> do stworzenia ukĹadu rĂłwnaĹ z macierzÄ n x n, czyli
> rzeczywiĹcie maĹego, a X^t*X moĹźna policzyÄ w miarÄ
> sprawnie majÄ c peĹne X na dysku. Ale ta metoda
> jest kiepskawa numerycznie (uwarunkowanie
> nam siÄ skwadratowaĹo, a dla duĹźych X i tak byĹo
> najprawdopodobniej niemaĹe).
Trzeba chociaz rozwiazanie podstawic do rownania i zwykle
sprawdzenie zorbic. Dla moich danych nie mialem klopotow
ze stabilnoscia. Uzywalem tylko zwyklego double i eliminacji
gaussa napisanej na kolanie.
> Inne popularne metody ktĂłre nie majÄ tego problemu
> korzystajÄ z jakiĹ rozkĹadĂłw X. Ale wtedy niewygodnie
> to zrobiÄ na dysku:) No i ma te swoje n^3 czasu.
Czyli iteracyjnie na dysku. Rozmawialismy o tym jakis
czas temu na tej grupie (albo na C++). Oczywista podstawa to
sekwencyjny odczyt z dysku. Wtedy mialem bardzo specyficzne
dane, praktycznie po 5ciu przebiegach najprostszym algorytmem
uzyskiwalem zadowalajaca dokladnosc.
> Chyba, Ĺźe masz jakiĹ pomysĹ. KiedyĹ byĹa tu (albo
> w okolicy) doĹÄ powaĹźna dyskusja na ten temat.
Pewna ilosc parametrow traktowalem jako jedna stala, a
dla pozostalych budowalem zwykla macierz i rozwiazywalem
eliminacja gaussa. W nastepnym przebiegu inne parametrytry
traktowalem jak stala i tak w kolo az kazdy parametr
byl uwzgledniony X razy. Pewnie sa znane ciekawe metody
wyboru tych parametrow ktore w kolejnej iteracji potraktowac
jako stala, ja korzystalem z najprostszej, czyli z losowej z
kontrola powtorzen.
Ale ostatecznie lepsze rezultaty byly dla okolo 500-3000 parametrow i
nie bylo potrzeby zajezdzania dyskow.
Pozdrawiam
--
Wysłano z serwisu Usenet w portalu Gazeta.pl -> http://www.gazeta.pl/usenet/
Następne wpisy z tego wątku
- 04.02.12 10:16 slawek
- 04.02.12 12:35 M.M.
- 04.02.12 13:38 Roman W
- 09.02.12 13:00 slawek
- 09.02.12 13:46 bartekltg
- 09.02.12 14:01 bartekltg
- 09.02.12 16:17 Roman W
- 09.02.12 20:51 slawek
- 09.02.12 21:06 slawek
- 09.02.12 21:07 bartekltg
- 09.02.12 21:22 slawek
- 09.02.12 21:27 slawek
- 09.02.12 22:08 bartekltg
Najnowsze wątki z tej grupy
- Can you activate BMW 48V 10Ah Li-Ion battery, connecting to CAN-USB laptop interface ?
- We Wrocławiu ruszyła Odra 5, pierwszy w Polsce komputer kwantowy z nadprzewodzącymi kubitami
- Ada-Europe - AEiC 2025 early registration deadline imminent
- John Carmack twierdzi, że gdyby gry były optymalizowane, to wystarczyły by stare kompy
- Ada-Europe Int.Conf. Reliable Software Technologies, AEiC 2025
- Linuks od wer. 6.15 przestanie wspierać procesory 486 i będzie wymagać min. Pentium
- ,,Polski przemysł jest w stanie agonalnym" - podkreślił dobitnie, wskazując na brak zamówień.
- Rewolucja w debugowaniu!!! SI analizuje zrzuty pamięci systemu M$ Windows!!!
- Brednie w wiki - hasło Dehomag
- Perfidne ataki krakerów z KRLD na skrypciarzy JS i Pajton
- Instytut IDEAS może zacząć działać: "Ma to być unikalny w europejskiej skali ośrodek badań nad sztuczną inteligencją."
- Instytut IDEAS może zacząć działać: "Ma to być unikalny w europejskiej skali ośrodek badań nad sztuczną inteligencją."
- Instytut IDEAS może zacząć działać: "Ma to być unikalny w europejskiej skali ośrodek badań nad sztuczną inteligencją."
- U nas propagują modę na SI, a w Chinach naukowcy SI po kolei umierają w wieku 40-50lat
- C++. Podróż Po Języku - komentarz
Najnowsze wątki
- 2025-07-16 Warszawa => Inżynier oprogramowania .Net <=
- 2025-07-16 Tadeusz Rolke RIP
- 2025-07-14 Dwa dylematy
- 2025-07-14 Re: Dwa dylematy
- 2025-07-14 [UOKiK] Jeronimo Martins, właścicielowi sieci Biedronka, [przedstawił zarzut] udział[u] w zmowie z 32 firmami transportowymi.
- 2025-07-14 Re: Dwa dylematy
- 2025-07-14 Re: Dwa dylematy
- 2025-07-15 w czasach LED komary mają ciężko
- 2025-07-14 walizka z kodami
- 2025-07-15 Warszawa => Konsultant Wiodący SAP PP <=
- 2025-07-15 Warszawa => Lead SAP PP Consultant <=
- 2025-07-15 China => Production Coordinator / Representant Product Dev <=
- 2025-07-15 Warszawa => IT Data Analyst (Power BI) <=
- 2025-07-15 Teoretyczny przypadek
- 2025-07-15 Totaliztyczne Prawa i Obowiązki Człowieka: dodałem p. 11 zabraniający efektywnych, podatków przekraczających 49% zysków