-
Data: 2012-02-04 09:50:49
Temat: Re: odchylenie standardowe online
Od: " M.M." <m...@g...pl> szukaj wiadomości tego autora
[ pokaż wszystkie nagłówki ]bartekltg <b...@g...com> napisał(a):
> W dniu 2012-02-04 08:56, M.M. pisze:
> > bartekltg<b...@g...com> napisaĹ(a):
> >
> >>> Oj! SkĂ d to wiesz?! DaÄšÂoby siĂ np. sprawdziĂ testem nieparametr
> ycznym,
> >>> lecz... nie w kaĚźdym przypadku bÄšÂĂÂdy sĂ opisane tzw. rozkÄšÂad
> em normalnym
> >> .
> >>
> >> Rozumiesz tekst pisany? Gdy bÄšÂĂÂdy sa takie a takie to
> >> teg lin jest w pewnym sensie najlepsza. Teraz pojĂ ĚÂ?
> >
> > Regresja liniowa to w ogole wdzieczna metoda. Odznacza sie mala
> > zlozonoscia i jednoznacznosc wyniku. Mozna miec caly dysk zawalony
> > danymi i bez problemu znalezc 2-3tys liniowych parametrow.
>
> Z ta maĹÄ zĹoĹźonoĹciÄ aĹź tak bym nie przesadzaĹ.
Trzeba zbudowac macierz N x (N+1) gdzie N to ilosc parametrow.
3tys parametrow daje rozmiar 9mln liczb w macierzy. Czyli
mamy 9mln operacy typu A[ i * N + j ] += input[i] * input[j];
Ile to moze trwac? Okolo 1-10ms? To mamy okolo 100-1000 wektorow
na sekunde na jednym rdzeniu. Czyli na 6 rdzeniach na godzine mamy
od okolo 20 do 200 mln rekordow. W porownaniu do optymalizacji
nieliniowych smiem nazywac to super wydajnoscia :)
> Z samej regresji przyjdzmy do prawdziwego zadadnienie,
> czyli najmniejszych kwadratĂłw.
> Macierz X, parametry b, wyniki y.
> Szukamy b takiego, aby wektor Xb-y miaĹ najmniejszÄ dĹugoĹÄ.
>
> X jest rozmiaru n=[iloĹÄ zmiennych] na m=[iloĹÄ prĂłbek].
>
> RozwiÄ zanie tego rĂłwnaniem normalnym sprowadza siÄ
> do stworzenia ukĹadu rĂłwnaĹ z macierzÄ n x n, czyli
> rzeczywiĹcie maĹego, a X^t*X moĹźna policzyÄ w miarÄ
> sprawnie majÄ c peĹne X na dysku. Ale ta metoda
> jest kiepskawa numerycznie (uwarunkowanie
> nam siÄ skwadratowaĹo, a dla duĹźych X i tak byĹo
> najprawdopodobniej niemaĹe).
Trzeba chociaz rozwiazanie podstawic do rownania i zwykle
sprawdzenie zorbic. Dla moich danych nie mialem klopotow
ze stabilnoscia. Uzywalem tylko zwyklego double i eliminacji
gaussa napisanej na kolanie.
> Inne popularne metody ktĂłre nie majÄ tego problemu
> korzystajÄ z jakiĹ rozkĹadĂłw X. Ale wtedy niewygodnie
> to zrobiÄ na dysku:) No i ma te swoje n^3 czasu.
Czyli iteracyjnie na dysku. Rozmawialismy o tym jakis
czas temu na tej grupie (albo na C++). Oczywista podstawa to
sekwencyjny odczyt z dysku. Wtedy mialem bardzo specyficzne
dane, praktycznie po 5ciu przebiegach najprostszym algorytmem
uzyskiwalem zadowalajaca dokladnosc.
> Chyba, Ĺźe masz jakiĹ pomysĹ. KiedyĹ byĹa tu (albo
> w okolicy) doĹÄ powaĹźna dyskusja na ten temat.
Pewna ilosc parametrow traktowalem jako jedna stala, a
dla pozostalych budowalem zwykla macierz i rozwiazywalem
eliminacja gaussa. W nastepnym przebiegu inne parametrytry
traktowalem jak stala i tak w kolo az kazdy parametr
byl uwzgledniony X razy. Pewnie sa znane ciekawe metody
wyboru tych parametrow ktore w kolejnej iteracji potraktowac
jako stala, ja korzystalem z najprostszej, czyli z losowej z
kontrola powtorzen.
Ale ostatecznie lepsze rezultaty byly dla okolo 500-3000 parametrow i
nie bylo potrzeby zajezdzania dyskow.
Pozdrawiam
--
Wysłano z serwisu Usenet w portalu Gazeta.pl -> http://www.gazeta.pl/usenet/
Następne wpisy z tego wątku
- 04.02.12 10:16 slawek
- 04.02.12 12:35 M.M.
- 04.02.12 13:38 Roman W
- 09.02.12 13:00 slawek
- 09.02.12 13:46 bartekltg
- 09.02.12 14:01 bartekltg
- 09.02.12 16:17 Roman W
- 09.02.12 20:51 slawek
- 09.02.12 21:06 slawek
- 09.02.12 21:07 bartekltg
- 09.02.12 21:22 slawek
- 09.02.12 21:27 slawek
- 09.02.12 22:08 bartekltg
Najnowsze wątki z tej grupy
- 7. Raport Totaliztyczny: Sprawa Qt Group wer. 424
- TCL - problem z escape ostatniego \ w nawiasach {}
- Nauka i Praca Programisty C++ w III Rzeczy (pospolitej)
- testy-wyd-sort - Podsumowanie
- Tworzenie Programów Nieuprzywilejowanych Opartych Na Wtyczkach
- Do czego nadaje się QDockWidget z bibl. Qt?
- Bibl. Qt jest sztucznie ograniczona - jest nieprzydatna do celów komercyjnych
- Co sciaga kretynow
- AEiC 2024 - Ada-Europe conference - Deadlines Approaching
- Jakie są dobre zasady programowania programów opartych na wtyczkach?
- sprawdzanie słów kluczowych dot. zła
- Re: W czym sie teraz pisze programy??
- Re: (PDF) Surgical Pathology of Non-neoplastic Gastrointestinal Diseases by Lizhi Zhang
- CfC 28th Ada-Europe Int. Conf. Reliable Software Technologies
- Młodzi programiści i tajna policja
Najnowsze wątki
- 2024-12-12 Warszawa => Administrator Bezpieczeństwa IT <=
- 2024-12-12 Ostrów Wielkopolski => Trener zespołu sprzedaży Call Center <=
- 2024-12-12 Kraków => Key Account Manager <=
- 2024-12-11 SEP 1 kV E
- 2024-12-11 DNS restrictions are on
- 2024-12-11 wielkie bu
- 2024-12-11 Białystok => Inżynier bezpieczeństwa aplikacji <=
- 2024-12-11 Aku LiPo źródło dostaw - ktoś poleci ?
- 2024-12-11 Warszawa => Specjalista Bezpieczeństwa Informacji <=
- 2024-12-11 Wrocław => Application Security Engineer <=
- 2024-12-11 Warszawa => Analyst in the Trade Development department (experience wi
- 2024-12-11 Lublin => Programista Delphi <=
- 2024-12-11 Motodziennik #305 Nowy ELEKTRYK za 350 złotych miesięcznie? Kreatywne kredytowanie problemów
- 2024-12-11 Warszawa => Spedytor Międzynarodowy <=
- 2024-12-11 Katowice => Key Account Manager (ERP) <=