-
Path: news-archive.icm.edu.pl!news.rmf.pl!agh.edu.pl!news.agh.edu.pl!news.onet.pl!not
-for-mail
From: "Borneq" <b...@a...hidden.pl>
Newsgroups: pl.comp.programming
Subject: Re: Klasyfikacja bayesowska stron kodowych
Date: Wed, 4 Aug 2010 21:19:44 +0200
Organization: http://onet.pl
Lines: 34
Message-ID: <i3ceh7$6dk$1@news.onet.pl>
References: <i317b8$4q1$1@news.onet.pl> <4c54a30f$0$19161$65785112@news.neostrada.pl>
<i3348k$779$1@news.onet.pl> <i33csp$q7p$1@news.onet.pl>
<4c57d3da$0$2605$65785112@news.neostrada.pl> <i3a9mh$rfm$1@news.onet.pl>
<4c595e1a$0$2604$65785112@news.neostrada.pl>
NNTP-Posting-Host: 194.117.241.226
Mime-Version: 1.0
Content-Type: text/plain; format=flowed; charset="iso-8859-2"; reply-type=original
Content-Transfer-Encoding: 8bit
X-Trace: news.onet.pl 1280949607 6580 194.117.241.226 (4 Aug 2010 19:20:07 GMT)
X-Complaints-To: n...@o...pl
NNTP-Posting-Date: Wed, 4 Aug 2010 19:20:07 +0000 (UTC)
X-Priority: 3
X-MSMail-Priority: Normal
X-Newsreader: Microsoft Outlook Express 6.00.2900.5931
X-MimeOLE: Produced By Microsoft MimeOLE V6.00.2900.5931
Xref: news-archive.icm.edu.pl pl.comp.programming:186259
[ ukryj nagłówki ]Użytkownik "Segmentation Fault" <c...@o...eu> napisał w
wiadomości news:4c595e1a$0$2604$65785112@news.neostrada.pl...
> A jak liczysz i porównujesz histogramy ?
> Ja bym policzył "ile każdego znaczka", potem bym znormalizował
> ( podzielił wystąpienia każdego znaczka przez ilość wszystkich znaczków
> w tekście ). Przy 12.000 znaków "najmniejsza" liczba to będzie 0.000083,
> więc jeszcze mieści się we float, na pewno w double.
Najpierw przechodzę plik i zliczam wystąpienie znaku w tablicy 256 wordów.
Więcej niż połowa pól tej tablicy jest zwykle zerowa. Mam
prawdopodobieństwa, czyli ilość wystąpień znaków podzieloną przez np.12000.
Prawdopodobieństwo to np. 1/100. Teraz gdy mnożę 1/100*1/100*..1/100 np.
tysiąc razy otrzymuję liczbę mniejsza niż najmniejsza możliwa rzeczywista,
dlatego potrzebna jest normalizacja. Normalizuję w ten sposób że ustawiam
cechę na 1023 co oznacza że liczba staje się z przedziału (1;2) oraz sumuję,
ile do kolejnych cech dodałem.
Otrzymuję bardzo zdecydowane rozkłady prawdopodobieństw - jedynka dla klasy
z którą się zgadza i liczby bardzo bliskie zera dla pozostałych klas. Kłopot
jest z Unicodem który ma ten sam histogram niezależnie czy kolejność bajtów
w znaku jest młodszy-starszy czy odwrotnie. Nie opłaca się robić tablicy par
znaków zamiast znaków bo oznaczałoby to 256 krotne powiększenie tablicy
(albo trochę mniej po odrzuceniu pustych i zorganizowaniu tego jako nie
tablicy). Zamierzam zrobić dwie tablice po 256 znaków specjalnie dla
Unicode - częstości parzystych i nieparzystych bajtów, z których to tablic
program korzystałby gdyby zaklasyfikował już tekst jako Unicode.
> Potem te znormalizowane histogramy porównywał bym np. licząc korelację
> ( albo poeksperymentował bym z innymi metodami; wzorki tu:
> http://opencv.willowgarage.com/documentation/histogr
ams.html#comparehist
Ciekawe, można by jeszcze porównywac dwa histogramy.
Pozdrawiam
Następne wpisy z tego wątku
- 04.08.10 20:15 Segmentation Fault
- 05.08.10 11:43 Borneq
Najnowsze wątki z tej grupy
- Popr. 14. Nauka i Praca Programisty C++ w III Rzeczy (pospolitej)
- Arch. Prog. Nieuprzywilejowanych w pełnej wer. na nowej s. WWW energokod.pl
- 7. Raport Totaliztyczny: Sprawa Qt Group wer. 424
- TCL - problem z escape ostatniego \ w nawiasach {}
- Nauka i Praca Programisty C++ w III Rzeczy (pospolitej)
- testy-wyd-sort - Podsumowanie
- Tworzenie Programów Nieuprzywilejowanych Opartych Na Wtyczkach
- Do czego nadaje się QDockWidget z bibl. Qt?
- Bibl. Qt jest sztucznie ograniczona - jest nieprzydatna do celów komercyjnych
- Co sciaga kretynow
- AEiC 2024 - Ada-Europe conference - Deadlines Approaching
- Jakie są dobre zasady programowania programów opartych na wtyczkach?
- sprawdzanie słów kluczowych dot. zła
- Re: W czym sie teraz pisze programy??
- Re: (PDF) Surgical Pathology of Non-neoplastic Gastrointestinal Diseases by Lizhi Zhang
Najnowsze wątki
- 2025-02-05 Re: UK: Michał K. dalej czeka na rozprawę ekstradycyjną w areszcie [bo nie (jeszcze?) zebrał kaucji]
- 2025-02-04 ranking wyciszenia, głośność, hałas przy 130 km/h, na postoju, przy przyspieszaniu
- 2025-02-05 Warszawa => IT Recruiter <=
- 2025-02-05 Ostrów Wielkopolski => Area Sales Manager OZE <=
- 2025-02-05 Rzeszów => Spedytor Międzynarodowy <=
- 2025-02-05 Warszawa => IT Business Analyst <=
- 2025-02-05 Warszawa => Specjalista DevOps <=
- 2025-02-05 Łódź => NodeJS Developer <=
- 2025-02-05 Warszawa => QA Engineer (Quality Assurance) <=
- 2025-02-05 Gdańsk => Specjalista ds. Sprzedaży <=
- 2025-02-05 Warszawa => QA Engineer <=
- 2025-02-05 Warszawa => Programista Full Stack .Net <=
- 2025-02-05 Re: UK: Michał K. dalej czeka na rozprawę ekstradycyjną w areszcie [bo nie (jeszcze?) zebrał kaucji]
- 2025-02-04 podpisywanie umów z datą wsteczną
- 2025-02-04 Radio internetowe do starego Androida