-
Path: news-archive.icm.edu.pl!news.rmf.pl!agh.edu.pl!news.agh.edu.pl!news.onet.pl!new
s.nask.pl!news.nask.org.pl!newsfeed00.sul.t-online.de!t-online.de!border2.nntp.
dca.giganews.com!nntp.giganews.com!nx02.iad01.newshosting.com!newshosting.com!n
ewsfeed.neostrada.pl!unt-exc-01.news.neostrada.pl!unt-spo-a-01.news.neostrada.p
l!news.neostrada.pl.POSTED!not-for-mail
Date: Wed, 04 Aug 2010 22:15:09 +0200
From: Segmentation Fault <c...@o...eu>
User-Agent: Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.9.1.11) Gecko/20100713
Thunderbird/3.0.6
MIME-Version: 1.0
Newsgroups: pl.comp.programming
Subject: Re: Klasyfikacja bayesowska stron kodowych
References: <i317b8$4q1$1@news.onet.pl> <4c54a30f$0$19161$65785112@news.neostrada.pl>
<i3348k$779$1@news.onet.pl> <i33csp$q7p$1@news.onet.pl>
<4c57d3da$0$2605$65785112@news.neostrada.pl> <i3a9mh$rfm$1@news.onet.pl>
<4c595e1a$0$2604$65785112@news.neostrada.pl> <i3ceh7$6dk$1@news.onet.pl>
In-Reply-To: <i3ceh7$6dk$1@news.onet.pl>
Content-Type: text/plain; charset=ISO-8859-2
Content-Transfer-Encoding: 8bit
Lines: 51
Message-ID: <4c59ca48$0$19184$65785112@news.neostrada.pl>
Organization: Telekomunikacja Polska
NNTP-Posting-Host: 83.20.251.100
X-Trace: 1280952904 unt-rea-a-01.news.neostrada.pl 19184 83.20.251.100:36157
X-Complaints-To: a...@n...neostrada.pl
Xref: news-archive.icm.edu.pl pl.comp.programming:186260
[ ukryj nagłówki ]On 08/04/2010 09:19 PM, Borneq wrote:
> Użytkownik "Segmentation Fault" <c...@o...eu> napisał w
> wiadomości news:4c595e1a$0$2604$65785112@news.neostrada.pl...
>> A jak liczysz i porównujesz histogramy ?
>> Ja bym policzył "ile każdego znaczka", potem bym znormalizował
>> ( podzielił wystąpienia każdego znaczka przez ilość wszystkich znaczków
>> w tekście ). Przy 12.000 znaków "najmniejsza" liczba to będzie 0.000083,
>> więc jeszcze mieści się we float, na pewno w double.
>
> Najpierw przechodzę plik i zliczam wystąpienie znaku w tablicy 256
> wordów. Więcej niż połowa pól tej tablicy jest zwykle zerowa. Mam
> prawdopodobieństwa, czyli ilość wystąpień znaków podzieloną przez np.12000.
> Prawdopodobieństwo to np. 1/100. Teraz gdy mnożę 1/100*1/100*..1/100 np.
> tysiąc razy otrzymuję liczbę mniejsza niż najmniejsza możliwa
> rzeczywista, dlatego potrzebna jest normalizacja.
Ale dlaczego mnożysz tyle razy ?
Czy nie wystarczy policzyć histogram, znormalizować i porównać go ze
wzorcowymi, znormalizowanymi histogramami dla każdego z kodowań?
I wybrać "najbardziej podobne" kodowanie ?
( Znormalizować znaczy żeby sumował się do 1, jak rozkład
prawdopodobieństwa )
Wzorcowy histogram może być z dużego tekstu; jeśli histogramy z różnych
długich tekstów w tym samym języku i kodowaniu będą się dużo różnić, to
i tak pomysł z histogramem nie zadziała ).
Normalizuję w ten
> sposób że ustawiam cechę na 1023 co oznacza że liczba staje się z
> przedziału (1;2) oraz sumuję, ile do kolejnych cech dodałem.
> Otrzymuję bardzo zdecydowane rozkłady prawdopodobieństw - jedynka dla
> klasy z którą się zgadza i liczby bardzo bliskie zera dla pozostałych
> klas. Kłopot jest z Unicodem który ma ten sam histogram niezależnie czy
> kolejność bajtów w znaku jest młodszy-starszy czy odwrotnie. Nie opłaca
> się robić tablicy par znaków zamiast znaków bo oznaczałoby to 256 krotne
> powiększenie tablicy (albo trochę mniej po odrzuceniu pustych i
> zorganizowaniu tego jako nie tablicy). Zamierzam zrobić dwie tablice po
> 256 znaków specjalnie dla Unicode - częstości parzystych i nieparzystych
> bajtów, z których to tablic program korzystałby gdyby zaklasyfikował już
> tekst jako Unicode.
>
>> Potem te znormalizowane histogramy porównywał bym np. licząc korelację
>> ( albo poeksperymentował bym z innymi metodami; wzorki tu:
>> http://opencv.willowgarage.com/documentation/histogr
ams.html#comparehist
>
> Ciekawe, można by jeszcze porównywac dwa histogramy.
>
> Pozdrawiam
Następne wpisy z tego wątku
- 05.08.10 11:43 Borneq
Najnowsze wątki z tej grupy
- Arch. Prog. Nieuprzywilejowanych w pełnej wer. na nowej s. WWW energokod.pl
- 7. Raport Totaliztyczny: Sprawa Qt Group wer. 424
- TCL - problem z escape ostatniego \ w nawiasach {}
- Nauka i Praca Programisty C++ w III Rzeczy (pospolitej)
- testy-wyd-sort - Podsumowanie
- Tworzenie Programów Nieuprzywilejowanych Opartych Na Wtyczkach
- Do czego nadaje się QDockWidget z bibl. Qt?
- Bibl. Qt jest sztucznie ograniczona - jest nieprzydatna do celów komercyjnych
- Co sciaga kretynow
- AEiC 2024 - Ada-Europe conference - Deadlines Approaching
- Jakie są dobre zasady programowania programów opartych na wtyczkach?
- sprawdzanie słów kluczowych dot. zła
- Re: W czym sie teraz pisze programy??
- Re: (PDF) Surgical Pathology of Non-neoplastic Gastrointestinal Diseases by Lizhi Zhang
- CfC 28th Ada-Europe Int. Conf. Reliable Software Technologies
Najnowsze wątki
- 2024-12-28 Antyradar
- 2024-12-28 Deweloper przegral w sadzie musi zwrócic pieniądze Posypia sie kolejne pozwy?
- 2024-12-28 Warszawa => Full Stack .Net Engineer <=
- 2024-12-28 Warszawa => Sales Assistant <=
- 2024-12-28 Warszawa => Programista Full Stack .Net <=
- 2024-12-28 Warszawa => Full Stack web developer (obszar .Net Core, Angular6+) <=
- 2024-12-28 Katowice => Head of Virtualization Platform Management and Operating S
- 2024-12-28 Błonie => Analityk Systemów Informatycznych (TMS SPEED) <=
- 2024-12-28 Warszawa => Senior Frontend Developer (React + React Native) <=
- 2024-12-28 Żerniki => Employer Branding Specialist <=
- 2024-12-28 ale zawziętość i cierpliwość
- 2024-12-27 most kilometrowy
- 2024-12-27 Dyplomaci a alkomaty
- 2024-12-27 Zmiana kary
- 2024-12-27 Chiński elektrolizer tester wody