eGospodarka.pl
eGospodarka.pl poleca

eGospodarka.plGrupypl.comp.programmingKlasyfikacja bayesowska stron kodowychRe: Klasyfikacja bayesowska stron kodowych
  • Path: news-archive.icm.edu.pl!news.rmf.pl!agh.edu.pl!news.agh.edu.pl!news.onet.pl!new
    s.nask.pl!news.nask.org.pl!newsfeed00.sul.t-online.de!t-online.de!border2.nntp.
    dca.giganews.com!nntp.giganews.com!nx02.iad01.newshosting.com!newshosting.com!n
    ewsfeed.neostrada.pl!unt-exc-01.news.neostrada.pl!unt-spo-a-01.news.neostrada.p
    l!news.neostrada.pl.POSTED!not-for-mail
    Date: Wed, 04 Aug 2010 22:15:09 +0200
    From: Segmentation Fault <c...@o...eu>
    User-Agent: Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.9.1.11) Gecko/20100713
    Thunderbird/3.0.6
    MIME-Version: 1.0
    Newsgroups: pl.comp.programming
    Subject: Re: Klasyfikacja bayesowska stron kodowych
    References: <i317b8$4q1$1@news.onet.pl> <4c54a30f$0$19161$65785112@news.neostrada.pl>
    <i3348k$779$1@news.onet.pl> <i33csp$q7p$1@news.onet.pl>
    <4c57d3da$0$2605$65785112@news.neostrada.pl> <i3a9mh$rfm$1@news.onet.pl>
    <4c595e1a$0$2604$65785112@news.neostrada.pl> <i3ceh7$6dk$1@news.onet.pl>
    In-Reply-To: <i3ceh7$6dk$1@news.onet.pl>
    Content-Type: text/plain; charset=ISO-8859-2
    Content-Transfer-Encoding: 8bit
    Lines: 51
    Message-ID: <4c59ca48$0$19184$65785112@news.neostrada.pl>
    Organization: Telekomunikacja Polska
    NNTP-Posting-Host: 83.20.251.100
    X-Trace: 1280952904 unt-rea-a-01.news.neostrada.pl 19184 83.20.251.100:36157
    X-Complaints-To: a...@n...neostrada.pl
    Xref: news-archive.icm.edu.pl pl.comp.programming:186260
    [ ukryj nagłówki ]

    On 08/04/2010 09:19 PM, Borneq wrote:
    > Użytkownik "Segmentation Fault" <c...@o...eu> napisał w
    > wiadomości news:4c595e1a$0$2604$65785112@news.neostrada.pl...
    >> A jak liczysz i porównujesz histogramy ?
    >> Ja bym policzył "ile każdego znaczka", potem bym znormalizował
    >> ( podzielił wystąpienia każdego znaczka przez ilość wszystkich znaczków
    >> w tekście ). Przy 12.000 znaków "najmniejsza" liczba to będzie 0.000083,
    >> więc jeszcze mieści się we float, na pewno w double.
    >
    > Najpierw przechodzę plik i zliczam wystąpienie znaku w tablicy 256
    > wordów. Więcej niż połowa pól tej tablicy jest zwykle zerowa. Mam
    > prawdopodobieństwa, czyli ilość wystąpień znaków podzieloną przez np.12000.
    > Prawdopodobieństwo to np. 1/100. Teraz gdy mnożę 1/100*1/100*..1/100 np.
    > tysiąc razy otrzymuję liczbę mniejsza niż najmniejsza możliwa
    > rzeczywista, dlatego potrzebna jest normalizacja.

    Ale dlaczego mnożysz tyle razy ?
    Czy nie wystarczy policzyć histogram, znormalizować i porównać go ze
    wzorcowymi, znormalizowanymi histogramami dla każdego z kodowań?
    I wybrać "najbardziej podobne" kodowanie ?

    ( Znormalizować znaczy żeby sumował się do 1, jak rozkład
    prawdopodobieństwa )

    Wzorcowy histogram może być z dużego tekstu; jeśli histogramy z różnych
    długich tekstów w tym samym języku i kodowaniu będą się dużo różnić, to
    i tak pomysł z histogramem nie zadziała ).


    Normalizuję w ten
    > sposób że ustawiam cechę na 1023 co oznacza że liczba staje się z
    > przedziału (1;2) oraz sumuję, ile do kolejnych cech dodałem.
    > Otrzymuję bardzo zdecydowane rozkłady prawdopodobieństw - jedynka dla
    > klasy z którą się zgadza i liczby bardzo bliskie zera dla pozostałych
    > klas. Kłopot jest z Unicodem który ma ten sam histogram niezależnie czy
    > kolejność bajtów w znaku jest młodszy-starszy czy odwrotnie. Nie opłaca
    > się robić tablicy par znaków zamiast znaków bo oznaczałoby to 256 krotne
    > powiększenie tablicy (albo trochę mniej po odrzuceniu pustych i
    > zorganizowaniu tego jako nie tablicy). Zamierzam zrobić dwie tablice po
    > 256 znaków specjalnie dla Unicode - częstości parzystych i nieparzystych
    > bajtów, z których to tablic program korzystałby gdyby zaklasyfikował już
    > tekst jako Unicode.
    >
    >> Potem te znormalizowane histogramy porównywał bym np. licząc korelację
    >> ( albo poeksperymentował bym z innymi metodami; wzorki tu:
    >> http://opencv.willowgarage.com/documentation/histogr
    ams.html#comparehist
    >
    > Ciekawe, można by jeszcze porównywac dwa histogramy.
    >
    > Pozdrawiam

Podziel się

Poleć ten post znajomemu poleć

Wydrukuj ten post drukuj


Następne wpisy z tego wątku

Najnowsze wątki z tej grupy


Najnowsze wątki

Szukaj w grupach

Eksperci egospodarka.pl

1 1 1

Wpisz nazwę miasta, dla którego chcesz znaleźć jednostkę ZUS.

Wzory dokumentów

Bezpłatne wzory dokumentów i formularzy.
Wyszukaj i pobierz za darmo: