eGospodarka.pl
eGospodarka.pl poleca

eGospodarka.plGrupypl.comp.programmingKlasyfikacja bayesowska stron kodowychRe: Klasyfikacja bayesowska stron kodowych
  • Path: news-archive.icm.edu.pl!news.rmf.pl!agh.edu.pl!news.agh.edu.pl!news.onet.pl!not
    -for-mail
    From: "Borneq" <b...@a...hidden.pl>
    Newsgroups: pl.comp.programming
    Subject: Re: Klasyfikacja bayesowska stron kodowych
    Date: Wed, 4 Aug 2010 21:19:44 +0200
    Organization: http://onet.pl
    Lines: 34
    Message-ID: <i3ceh7$6dk$1@news.onet.pl>
    References: <i317b8$4q1$1@news.onet.pl> <4c54a30f$0$19161$65785112@news.neostrada.pl>
    <i3348k$779$1@news.onet.pl> <i33csp$q7p$1@news.onet.pl>
    <4c57d3da$0$2605$65785112@news.neostrada.pl> <i3a9mh$rfm$1@news.onet.pl>
    <4c595e1a$0$2604$65785112@news.neostrada.pl>
    NNTP-Posting-Host: 194.117.241.226
    Mime-Version: 1.0
    Content-Type: text/plain; format=flowed; charset="iso-8859-2"; reply-type=original
    Content-Transfer-Encoding: 8bit
    X-Trace: news.onet.pl 1280949607 6580 194.117.241.226 (4 Aug 2010 19:20:07 GMT)
    X-Complaints-To: n...@o...pl
    NNTP-Posting-Date: Wed, 4 Aug 2010 19:20:07 +0000 (UTC)
    X-Priority: 3
    X-MSMail-Priority: Normal
    X-Newsreader: Microsoft Outlook Express 6.00.2900.5931
    X-MimeOLE: Produced By Microsoft MimeOLE V6.00.2900.5931
    Xref: news-archive.icm.edu.pl pl.comp.programming:186259
    [ ukryj nagłówki ]

    Użytkownik "Segmentation Fault" <c...@o...eu> napisał w
    wiadomości news:4c595e1a$0$2604$65785112@news.neostrada.pl...
    > A jak liczysz i porównujesz histogramy ?
    > Ja bym policzył "ile każdego znaczka", potem bym znormalizował
    > ( podzielił wystąpienia każdego znaczka przez ilość wszystkich znaczków
    > w tekście ). Przy 12.000 znaków "najmniejsza" liczba to będzie 0.000083,
    > więc jeszcze mieści się we float, na pewno w double.

    Najpierw przechodzę plik i zliczam wystąpienie znaku w tablicy 256 wordów.
    Więcej niż połowa pól tej tablicy jest zwykle zerowa. Mam
    prawdopodobieństwa, czyli ilość wystąpień znaków podzieloną przez np.12000.
    Prawdopodobieństwo to np. 1/100. Teraz gdy mnożę 1/100*1/100*..1/100 np.
    tysiąc razy otrzymuję liczbę mniejsza niż najmniejsza możliwa rzeczywista,
    dlatego potrzebna jest normalizacja. Normalizuję w ten sposób że ustawiam
    cechę na 1023 co oznacza że liczba staje się z przedziału (1;2) oraz sumuję,
    ile do kolejnych cech dodałem.
    Otrzymuję bardzo zdecydowane rozkłady prawdopodobieństw - jedynka dla klasy
    z którą się zgadza i liczby bardzo bliskie zera dla pozostałych klas. Kłopot
    jest z Unicodem który ma ten sam histogram niezależnie czy kolejność bajtów
    w znaku jest młodszy-starszy czy odwrotnie. Nie opłaca się robić tablicy par
    znaków zamiast znaków bo oznaczałoby to 256 krotne powiększenie tablicy
    (albo trochę mniej po odrzuceniu pustych i zorganizowaniu tego jako nie
    tablicy). Zamierzam zrobić dwie tablice po 256 znaków specjalnie dla
    Unicode - częstości parzystych i nieparzystych bajtów, z których to tablic
    program korzystałby gdyby zaklasyfikował już tekst jako Unicode.

    > Potem te znormalizowane histogramy porównywał bym np. licząc korelację
    > ( albo poeksperymentował bym z innymi metodami; wzorki tu:
    > http://opencv.willowgarage.com/documentation/histogr
    ams.html#comparehist

    Ciekawe, można by jeszcze porównywac dwa histogramy.

    Pozdrawiam

Podziel się

Poleć ten post znajomemu poleć

Wydrukuj ten post drukuj


Następne wpisy z tego wątku

Najnowsze wątki z tej grupy


Najnowsze wątki

Szukaj w grupach

Eksperci egospodarka.pl

1 1 1

Wpisz nazwę miasta, dla którego chcesz znaleźć jednostkę ZUS.

Wzory dokumentów

Bezpłatne wzory dokumentów i formularzy.
Wyszukaj i pobierz za darmo: