-
Path: news-archive.icm.edu.pl!news.rmf.pl!agh.edu.pl!news.agh.edu.pl!news.onet.pl!not
-for-mail
From: "Borneq" <b...@a...hidden.pl>
Newsgroups: pl.comp.programming
Subject: Re: Klasyfikacja bayesowska stron kodowych
Date: Wed, 4 Aug 2010 01:45:04 +0200
Organization: http://onet.pl
Lines: 22
Message-ID: <i3a9mh$rfm$1@news.onet.pl>
References: <i317b8$4q1$1@news.onet.pl> <4c54a30f$0$19161$65785112@news.neostrada.pl>
<i3348k$779$1@news.onet.pl> <i33csp$q7p$1@news.onet.pl>
<4c57d3da$0$2605$65785112@news.neostrada.pl>
NNTP-Posting-Host: 194.117.241.226
Mime-Version: 1.0
Content-Type: text/plain; format=flowed; charset="iso-8859-2"; reply-type=original
Content-Transfer-Encoding: 8bit
X-Trace: news.onet.pl 1280879122 28150 194.117.241.226 (3 Aug 2010 23:45:22 GMT)
X-Complaints-To: n...@o...pl
NNTP-Posting-Date: Tue, 3 Aug 2010 23:45:22 +0000 (UTC)
X-Priority: 3
X-MSMail-Priority: Normal
X-Newsreader: Microsoft Outlook Express 6.00.2900.5931
X-MimeOLE: Produced By Microsoft MimeOLE V6.00.2900.5931
Xref: news-archive.icm.edu.pl pl.comp.programming:186253
[ ukryj nagłówki ]Użytkownik "Segmentation Fault" <c...@o...eu> napisał w
wiadomości news:4c57d3da$0$2605$65785112@news.neostrada.pl...
> Na Twoim miejscu zaczął bym od sprawdzenia jak zadziała histogram na
> Twoich danych, przed zaprzęganiem bayesa. I tak Ci się przyda porównanie
> z "prostszą" metodą, jak zrobisz tą bardziej skomplikowaną.
Na razie mam zbiór treningowy niezbyt duży 12 kB i taki sam (czyli duży)
zbiór testowy. Przy takiej ilości testowej prawdopodobieństwo bardzo szybko
przekracza minimalny zakres liczb (staje się mniejsze nawet niż 1e-32000)
dlatego liczby muszą być normalizowane. Dla porównania między Windows1250 a
Latin2 wystarcza histogram jednobajtowy i niedużo polskich liter w testowym
tekście aby doskonale rozróżnił. Należy zauważyć że te dwa standardy są
bardzo podobne, 12 na 18 znaków jest identycznych, ale wystarczył jeden znak
ś aby rozkład prawdopodobieństwa wyniósł 98.15% do 1.85%. Gdyby nie
wygładzanie (dodawanie jedynki do licznika i liczby znaków do mianownika w
celu eliminacji prawdopodobieństwa zerowego) byłoby to 100% do 0% - nic
dziwnego skoro litera występuje w jednym zbiorze kontrolnym a w drugim nie.
Zobaczymy jak to będzie dla Utf-8 i Utf-16. Dla tego ostatniego częstość
występowania jednego bitu nie wystarczy, bo może być w postaci big-endian i
little-endian ale ogólnie 1 bajtowe porównanie na tym przykładzie dobrze
sobie radzi.
Następne wpisy z tego wątku
- 04.08.10 12:33 Segmentation Fault
- 04.08.10 19:19 Borneq
- 04.08.10 20:15 Segmentation Fault
- 05.08.10 11:43 Borneq
Najnowsze wątki z tej grupy
- 7. Raport Totaliztyczny: Sprawa Qt Group wer. 424
- TCL - problem z escape ostatniego \ w nawiasach {}
- Nauka i Praca Programisty C++ w III Rzeczy (pospolitej)
- testy-wyd-sort - Podsumowanie
- Tworzenie Programów Nieuprzywilejowanych Opartych Na Wtyczkach
- Do czego nadaje się QDockWidget z bibl. Qt?
- Bibl. Qt jest sztucznie ograniczona - jest nieprzydatna do celów komercyjnych
- Co sciaga kretynow
- AEiC 2024 - Ada-Europe conference - Deadlines Approaching
- Jakie są dobre zasady programowania programów opartych na wtyczkach?
- sprawdzanie słów kluczowych dot. zła
- Re: W czym sie teraz pisze programy??
- Re: (PDF) Surgical Pathology of Non-neoplastic Gastrointestinal Diseases by Lizhi Zhang
- CfC 28th Ada-Europe Int. Conf. Reliable Software Technologies
- Młodzi programiści i tajna policja
Najnowsze wątki
- 2024-12-19 Kamerka sam. na tył
- 2024-12-20 Jak być bezpiecznym z Li-Ion?
- 2024-12-19 Fujitsu LIFEBOOK E746
- 2024-12-19 Katowice => Administrator IT - Systemy Operacyjne i Wirtualizacja <=
- 2024-12-19 Warszawa => Junior Account Manager <=
- 2024-12-19 Katowice => Administrator IT - Operating Systems and Virtualization <=
- 2024-12-19 Warszawa => Developer .NET (mid) <=
- 2024-12-19 Wrocław => Business Development Manager - Network and Network Securit
- 2024-12-19 Katowice => Full Stack web developer (obszar .Net Core, Angular6+) <=
- 2024-12-19 Olsztyn => Sales Specialist <=
- 2024-12-19 Żerniki => Specjalista ds. Employer Brandingu <=
- 2024-12-19 policja pomaga
- 2024-12-19 Kolejny biegły
- 2024-12-19 Taka ciekawostka skrzyżowaniowa
- 2024-12-19 koniki obsiadły kolejki i numerki