-
Path: news-archive.icm.edu.pl!news.rmf.pl!nf1.ipartners.pl!ipartners.pl!news.nask.pl!
news.nask.org.pl!newsfeed00.sul.t-online.de!t-online.de!border2.nntp.dca.gigane
ws.com!nntp.giganews.com!nx02.iad01.newshosting.com!newshosting.com!newsfeed.ne
ostrada.pl!unt-exc-01.news.neostrada.pl!unt-spo-b-01.news.neostrada.pl!news.neo
strada.pl.POSTED!not-for-mail
Date: Tue, 03 Aug 2010 10:31:22 +0200
From: Segmentation Fault <c...@o...eu>
User-Agent: Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.9.1.11) Gecko/20100713
Thunderbird/3.0.6
MIME-Version: 1.0
Newsgroups: pl.comp.programming
Subject: Re: Klasyfikacja bayesowska stron kodowych
References: <i317b8$4q1$1@news.onet.pl> <4c54a30f$0$19161$65785112@news.neostrada.pl>
<i3348k$779$1@news.onet.pl> <i33csp$q7p$1@news.onet.pl>
In-Reply-To: <i33csp$q7p$1@news.onet.pl>
Content-Type: text/plain; charset=ISO-8859-2
Content-Transfer-Encoding: 8bit
Lines: 32
Message-ID: <4c57d3da$0$2605$65785112@news.neostrada.pl>
Organization: Telekomunikacja Polska
NNTP-Posting-Host: 79.191.156.83
X-Trace: 1280824282 unt-rea-a-02.news.neostrada.pl 2605 79.191.156.83:48220
X-Complaints-To: a...@n...neostrada.pl
Xref: news-archive.icm.edu.pl pl.comp.programming:186242
[ ukryj nagłówki ]On 08/01/2010 10:56 AM, Borneq wrote:
> Użytkownik "Paweł Kierski" <n...@p...net> napisał w wiadomości
> news:i3348k$779$1@news.onet.pl...
>> W przypadku języka polskiego obstawiam, że może pomóc. Być może np.
>> 'ó' będzie często poprzedzało 'w'.
>
> Dla polskich kodowań ISO 8859-2 Latin-2 czy Windows-1250 mamy tylko 9
> dużych i 9 małych znaków narodowych a reszta to Ascii i wystarczy tylko
> zbadać częstotliwość tych znaków, bo gdzie dla jednego kodowania będą te
> znaki to dla drugiego nie będą. Można by badać częstotliwość tylko
> znaków o kodzie >127.
> Dla cyrylicy jest inaczej, dla różnych kodowań są to znaki o kodach >127
> i jeden znak w jednym kodowaniu odpowiada legalnemu znakowi w innym
> kodowaniu. Czyli jeden znak nie wystarczy, trzeba by badać częstotliwość
> par znaków. Dodatkowa trudność dochodzi gdy mamy zbadać czy nie mamy do
> czynienia z UTF-8. Tu mamy pary znaków, należy badać pary i uwaga - para
> zawsze musi zaczynać się od pierwszego bajtu utf-8. Pomocne będzie
> wyrzucenie znaków o kodach <128. Jednak tu problem; gdy mamy polskie
> ośmiobitowe kodowanie to gdy badamy częstotliwość to nie interesują nas
> pary "ąó" gdy te litery są oddzielone znakami Ascii ale raczej pary "ów"
> czyli nie wyrzucamy pary, gdy którykolwiek ma kod>128 (a raczej
> pierwszy, bo gdy drugi>128 to może być pierwszym znakiem utf-8)
No dobra, ale to nie przeszkadza w liczeniu histogramów. Histogram musi
być po prostu lepiej budowany, nie bajt po bajcie.
Nie musi też przeszkadzać, że niektóre znaki w różnych kodowaniach
znaczą coś innego. Prawdopodobnie występują z różną częstotliwością
i to wyjdzie przy porównywaniu histogramów.
Na Twoim miejscu zaczął bym od sprawdzenia jak zadziała histogram na
Twoich danych, przed zaprzęganiem bayesa. I tak Ci się przyda porównanie
z "prostszą" metodą, jak zrobisz tą bardziej skomplikowaną.
Następne wpisy z tego wątku
- 03.08.10 23:45 Borneq
- 04.08.10 12:33 Segmentation Fault
- 04.08.10 19:19 Borneq
- 04.08.10 20:15 Segmentation Fault
- 05.08.10 11:43 Borneq
Najnowsze wątki z tej grupy
- Arch. Prog. Nieuprzywilejowanych w pełnej wer. na nowej s. WWW energokod.pl
- 7. Raport Totaliztyczny: Sprawa Qt Group wer. 424
- TCL - problem z escape ostatniego \ w nawiasach {}
- Nauka i Praca Programisty C++ w III Rzeczy (pospolitej)
- testy-wyd-sort - Podsumowanie
- Tworzenie Programów Nieuprzywilejowanych Opartych Na Wtyczkach
- Do czego nadaje się QDockWidget z bibl. Qt?
- Bibl. Qt jest sztucznie ograniczona - jest nieprzydatna do celów komercyjnych
- Co sciaga kretynow
- AEiC 2024 - Ada-Europe conference - Deadlines Approaching
- Jakie są dobre zasady programowania programów opartych na wtyczkach?
- sprawdzanie słów kluczowych dot. zła
- Re: W czym sie teraz pisze programy??
- Re: (PDF) Surgical Pathology of Non-neoplastic Gastrointestinal Diseases by Lizhi Zhang
- CfC 28th Ada-Europe Int. Conf. Reliable Software Technologies
Najnowsze wątki
- 2024-12-23 Riga => Specjalista ds. public relations <=
- 2024-12-23 Łódź => Specjalista ds. Sprzedaży <=
- 2024-12-23 Kraków => International Freight Forwarder <=
- 2024-12-23 Co nalezy do Cinkciarza, a co do Conotoxia ?
- 2024-12-23 Poznań => Key Account Manager <=
- 2024-12-23 Warszawa => Presales / Inżynier Wsparcia Technicznego IT <=
- 2024-12-23 Rzeszów => Spedytor Międzynarodowy <=
- 2024-12-23 Warszawa => Infrastructure Automation Engineer <=
- 2024-12-23 Białystok => Analityk w dziale Trade Development (doświadczenie z Po
- 2024-12-23 Warszawa => Site Reliability Engineer (SRE) <=
- 2024-12-23 Warszawa => DevOps Engineer <=
- 2024-12-23 Warszawa => Senior Account Manager <=
- 2024-12-23 Katowice => Regionalny Kierownik Sprzedaży (OZE) <=
- 2024-12-23 Katowice => Administrator IT - Wirtualizacja i Konteneryzacja <=
- 2024-12-23 Mińsk Mazowiecki => Spedytor Międzynarodowy <=