-
Path: news-archive.icm.edu.pl!news.rmf.pl!agh.edu.pl!news.agh.edu.pl!news.onet.pl!not
-for-mail
From: "Borneq" <b...@a...hidden.pl>
Newsgroups: pl.comp.programming
Subject: Re: Klasyfikacja bayesowska stron kodowych
Date: Sun, 1 Aug 2010 10:56:39 +0200
Organization: http://onet.pl
Lines: 22
Message-ID: <i33csp$q7p$1@news.onet.pl>
References: <i317b8$4q1$1@news.onet.pl> <4c54a30f$0$19161$65785112@news.neostrada.pl>
<i3348k$779$1@news.onet.pl>
NNTP-Posting-Host: 194.117.241.226
Mime-Version: 1.0
Content-Type: text/plain; format=flowed; charset="iso-8859-2"; reply-type=response
Content-Transfer-Encoding: 8bit
X-Trace: news.onet.pl 1280653017 26873 194.117.241.226 (1 Aug 2010 08:56:57 GMT)
X-Complaints-To: n...@o...pl
NNTP-Posting-Date: Sun, 1 Aug 2010 08:56:57 +0000 (UTC)
X-Priority: 3
X-MSMail-Priority: Normal
X-Newsreader: Microsoft Outlook Express 6.00.2900.5931
X-MimeOLE: Produced By Microsoft MimeOLE V6.00.2900.5931
Xref: news-archive.icm.edu.pl pl.comp.programming:186212
[ ukryj nagłówki ]Użytkownik "Paweł Kierski" <n...@p...net> napisał w wiadomości
news:i3348k$779$1@news.onet.pl...
> W przypadku języka polskiego obstawiam, że może pomóc. Być może np.
> 'ó' będzie często poprzedzało 'w'.
Dla polskich kodowań ISO 8859-2 Latin-2 czy Windows-1250 mamy tylko 9 dużych
i 9 małych znaków narodowych a reszta to Ascii i wystarczy tylko zbadać
częstotliwość tych znaków, bo gdzie dla jednego kodowania będą te znaki to
dla drugiego nie będą. Można by badać częstotliwość tylko znaków o kodzie
>127.
Dla cyrylicy jest inaczej, dla różnych kodowań są to znaki o kodach >127 i
jeden znak w jednym kodowaniu odpowiada legalnemu znakowi w innym kodowaniu.
Czyli jeden znak nie wystarczy, trzeba by badać częstotliwość par znaków.
Dodatkowa trudność dochodzi gdy mamy zbadać czy nie mamy do czynienia z
UTF-8. Tu mamy pary znaków, należy badać pary i uwaga - para zawsze musi
zaczynać się od pierwszego bajtu utf-8. Pomocne będzie wyrzucenie znaków o
kodach <128. Jednak tu problem; gdy mamy polskie ośmiobitowe kodowanie to
gdy badamy częstotliwość to nie interesują nas pary "ąó" gdy te litery są
oddzielone znakami Ascii ale raczej pary "ów" czyli nie wyrzucamy pary, gdy
którykolwiek ma kod>128 (a raczej pierwszy, bo gdy drugi>128 to może być
pierwszym znakiem utf-8)
Następne wpisy z tego wątku
- 01.08.10 09:00 Borneq
- 01.08.10 12:25 Borneq
- 03.08.10 08:31 Segmentation Fault
- 03.08.10 23:45 Borneq
- 04.08.10 12:33 Segmentation Fault
- 04.08.10 19:19 Borneq
- 04.08.10 20:15 Segmentation Fault
- 05.08.10 11:43 Borneq
Najnowsze wątki z tej grupy
- Arch. Prog. Nieuprzywilejowanych w pełnej wer. na nowej s. WWW energokod.pl
- 7. Raport Totaliztyczny: Sprawa Qt Group wer. 424
- TCL - problem z escape ostatniego \ w nawiasach {}
- Nauka i Praca Programisty C++ w III Rzeczy (pospolitej)
- testy-wyd-sort - Podsumowanie
- Tworzenie Programów Nieuprzywilejowanych Opartych Na Wtyczkach
- Do czego nadaje się QDockWidget z bibl. Qt?
- Bibl. Qt jest sztucznie ograniczona - jest nieprzydatna do celów komercyjnych
- Co sciaga kretynow
- AEiC 2024 - Ada-Europe conference - Deadlines Approaching
- Jakie są dobre zasady programowania programów opartych na wtyczkach?
- sprawdzanie słów kluczowych dot. zła
- Re: W czym sie teraz pisze programy??
- Re: (PDF) Surgical Pathology of Non-neoplastic Gastrointestinal Diseases by Lizhi Zhang
- CfC 28th Ada-Europe Int. Conf. Reliable Software Technologies
Najnowsze wątki
- 2024-12-23 Riga => Specjalista ds. public relations <=
- 2024-12-23 Łódź => Specjalista ds. Sprzedaży <=
- 2024-12-23 Kraków => International Freight Forwarder <=
- 2024-12-23 Co nalezy do Cinkciarza, a co do Conotoxia ?
- 2024-12-23 Poznań => Key Account Manager <=
- 2024-12-23 Warszawa => Presales / Inżynier Wsparcia Technicznego IT <=
- 2024-12-23 Rzeszów => Spedytor Międzynarodowy <=
- 2024-12-23 Warszawa => Infrastructure Automation Engineer <=
- 2024-12-23 Białystok => Analityk w dziale Trade Development (doświadczenie z Po
- 2024-12-23 Warszawa => Site Reliability Engineer (SRE) <=
- 2024-12-23 Warszawa => DevOps Engineer <=
- 2024-12-23 Warszawa => Senior Account Manager <=
- 2024-12-23 Katowice => Regionalny Kierownik Sprzedaży (OZE) <=
- 2024-12-23 Katowice => Administrator IT - Wirtualizacja i Konteneryzacja <=
- 2024-12-23 Mińsk Mazowiecki => Spedytor Międzynarodowy <=