-
Data: 2010-08-01 08:56:39
Temat: Re: Klasyfikacja bayesowska stron kodowych
Od: "Borneq" <b...@a...hidden.pl> szukaj wiadomości tego autora
[ pokaż wszystkie nagłówki ]Użytkownik "Paweł Kierski" <n...@p...net> napisał w wiadomości
news:i3348k$779$1@news.onet.pl...
> W przypadku języka polskiego obstawiam, że może pomóc. Być może np.
> 'ó' będzie często poprzedzało 'w'.
Dla polskich kodowań ISO 8859-2 Latin-2 czy Windows-1250 mamy tylko 9 dużych
i 9 małych znaków narodowych a reszta to Ascii i wystarczy tylko zbadać
częstotliwość tych znaków, bo gdzie dla jednego kodowania będą te znaki to
dla drugiego nie będą. Można by badać częstotliwość tylko znaków o kodzie
>127.
Dla cyrylicy jest inaczej, dla różnych kodowań są to znaki o kodach >127 i
jeden znak w jednym kodowaniu odpowiada legalnemu znakowi w innym kodowaniu.
Czyli jeden znak nie wystarczy, trzeba by badać częstotliwość par znaków.
Dodatkowa trudność dochodzi gdy mamy zbadać czy nie mamy do czynienia z
UTF-8. Tu mamy pary znaków, należy badać pary i uwaga - para zawsze musi
zaczynać się od pierwszego bajtu utf-8. Pomocne będzie wyrzucenie znaków o
kodach <128. Jednak tu problem; gdy mamy polskie ośmiobitowe kodowanie to
gdy badamy częstotliwość to nie interesują nas pary "ąó" gdy te litery są
oddzielone znakami Ascii ale raczej pary "ów" czyli nie wyrzucamy pary, gdy
którykolwiek ma kod>128 (a raczej pierwszy, bo gdy drugi>128 to może być
pierwszym znakiem utf-8)
Następne wpisy z tego wątku
- 01.08.10 09:00 Borneq
- 01.08.10 12:25 Borneq
- 03.08.10 08:31 Segmentation Fault
- 03.08.10 23:45 Borneq
- 04.08.10 12:33 Segmentation Fault
- 04.08.10 19:19 Borneq
- 04.08.10 20:15 Segmentation Fault
- 05.08.10 11:43 Borneq
Najnowsze wątki z tej grupy
- Popr. 14. Nauka i Praca Programisty C++ w III Rzeczy (pospolitej)
- Arch. Prog. Nieuprzywilejowanych w pełnej wer. na nowej s. WWW energokod.pl
- 7. Raport Totaliztyczny: Sprawa Qt Group wer. 424
- TCL - problem z escape ostatniego \ w nawiasach {}
- Nauka i Praca Programisty C++ w III Rzeczy (pospolitej)
- testy-wyd-sort - Podsumowanie
- Tworzenie Programów Nieuprzywilejowanych Opartych Na Wtyczkach
- Do czego nadaje się QDockWidget z bibl. Qt?
- Bibl. Qt jest sztucznie ograniczona - jest nieprzydatna do celów komercyjnych
- Co sciaga kretynow
- AEiC 2024 - Ada-Europe conference - Deadlines Approaching
- Jakie są dobre zasady programowania programów opartych na wtyczkach?
- sprawdzanie słów kluczowych dot. zła
- Re: W czym sie teraz pisze programy??
- Re: (PDF) Surgical Pathology of Non-neoplastic Gastrointestinal Diseases by Lizhi Zhang
Najnowsze wątki
- 2025-02-05 Re: UK: Michał K. dalej czeka na rozprawę ekstradycyjną w areszcie [bo nie (jeszcze?) zebrał kaucji]
- 2025-02-04 ranking wyciszenia, głośność, hałas przy 130 km/h, na postoju, przy przyspieszaniu
- 2025-02-05 Warszawa => IT Recruiter <=
- 2025-02-05 Ostrów Wielkopolski => Area Sales Manager OZE <=
- 2025-02-05 Rzeszów => Spedytor Międzynarodowy <=
- 2025-02-05 Warszawa => IT Business Analyst <=
- 2025-02-05 Warszawa => Specjalista DevOps <=
- 2025-02-05 Łódź => NodeJS Developer <=
- 2025-02-05 Warszawa => QA Engineer (Quality Assurance) <=
- 2025-02-05 Gdańsk => Specjalista ds. Sprzedaży <=
- 2025-02-05 Warszawa => QA Engineer <=
- 2025-02-05 Warszawa => Programista Full Stack .Net <=
- 2025-02-05 Re: UK: Michał K. dalej czeka na rozprawę ekstradycyjną w areszcie [bo nie (jeszcze?) zebrał kaucji]
- 2025-02-04 podpisywanie umów z datą wsteczną
- 2025-02-04 Radio internetowe do starego Androida