-
Data: 2010-08-01 08:56:39
Temat: Re: Klasyfikacja bayesowska stron kodowych
Od: "Borneq" <b...@a...hidden.pl> szukaj wiadomości tego autora
[ pokaż wszystkie nagłówki ]Użytkownik "Paweł Kierski" <n...@p...net> napisał w wiadomości
news:i3348k$779$1@news.onet.pl...
> W przypadku języka polskiego obstawiam, że może pomóc. Być może np.
> 'ó' będzie często poprzedzało 'w'.
Dla polskich kodowań ISO 8859-2 Latin-2 czy Windows-1250 mamy tylko 9 dużych
i 9 małych znaków narodowych a reszta to Ascii i wystarczy tylko zbadać
częstotliwość tych znaków, bo gdzie dla jednego kodowania będą te znaki to
dla drugiego nie będą. Można by badać częstotliwość tylko znaków o kodzie
>127.
Dla cyrylicy jest inaczej, dla różnych kodowań są to znaki o kodach >127 i
jeden znak w jednym kodowaniu odpowiada legalnemu znakowi w innym kodowaniu.
Czyli jeden znak nie wystarczy, trzeba by badać częstotliwość par znaków.
Dodatkowa trudność dochodzi gdy mamy zbadać czy nie mamy do czynienia z
UTF-8. Tu mamy pary znaków, należy badać pary i uwaga - para zawsze musi
zaczynać się od pierwszego bajtu utf-8. Pomocne będzie wyrzucenie znaków o
kodach <128. Jednak tu problem; gdy mamy polskie ośmiobitowe kodowanie to
gdy badamy częstotliwość to nie interesują nas pary "ąó" gdy te litery są
oddzielone znakami Ascii ale raczej pary "ów" czyli nie wyrzucamy pary, gdy
którykolwiek ma kod>128 (a raczej pierwszy, bo gdy drugi>128 to może być
pierwszym znakiem utf-8)
Następne wpisy z tego wątku
- 01.08.10 09:00 Borneq
- 01.08.10 12:25 Borneq
- 03.08.10 08:31 Segmentation Fault
- 03.08.10 23:45 Borneq
- 04.08.10 12:33 Segmentation Fault
- 04.08.10 19:19 Borneq
- 04.08.10 20:15 Segmentation Fault
- 05.08.10 11:43 Borneq
Najnowsze wątki z tej grupy
- TCL - problem z escape ostatniego \ w nawiasach {}
- Nauka i Praca Programisty C++ w III Rzeczy (pospolitej)
- testy-wyd-sort - Podsumowanie
- Tworzenie Programów Nieuprzywilejowanych Opartych Na Wtyczkach
- Do czego nadaje się QDockWidget z bibl. Qt?
- Bibl. Qt jest sztucznie ograniczona - jest nieprzydatna do celów komercyjnych
- Co sciaga kretynow
- AEiC 2024 - Ada-Europe conference - Deadlines Approaching
- Jakie są dobre zasady programowania programów opartych na wtyczkach?
- sprawdzanie słów kluczowych dot. zła
- Re: W czym sie teraz pisze programy??
- Re: (PDF) Surgical Pathology of Non-neoplastic Gastrointestinal Diseases by Lizhi Zhang
- CfC 28th Ada-Europe Int. Conf. Reliable Software Technologies
- Młodzi programiści i tajna policja
- Ada 2022 Language Reference Manual to be Published by Springer
Najnowsze wątki
- 2024-11-08 Belka
- 2024-11-09 pierdolec na punkcie psa
- 2024-11-09 Warszawa => Sales Executive <=
- 2024-11-09 Wrocław => SAP BTP Consultant (mid/senior) <=
- 2024-11-09 Warszawa => ECM Specialist / Consultant <=
- 2024-11-09 Warszawa => Senior Frontend Developer (React + React Native) <=
- 2024-11-10 TVN donosi: Obywatelskie zatrzymanie policjanta (nie na służbie)
- 2024-11-08 Warszawa => Head of International Freight Forwarding Department <=
- 2024-11-08 Warszawa => Key Account Manager <=
- 2024-11-08 Szczecin => Key Account Manager (ERP) <=
- 2024-11-08 Białystok => Full Stack web developer (obszar .Net Core, Angular6+) <
- 2024-11-08 Wrocław => Senior PHP Symfony Developer <=
- 2024-11-08 Warszawa => QA Engineer <=
- 2024-11-08 Warszawa => QA Inżynier <=
- 2024-11-08 Warszawa => Key Account Manager <=