eGospodarka.pl
eGospodarka.pl poleca

eGospodarka.plGrupypl.comp.programmingKlasyfikacja bayesowska stron kodowychRe: Klasyfikacja bayesowska stron kodowych
  • Data: 2010-08-01 08:56:39
    Temat: Re: Klasyfikacja bayesowska stron kodowych
    Od: "Borneq" <b...@a...hidden.pl> szukaj wiadomości tego autora
    [ pokaż wszystkie nagłówki ]

    Użytkownik "Paweł Kierski" <n...@p...net> napisał w wiadomości
    news:i3348k$779$1@news.onet.pl...
    > W przypadku języka polskiego obstawiam, że może pomóc. Być może np.
    > 'ó' będzie często poprzedzało 'w'.

    Dla polskich kodowań ISO 8859-2 Latin-2 czy Windows-1250 mamy tylko 9 dużych
    i 9 małych znaków narodowych a reszta to Ascii i wystarczy tylko zbadać
    częstotliwość tych znaków, bo gdzie dla jednego kodowania będą te znaki to
    dla drugiego nie będą. Można by badać częstotliwość tylko znaków o kodzie
    >127.
    Dla cyrylicy jest inaczej, dla różnych kodowań są to znaki o kodach >127 i
    jeden znak w jednym kodowaniu odpowiada legalnemu znakowi w innym kodowaniu.
    Czyli jeden znak nie wystarczy, trzeba by badać częstotliwość par znaków.
    Dodatkowa trudność dochodzi gdy mamy zbadać czy nie mamy do czynienia z
    UTF-8. Tu mamy pary znaków, należy badać pary i uwaga - para zawsze musi
    zaczynać się od pierwszego bajtu utf-8. Pomocne będzie wyrzucenie znaków o
    kodach <128. Jednak tu problem; gdy mamy polskie ośmiobitowe kodowanie to
    gdy badamy częstotliwość to nie interesują nas pary "ąó" gdy te litery są
    oddzielone znakami Ascii ale raczej pary "ów" czyli nie wyrzucamy pary, gdy
    którykolwiek ma kod>128 (a raczej pierwszy, bo gdy drugi>128 to może być
    pierwszym znakiem utf-8)

Podziel się

Poleć ten post znajomemu poleć

Wydrukuj ten post drukuj


Następne wpisy z tego wątku

Najnowsze wątki z tej grupy


Najnowsze wątki

Szukaj w grupach

Eksperci egospodarka.pl

1 1 1

Wpisz nazwę miasta, dla którego chcesz znaleźć jednostkę ZUS.

Wzory dokumentów

Bezpłatne wzory dokumentów i formularzy.
Wyszukaj i pobierz za darmo: