eGospodarka.pl
eGospodarka.pl poleca

eGospodarka.plGrupypl.comp.programmingKlasyfikacja bayesowska stron kodowychRe: Klasyfikacja bayesowska stron kodowych
  • Path: news-archive.icm.edu.pl!news.rmf.pl!agh.edu.pl!news.agh.edu.pl!news.onet.pl!not
    -for-mail
    From: "Borneq" <b...@a...hidden.pl>
    Newsgroups: pl.comp.programming
    Subject: Re: Klasyfikacja bayesowska stron kodowych
    Date: Sun, 1 Aug 2010 10:56:39 +0200
    Organization: http://onet.pl
    Lines: 22
    Message-ID: <i33csp$q7p$1@news.onet.pl>
    References: <i317b8$4q1$1@news.onet.pl> <4c54a30f$0$19161$65785112@news.neostrada.pl>
    <i3348k$779$1@news.onet.pl>
    NNTP-Posting-Host: 194.117.241.226
    Mime-Version: 1.0
    Content-Type: text/plain; format=flowed; charset="iso-8859-2"; reply-type=response
    Content-Transfer-Encoding: 8bit
    X-Trace: news.onet.pl 1280653017 26873 194.117.241.226 (1 Aug 2010 08:56:57 GMT)
    X-Complaints-To: n...@o...pl
    NNTP-Posting-Date: Sun, 1 Aug 2010 08:56:57 +0000 (UTC)
    X-Priority: 3
    X-MSMail-Priority: Normal
    X-Newsreader: Microsoft Outlook Express 6.00.2900.5931
    X-MimeOLE: Produced By Microsoft MimeOLE V6.00.2900.5931
    Xref: news-archive.icm.edu.pl pl.comp.programming:186212
    [ ukryj nagłówki ]

    Użytkownik "Paweł Kierski" <n...@p...net> napisał w wiadomości
    news:i3348k$779$1@news.onet.pl...
    > W przypadku języka polskiego obstawiam, że może pomóc. Być może np.
    > 'ó' będzie często poprzedzało 'w'.

    Dla polskich kodowań ISO 8859-2 Latin-2 czy Windows-1250 mamy tylko 9 dużych
    i 9 małych znaków narodowych a reszta to Ascii i wystarczy tylko zbadać
    częstotliwość tych znaków, bo gdzie dla jednego kodowania będą te znaki to
    dla drugiego nie będą. Można by badać częstotliwość tylko znaków o kodzie
    >127.
    Dla cyrylicy jest inaczej, dla różnych kodowań są to znaki o kodach >127 i
    jeden znak w jednym kodowaniu odpowiada legalnemu znakowi w innym kodowaniu.
    Czyli jeden znak nie wystarczy, trzeba by badać częstotliwość par znaków.
    Dodatkowa trudność dochodzi gdy mamy zbadać czy nie mamy do czynienia z
    UTF-8. Tu mamy pary znaków, należy badać pary i uwaga - para zawsze musi
    zaczynać się od pierwszego bajtu utf-8. Pomocne będzie wyrzucenie znaków o
    kodach <128. Jednak tu problem; gdy mamy polskie ośmiobitowe kodowanie to
    gdy badamy częstotliwość to nie interesują nas pary "ąó" gdy te litery są
    oddzielone znakami Ascii ale raczej pary "ów" czyli nie wyrzucamy pary, gdy
    którykolwiek ma kod>128 (a raczej pierwszy, bo gdy drugi>128 to może być
    pierwszym znakiem utf-8)

Podziel się

Poleć ten post znajomemu poleć

Wydrukuj ten post drukuj


Następne wpisy z tego wątku

Najnowsze wątki z tej grupy


Najnowsze wątki

Szukaj w grupach

Eksperci egospodarka.pl

1 1 1

Wpisz nazwę miasta, dla którego chcesz znaleźć jednostkę ZUS.

Wzory dokumentów

Bezpłatne wzory dokumentów i formularzy.
Wyszukaj i pobierz za darmo: