eGospodarka.pl
eGospodarka.pl poleca

eGospodarka.plGrupypl.comp.programmingJak efektywnie stwierdzić czy tekst jest w UTF8?Re: Jak efektywnie stwierdzić czy tekst jest w UTF8?
  • Path: news-archive.icm.edu.pl!news.gazeta.pl!not-for-mail
    From: "Borneq" <b...@a...hidden.pl>
    Newsgroups: pl.comp.programming
    Subject: Re: Jak efektywnie stwierdzić czy tekst jest w UTF8?
    Date: Wed, 13 Jun 2012 09:46:39 +0200
    Organization: "Portal Gazeta.pl -> http://www.gazeta.pl"
    Lines: 22
    Message-ID: <jr9ggv$mak$1@inews.gazeta.pl>
    References: <jr8els$en3$1@inews.gazeta.pl>
    NNTP-Posting-Host: 194.117.241.226
    Mime-Version: 1.0
    Content-Type: text/plain; format=flowed; charset="iso-8859-2"; reply-type=response
    Content-Transfer-Encoding: 8bit
    X-Trace: inews.gazeta.pl 1339573599 22868 194.117.241.226 (13 Jun 2012 07:46:39 GMT)
    X-Complaints-To: u...@a...pl
    NNTP-Posting-Date: Wed, 13 Jun 2012 07:46:39 +0000 (UTC)
    X-Antivirus-Status: Clean
    X-MimeOLE: Produced By Microsoft MimeOLE V6.00.2900.6157
    X-Priority: 3
    X-Newsreader: Microsoft Outlook Express 6.00.2900.5931
    X-User: bornega
    X-Antivirus: avast! (VPS 120612-1, 2012-06-12), Outbound message
    X-MSMail-Priority: Normal
    Xref: news-archive.icm.edu.pl pl.comp.programming:197872
    [ ukryj nagłówki ]

    Użytkownik "Borneq" <b...@a...hidden.pl> napisał w wiadomości
    news:jr8els$en3$1@inews.gazeta.pl...
    > Trenuję najpierw na tekstach otrzymując tabelkę 256 częstotliwości
    Metoda zliczań częstotliwości jest bezradna gdy mamy stwierdzić czy tekst
    jest w Unicode czy też w Uniocode z odwróceniem bajtów. Wtedy potrzebne
    byłyby dwie tabelki - dla parzystych i nieparzystych bajtów. Ale przyjmijmy
    że nie rozpoznajemy Unicode 16-bitowego lecz UTF-8.
    Wtedy zamiast częstotliwości 256 znaków będziemy mieli częstotliwość 7-mio
    bitowych i 8-io bitowych. Oba dzielą się na wystąpienia po 7-mio lub 8-io
    bitowym znaku.
    Ośmiobitowe należałoby podzielić na:
    10xxxxxx
    110xxxxx
    1110xxxx
    11110xxx
    111110xx
    1111110x
    razem z 0xxxxxxx i 1111111x będzie 8 klas.
    Czyli 64 gdy mamy wystąpienie po jakimś znaku. Choć to nie całkiem bo po
    1111110x powinno być aż 5 razy 10xxxxxx


Podziel się

Poleć ten post znajomemu poleć

Wydrukuj ten post drukuj


Następne wpisy z tego wątku

Najnowsze wątki z tej grupy


Najnowsze wątki

Szukaj w grupach

Eksperci egospodarka.pl

1 1 1

Wpisz nazwę miasta, dla którego chcesz znaleźć jednostkę ZUS.

Wzory dokumentów

Bezpłatne wzory dokumentów i formularzy.
Wyszukaj i pobierz za darmo: