eGospodarka.pl
eGospodarka.pl poleca

eGospodarka.plGrupypl.comp.programmingJak efektywnie stwierdzić czy tekst jest w UTF8?Re: Jak efektywnie stwierdzić czy tekst jest w UTF8?
  • Data: 2012-06-13 13:19:34
    Temat: Re: Jak efektywnie stwierdzić czy tekst jest w UTF8?
    Od: Paweł Kierski <n...@p...net> szukaj wiadomości tego autora
    [ pokaż wszystkie nagłówki ]

    W dniu 2012-06-13 09:46, Borneq pisze:
    > Użytkownik "Borneq" <b...@a...hidden.pl> napisał w wiadomości
    > news:jr8els$en3$1@inews.gazeta.pl...
    >> Trenuję najpierw na tekstach otrzymując tabelkę 256 częstotliwości
    > Metoda zliczań częstotliwości jest bezradna gdy mamy stwierdzić czy
    > tekst jest w Unicode czy też w Uniocode z odwróceniem bajtów. Wtedy
    > potrzebne byłyby dwie tabelki - dla parzystych i nieparzystych bajtów.
    > Ale przyjmijmy że nie rozpoznajemy Unicode 16-bitowego lecz UTF-8.
    > Wtedy zamiast częstotliwości 256 znaków będziemy mieli częstotliwość
    > 7-mio bitowych i 8-io bitowych. Oba dzielą się na wystąpienia po 7-mio
    > lub 8-io bitowym znaku.
    > Ośmiobitowe należałoby podzielić na:
    > 10xxxxxx
    > 110xxxxx
    > 1110xxxx
    > 11110xxx
    > 111110xx
    > 1111110x
    > razem z 0xxxxxxx i 1111111x będzie 8 klas.
    > Czyli 64 gdy mamy wystąpienie po jakimś znaku. Choć to nie całkiem bo po
    > 1111110x powinno być aż 5 razy 10xxxxxx

    W aktualnym zestawie UNICODE nie ma code pointów o numerach, które
    wymagają kodowania na więcej niż 4 bajtach w UTF-8. Wystarczą tylko
    pierwsze 3 klasy.


    --
    Paweł Kierski
    n...@p...net

Podziel się

Poleć ten post znajomemu poleć

Wydrukuj ten post drukuj


Następne wpisy z tego wątku

Najnowsze wątki z tej grupy


Najnowsze wątki

Szukaj w grupach

Eksperci egospodarka.pl

1 1 1

Wpisz nazwę miasta, dla którego chcesz znaleźć jednostkę ZUS.

Wzory dokumentów

Bezpłatne wzory dokumentów i formularzy.
Wyszukaj i pobierz za darmo: