eGospodarka.pl
eGospodarka.pl poleca

eGospodarka.plGrupypl.comp.programmingUnicode powyżej BMPRe: Unicode powyżej BMP
  • Path: news-archive.icm.edu.pl!news.rmf.pl!agh.edu.pl!news.agh.edu.pl!news.onet.pl!.PO
    STED!not-for-mail
    From: "Wiktor S." <w...@M...fm>
    Newsgroups: pl.comp.programming
    Subject: Re: Unicode powyżej BMP
    Date: Tue, 24 May 2011 23:03:01 +0200
    Organization: http://onet.pl
    Lines: 61
    Message-ID: <irh6fg$ig6$1@news.onet.pl>
    References: <irgrep$37m$1@news.onet.pl>
    NNTP-Posting-Host: 188.33.194.80
    Mime-Version: 1.0
    Content-Type: text/plain; format=flowed; charset="iso-8859-2"; reply-type=response
    Content-Transfer-Encoding: 8bit
    X-Trace: news.onet.pl 1306271024 18950 188.33.194.80 (24 May 2011 21:03:44 GMT)
    X-Complaints-To: n...@o...pl
    NNTP-Posting-Date: Tue, 24 May 2011 21:03:44 +0000 (UTC)
    In-Reply-To: <irgrep$37m$1@news.onet.pl>
    X-Priority: 3
    X-MSMail-Priority: Normal
    X-Newsreader: Microsoft Windows Mail 6.0.6002.18197
    X-MimeOLE: Produced By Microsoft MimeOLE V6.1.7601.17514
    Xref: news-archive.icm.edu.pl pl.comp.programming:190650
    [ ukryj nagłówki ]

    > Czy warto się tym przejmować?

    i tak i nie. z jednej strony, jest to część standardu. z drugiej strony,
    pisma tam umieszczone są już egzotyką pośród egzotyki. z trzeciej strony,
    miejsca jest dużo, więc z czasem może dodadzą tam jakiś bardzo-fajny zestaw
    znaków, który będzie zyskiwał na popularności: może coś na miarę
    dzisiejszych emotikonek, może jakieś kody sterujące, trudno przewidzieć.

    żeby się nie odcinać od tego obszaru, warto unikać odwoływania się do znaków
    poprzez konkretny, stały indeks jak str[5] -- a tylko gdy indeks pochodzi z
    funkcji typu find(), pos() czy podobnej: str[i].
    pojawi nam się jednak drugi problem: że nawet wyszukanego indeksu nie możemy
    ot tak sobie przesuwać (np. i++). ale problemu się pozbędziemy, jeśli string
    będzie albo zawsze traktowany jako całość, albo - jeśli konieczna jest jego
    analiza - przez wyrażenia regularne lub podobne funkcje biblioteczne, o ile
    oczywiście te będą prawidłowo obsługiwać surogaty.

    ale jeśli okaże się z tym za dużo zachodu, to póki co można machnąć ręką...

    > Czy używane są znaki powyżej granicy 64 Ki,

    skoro zostały zdefiniowane, to na pewno fascynaci takich znaków się
    znaleźli.

    > jakie fonty je używają aby przetestować?

    tutaj test egipskich hieroglifów, które są na pewno powyżej BMP
    http://users.teilar.gr/~g1951d/

    a tutaj różne czcionki, ale to już sprawdź które skrypty są w BMP a które
    korzystają z surogatów:
    http://www.alanwood.net/unicode/egyptian-hieroglyphs
    .html


    > Czy tekst złożony z dwóch surogatów podany do TextOut
    > da w rezultacie wyrysowany jeden znak?

    powinno. sprawdź...

    > Znaki chińskie i japońskie mieszczą się w planie podstawowym od
    > 0x4e00 do 0x9fff (miejsce na ponad 20 tys. ideogramów)

    no nie wszystkie, powyżej jest dalsze 50 tys. znaków, tu masz rozpiskę

    http://en.wikipedia.org/wiki/CJK_Unified_Ideographs#
    Unicode_version_history

    ale ideogramy które są powyżej BMP przeciętnego Chińczyka lub Japończyka
    interesują mniej więcej tyle, co nas głagolica, albo jakieś runy. do
    zastosowań w opracowaniach historycznych, językoznawczych i podobnych. w
    codziennej gazecie takich znaków nie uświadczysz.

    podsumowując: jeśli stringi tylko pobierasz, wczytujesz, składujesz,
    wyświetlasz - zawsze w całości, to nie musisz nic robić: przetestuj tylko
    czy wyświetlają się prawidłowo.
    problemy się zaczynają, gdy zaczynasz te stringi parsować, szatkować i
    wyżymać.


    --
    Azarien

Podziel się

Poleć ten post znajomemu poleć

Wydrukuj ten post drukuj


Następne wpisy z tego wątku

Najnowsze wątki z tej grupy


Najnowsze wątki

Szukaj w grupach

Eksperci egospodarka.pl

1 1 1

Wpisz nazwę miasta, dla którego chcesz znaleźć jednostkę ZUS.

Wzory dokumentów

Bezpłatne wzory dokumentów i formularzy.
Wyszukaj i pobierz za darmo: