-
Path: news-archive.icm.edu.pl!news.rmf.pl!agh.edu.pl!news.agh.edu.pl!news.onet.pl!.PO
STED!not-for-mail
From: "Wiktor S." <w...@M...fm>
Newsgroups: pl.comp.programming
Subject: Re: Unicode powyżej BMP
Date: Tue, 24 May 2011 23:03:01 +0200
Organization: http://onet.pl
Lines: 61
Message-ID: <irh6fg$ig6$1@news.onet.pl>
References: <irgrep$37m$1@news.onet.pl>
NNTP-Posting-Host: 188.33.194.80
Mime-Version: 1.0
Content-Type: text/plain; format=flowed; charset="iso-8859-2"; reply-type=response
Content-Transfer-Encoding: 8bit
X-Trace: news.onet.pl 1306271024 18950 188.33.194.80 (24 May 2011 21:03:44 GMT)
X-Complaints-To: n...@o...pl
NNTP-Posting-Date: Tue, 24 May 2011 21:03:44 +0000 (UTC)
In-Reply-To: <irgrep$37m$1@news.onet.pl>
X-Priority: 3
X-MSMail-Priority: Normal
X-Newsreader: Microsoft Windows Mail 6.0.6002.18197
X-MimeOLE: Produced By Microsoft MimeOLE V6.1.7601.17514
Xref: news-archive.icm.edu.pl pl.comp.programming:190650
[ ukryj nagłówki ]> Czy warto się tym przejmować?
i tak i nie. z jednej strony, jest to część standardu. z drugiej strony,
pisma tam umieszczone są już egzotyką pośród egzotyki. z trzeciej strony,
miejsca jest dużo, więc z czasem może dodadzą tam jakiś bardzo-fajny zestaw
znaków, który będzie zyskiwał na popularności: może coś na miarę
dzisiejszych emotikonek, może jakieś kody sterujące, trudno przewidzieć.
żeby się nie odcinać od tego obszaru, warto unikać odwoływania się do znaków
poprzez konkretny, stały indeks jak str[5] -- a tylko gdy indeks pochodzi z
funkcji typu find(), pos() czy podobnej: str[i].
pojawi nam się jednak drugi problem: że nawet wyszukanego indeksu nie możemy
ot tak sobie przesuwać (np. i++). ale problemu się pozbędziemy, jeśli string
będzie albo zawsze traktowany jako całość, albo - jeśli konieczna jest jego
analiza - przez wyrażenia regularne lub podobne funkcje biblioteczne, o ile
oczywiście te będą prawidłowo obsługiwać surogaty.
ale jeśli okaże się z tym za dużo zachodu, to póki co można machnąć ręką...
> Czy używane są znaki powyżej granicy 64 Ki,
skoro zostały zdefiniowane, to na pewno fascynaci takich znaków się
znaleźli.
> jakie fonty je używają aby przetestować?
tutaj test egipskich hieroglifów, które są na pewno powyżej BMP
http://users.teilar.gr/~g1951d/
a tutaj różne czcionki, ale to już sprawdź które skrypty są w BMP a które
korzystają z surogatów:
http://www.alanwood.net/unicode/egyptian-hieroglyphs
.html
> Czy tekst złożony z dwóch surogatów podany do TextOut
> da w rezultacie wyrysowany jeden znak?
powinno. sprawdź...
> Znaki chińskie i japońskie mieszczą się w planie podstawowym od
> 0x4e00 do 0x9fff (miejsce na ponad 20 tys. ideogramów)
no nie wszystkie, powyżej jest dalsze 50 tys. znaków, tu masz rozpiskę
http://en.wikipedia.org/wiki/CJK_Unified_Ideographs#
Unicode_version_history
ale ideogramy które są powyżej BMP przeciętnego Chińczyka lub Japończyka
interesują mniej więcej tyle, co nas głagolica, albo jakieś runy. do
zastosowań w opracowaniach historycznych, językoznawczych i podobnych. w
codziennej gazecie takich znaków nie uświadczysz.
podsumowując: jeśli stringi tylko pobierasz, wczytujesz, składujesz,
wyświetlasz - zawsze w całości, to nie musisz nic robić: przetestuj tylko
czy wyświetlają się prawidłowo.
problemy się zaczynają, gdy zaczynasz te stringi parsować, szatkować i
wyżymać.
--
Azarien
Następne wpisy z tego wątku
- 24.05.11 21:05 Wiktor S.
- 24.05.11 21:51 Zbigniew Malec
- 24.05.11 22:18 Zbigniew Malec
- 24.05.11 22:51 Borneq
- 24.05.11 23:13 Borneq
- 24.05.11 23:10 Wiktor S.
- 24.05.11 23:13 Wiktor S.
- 25.05.11 19:25 Zbigniew Malec
- 25.05.11 20:49 Zbigniew Malec
- 26.05.11 05:26 Wiktor S.
- 26.05.11 07:18 Zbigniew Malec
Najnowsze wątki z tej grupy
- Alg. kompresji LZW
- Popr. 14. Nauka i Praca Programisty C++ w III Rzeczy (pospolitej)
- Arch. Prog. Nieuprzywilejowanych w pełnej wer. na nowej s. WWW energokod.pl
- 7. Raport Totaliztyczny: Sprawa Qt Group wer. 424
- TCL - problem z escape ostatniego \ w nawiasach {}
- Nauka i Praca Programisty C++ w III Rzeczy (pospolitej)
- testy-wyd-sort - Podsumowanie
- Tworzenie Programów Nieuprzywilejowanych Opartych Na Wtyczkach
- Do czego nadaje się QDockWidget z bibl. Qt?
- Bibl. Qt jest sztucznie ograniczona - jest nieprzydatna do celów komercyjnych
- Co sciaga kretynow
- AEiC 2024 - Ada-Europe conference - Deadlines Approaching
- Jakie są dobre zasady programowania programów opartych na wtyczkach?
- sprawdzanie słów kluczowych dot. zła
- Re: W czym sie teraz pisze programy??
Najnowsze wątki
- 2025-02-10 Spalił się spaliniak
- 2025-02-10 zarowka wifi - z sensowna apka lub lepiej albo lokalnie lub przez web. I zeby harmonogram miala
- 2025-02-10 Chrzanów => Programista NodeJS <=
- 2025-02-10 Kraków => DevOps Engineer (Junior or Regular level) <=
- 2025-02-10 Dlaczego takie preferencje banków?
- 2025-02-10 Białystok => iOS Developer (Swift) <=
- 2025-02-10 Mińsk Mazowiecki => Team Lead / Tribe Lead FrontEnd <=
- 2025-02-10 Białystok => System Architect (Java background) <=
- 2025-02-10 Współczesne mierniki zniekształceń nieliniowych THD audio, produkują jakieś?
- 2025-02-10 Szczecin => Senior Field Sales (system ERP) <=
- 2025-02-10 Gliwice => Business Development Manager - Dział Sieci i Bezpieczeńst
- 2025-02-10 Chrzanów => Specjalista ds. public relations <=
- 2025-02-10 Chrzanów => NodeJS Developer <=
- 2025-02-10 Warszawa => JavaScript / Node / Fullstack Developer <=
- 2025-02-10 Gliwice => Ekspert IT (obszar systemów sieciowych) <=