-
Path: news-archive.icm.edu.pl!news.rmf.pl!agh.edu.pl!news.agh.edu.pl!news.onet.pl!.PO
STED!not-for-mail
From: "Wiktor S." <w...@M...fm>
Newsgroups: pl.comp.programming
Subject: Re: Unicode powyżej BMP
Date: Tue, 24 May 2011 23:03:01 +0200
Organization: http://onet.pl
Lines: 61
Message-ID: <irh6fg$ig6$1@news.onet.pl>
References: <irgrep$37m$1@news.onet.pl>
NNTP-Posting-Host: 188.33.194.80
Mime-Version: 1.0
Content-Type: text/plain; format=flowed; charset="iso-8859-2"; reply-type=response
Content-Transfer-Encoding: 8bit
X-Trace: news.onet.pl 1306271024 18950 188.33.194.80 (24 May 2011 21:03:44 GMT)
X-Complaints-To: n...@o...pl
NNTP-Posting-Date: Tue, 24 May 2011 21:03:44 +0000 (UTC)
In-Reply-To: <irgrep$37m$1@news.onet.pl>
X-Priority: 3
X-MSMail-Priority: Normal
X-Newsreader: Microsoft Windows Mail 6.0.6002.18197
X-MimeOLE: Produced By Microsoft MimeOLE V6.1.7601.17514
Xref: news-archive.icm.edu.pl pl.comp.programming:190650
[ ukryj nagłówki ]> Czy warto się tym przejmować?
i tak i nie. z jednej strony, jest to część standardu. z drugiej strony,
pisma tam umieszczone są już egzotyką pośród egzotyki. z trzeciej strony,
miejsca jest dużo, więc z czasem może dodadzą tam jakiś bardzo-fajny zestaw
znaków, który będzie zyskiwał na popularności: może coś na miarę
dzisiejszych emotikonek, może jakieś kody sterujące, trudno przewidzieć.
żeby się nie odcinać od tego obszaru, warto unikać odwoływania się do znaków
poprzez konkretny, stały indeks jak str[5] -- a tylko gdy indeks pochodzi z
funkcji typu find(), pos() czy podobnej: str[i].
pojawi nam się jednak drugi problem: że nawet wyszukanego indeksu nie możemy
ot tak sobie przesuwać (np. i++). ale problemu się pozbędziemy, jeśli string
będzie albo zawsze traktowany jako całość, albo - jeśli konieczna jest jego
analiza - przez wyrażenia regularne lub podobne funkcje biblioteczne, o ile
oczywiście te będą prawidłowo obsługiwać surogaty.
ale jeśli okaże się z tym za dużo zachodu, to póki co można machnąć ręką...
> Czy używane są znaki powyżej granicy 64 Ki,
skoro zostały zdefiniowane, to na pewno fascynaci takich znaków się
znaleźli.
> jakie fonty je używają aby przetestować?
tutaj test egipskich hieroglifów, które są na pewno powyżej BMP
http://users.teilar.gr/~g1951d/
a tutaj różne czcionki, ale to już sprawdź które skrypty są w BMP a które
korzystają z surogatów:
http://www.alanwood.net/unicode/egyptian-hieroglyphs
.html
> Czy tekst złożony z dwóch surogatów podany do TextOut
> da w rezultacie wyrysowany jeden znak?
powinno. sprawdź...
> Znaki chińskie i japońskie mieszczą się w planie podstawowym od
> 0x4e00 do 0x9fff (miejsce na ponad 20 tys. ideogramów)
no nie wszystkie, powyżej jest dalsze 50 tys. znaków, tu masz rozpiskę
http://en.wikipedia.org/wiki/CJK_Unified_Ideographs#
Unicode_version_history
ale ideogramy które są powyżej BMP przeciętnego Chińczyka lub Japończyka
interesują mniej więcej tyle, co nas głagolica, albo jakieś runy. do
zastosowań w opracowaniach historycznych, językoznawczych i podobnych. w
codziennej gazecie takich znaków nie uświadczysz.
podsumowując: jeśli stringi tylko pobierasz, wczytujesz, składujesz,
wyświetlasz - zawsze w całości, to nie musisz nic robić: przetestuj tylko
czy wyświetlają się prawidłowo.
problemy się zaczynają, gdy zaczynasz te stringi parsować, szatkować i
wyżymać.
--
Azarien
Następne wpisy z tego wątku
- 24.05.11 21:05 Wiktor S.
- 24.05.11 21:51 Zbigniew Malec
- 24.05.11 22:18 Zbigniew Malec
- 24.05.11 22:51 Borneq
- 24.05.11 23:13 Borneq
- 24.05.11 23:10 Wiktor S.
- 24.05.11 23:13 Wiktor S.
- 25.05.11 19:25 Zbigniew Malec
- 25.05.11 20:49 Zbigniew Malec
- 26.05.11 05:26 Wiktor S.
- 26.05.11 07:18 Zbigniew Malec
Najnowsze wątki z tej grupy
- U nas propagują modę na SI, a w Chinach naukowcy SI po kolei umierają w wieku 40-50lat
- C++. Podróż Po Języku - komentarz
- "Wuj dobra rada" z KDAB rozważa: Choosing the Right Programming Language for Your Embedded Linux Device
- Nowa ustawa o ochronie praw autorskich - opis problemu i szkic ustawy
- Alg. kompresji LZW
- Popr. 14. Nauka i Praca Programisty C++ w III Rzeczy (pospolitej)
- Arch. Prog. Nieuprzywilejowanych w pełnej wer. na nowej s. WWW energokod.pl
- 7. Raport Totaliztyczny: Sprawa Qt Group wer. 424
- TCL - problem z escape ostatniego \ w nawiasach {}
- Nauka i Praca Programisty C++ w III Rzeczy (pospolitej)
- testy-wyd-sort - Podsumowanie
- Tworzenie Programów Nieuprzywilejowanych Opartych Na Wtyczkach
- Do czego nadaje się QDockWidget z bibl. Qt?
- Bibl. Qt jest sztucznie ograniczona - jest nieprzydatna do celów komercyjnych
- Co sciaga kretynow
Najnowsze wątki
- 2025-04-17 Cła Trumpa już w sądzie federalnym USA
- 2025-04-16 Jaki trojfazowy licznik tuya lub podobny?
- 2025-04-16 co ile czasu rysa?
- 2025-04-16 co ile czasu rysa?
- 2025-04-16 cytat: "Za prezydentury Władimira Putina co najmniej 37 dziennikarzy zostało zamordowanych z powodu swojej pracy."
- 2025-04-16 Przyczyny
- 2025-04-16 Re: "Wazelina": Donald Tusk trzęsie giełdą jak mały Donald Trump [do -9%]
- 2025-04-16 Motodziennik #322 Audi Q9, Omoda 3, MG Cyber X - oraz koniec Leapmotor, Citana oraz auto od Amazona
- 2025-04-16 Do sądu trafił pozew zbiorowy przeciw Google'owi - oskarżenie o praktyki monopolistyczne na rynku reklamy internetowej
- 2025-04-16 Francja: "Za mało pracujemy, za dużo wydajemy" - a pierwsi chcieli pracować 4/7 !!!
- 2025-04-16 To już koniec 30letniej firmy Ekolot z Krosna - to kolejna ofiara urzędników
- 2025-04-16 To już koniec 30letniej firmy Ekolot z Krosna - to kolejna ofiara urzędników
- 2025-04-16 Francja: "Za mało pracujemy, za dużo wydajemy" - a pierwsi chcieli pracować 4/7 !!!
- 2025-04-16 Polska na 3 miejscu pod względem inflacji w UE!!!
- 2025-04-16 Do sądu trafił pozew zbiorowy przeciw Google'owi - oskarżenie o praktyki monopolistyczne na rynku reklamy internetowej