-
1. Data: 2016-06-05 09:10:01
Temat: Unicode - utożsamianie znaków akcentowanych
Od: Borneq <b...@a...hidden.pl>
Jak zamieniać wszelkie ą, a z akcentem, a z kółeczkiem itp na a?
-
2. Data: 2016-06-05 15:42:43
Temat: Re: Unicode - utożsamianie znaków akcentowanych
Od: Borneq <b...@a...hidden.pl>
W dniu 05.06.2016 o 09:10, Borneq pisze:
> Jak zamieniać wszelkie ą, a z akcentem, a z kółeczkiem itp na a?
Albo skąd wziąć nawy liter Unicode?
http://unicodelookup.com/#latin/1 podaje te nazwy, dla których występuje
"latin"a jest ich aż 1081. Strona jest online, potrzebuję nazw offline i
jak zrobić szybką konwersję? czy potrzeba tablicy 65536*2 bajty?
-
3. Data: 2016-06-05 16:13:27
Temat: Re: Unicode - utożsamianie znaków akcentowanych
Od: "M.M." <m...@g...com>
On Sunday, June 5, 2016 at 9:10:03 AM UTC+2, Borneq wrote:
> Jak zamieniać wszelkie ą, a z akcentem, a z kółeczkiem itp na a?
Czyli potrzebujesz znaku najbardziej podobnego wizualnie z zestawu latin1.
Tego jest naprawdę sporo. Może użyj najdłuższego wspólnego podciągu dla
pikseli i potem gdzieś zapamiętaj wyniki?
Pozdrawiam
-
4. Data: 2016-06-05 16:23:39
Temat: Re: Unicode - utożsamianie znaków akcentowanych
Od: Borneq <b...@a...hidden.pl>
W dniu 05.06.2016 o 16:13, M.M. pisze:
> On Sunday, June 5, 2016 at 9:10:03 AM UTC+2, Borneq wrote:
>> Jak zamieniać wszelkie ą, a z akcentem, a z kółeczkiem itp na a?
>
> Czyli potrzebujesz znaku najbardziej podobnego wizualnie z zestawu latin1.
> Tego jest naprawdę sporo. Może użyj najdłuższego wspólnego podciągu dla
> pikseli i potem gdzieś zapamiętaj wyniki?
http://unicodelookup.com/#latin/1 podaje nazwy:
na przykład gdy mamy "latin capital letter e with grave" to zamienię na E
-
5. Data: 2016-06-06 09:28:32
Temat: Re: Unicode - utożsamianie znaków akcentowanych
Od: Piotr Chamera <p...@p...onet.pl>
W dniu 2016-06-05 o 15:42, Borneq pisze:
> W dniu 05.06.2016 o 09:10, Borneq pisze:
>> Jak zamieniać wszelkie ą, a z akcentem, a z kółeczkiem itp na a?
>
> Albo skąd wziąć nawy liter Unicode? http://unicodelookup.com/#latin/1
> podaje te nazwy, dla których występuje "latin"a jest ich aż 1081.
> Strona jest online, potrzebuję nazw offline i jak zrobić szybką
> konwersję? czy potrzeba tablicy 65536*2 bajty?
Wszystkie potrzebne dane powinny byś w ,,Unicode Character Database"
(http://www.unicode.org/ucd/) - to część standardu Unicode i jest
dostępna w różnych formatach. Pewnie da się znaleźć biblioteki w
potrzebnym języku programowania, które dają dostęp do zawartych w tej
bazie informacji (np ICU - http://site.icu-project.org/).
Odnośnie zamiany znaków interesujące powinno być to:
https://en.wikipedia.org/wiki/Unicode_equivalence
i to
http://www.unicode.org/reports/tr15/tr15-43.html
Dla twoich potrzeb interesująca może być ta tablica z biblioteki ICU
http://bugs.icu-project.org/trac/browser/icu/trunk/s
ource/data/unidata/norm2/nfc.txt
od wiersza 347 mamy dekompozycje znaków, przykładowo dla ,,ą",
unicode 0105, mamy dekompozycję 0061 0328 czyli a + ogonek
O składni pliku nfc.txt jest tutaj
http://userguide.icu-project.org/transforms/normaliz
ation
-
6. Data: 2016-06-06 09:44:42
Temat: Re: Unicode - utożsamianie znaków akcentowanych
Od: Borneq <b...@a...hidden.pl>
W dniu 06.06.2016 o 09:28, Piotr Chamera pisze:
> Dla twoich potrzeb interesująca może być ta tablica z biblioteki ICU
> http://bugs.icu-project.org/trac/browser/icu/trunk/s
ource/data/unidata/norm2/nfc.txt
>
>
> od wiersza 347 mamy dekompozycje znaków, przykładowo dla ,,ą",
> unicode 0105, mamy dekompozycję 0061 0328 czyli a + ogonek
>
> O składni pliku nfc.txt jest tutaj
> http://userguide.icu-project.org/transforms/normaliz
ation
Dzięki, plik nfc jest przydatny. Wcześniej wziąłem copy-paste 11 po 100
z tej strony którą podawałem i przeanalizowałem:
jeśli nazwa brzmiała [prefix] mała/duża litera x [część With] to dla tej
litery odpowiednikiem stawała się x i mam już tablicę konwertującą.