-
Data: 2019-12-27 15:27:25
Temat: Re: Detekcja strony kodowej (Bayes?)
Od: Mateusz Viste <m...@x...invalid> szukaj wiadomości tego autora
[ pokaż wszystkie nagłówki ]2019-12-27 o 14:53 +0100, Borneq napisał:
> Mam strony kodowe 8859-*, CP12?? oraz KOI8-R.
> Jak rozpoznać po tekście, np. za pomocą Bayesa, która to strona
> kodowa? Jak mam język polski (tu musi być dodatkowa wiedza, jaki to
> język) to używam tylko kilku znaków ośmiobitowych (reszta to Ascii
> 7-bitowe) więc sprawdzam aby 8-bitowe były z tego zbioru.
To takie sobie, bo w tekście może występować wszelkiego rodzaju
semigrafika.
> A jak jest z takimi językami jak rosyjski, grecki, hebrajski,
> arabski, które mają cały alfabet zdefiniowany w wyższym Ascii?
Moja propozycja: Wybierz losowo kilkanaście słów z tekstu. Każde słowo
przekonwertuj do UTF-8 zakładając wszystkie możliwe strony kodowe dla
tego języka, a następnie znajdź w słowniku czy to słowo istnieje.
Wygrywa wariant strony kodowej o najwyższej ilości istniejących słów.
> Jak zdetektować UTF8?
Dokładnie tym samym sposobem - tyle że nie potrzeba tego konwertować,
wystarczy bezpośredni wgląd do słownika dla danego języka.
Mateusz
Następne wpisy z tego wątku
- 27.12.19 17:29 Borneq
- 27.12.19 20:34 Mateusz Viste
- 28.12.19 09:10 Borneq
- 08.01.20 13:19 M.M.
- 09.01.20 09:45 M.M.
Najnowsze wątki z tej grupy
- Alg. kompresji LZW
- Popr. 14. Nauka i Praca Programisty C++ w III Rzeczy (pospolitej)
- Arch. Prog. Nieuprzywilejowanych w pełnej wer. na nowej s. WWW energokod.pl
- 7. Raport Totaliztyczny: Sprawa Qt Group wer. 424
- TCL - problem z escape ostatniego \ w nawiasach {}
- Nauka i Praca Programisty C++ w III Rzeczy (pospolitej)
- testy-wyd-sort - Podsumowanie
- Tworzenie Programów Nieuprzywilejowanych Opartych Na Wtyczkach
- Do czego nadaje się QDockWidget z bibl. Qt?
- Bibl. Qt jest sztucznie ograniczona - jest nieprzydatna do celów komercyjnych
- Co sciaga kretynow
- AEiC 2024 - Ada-Europe conference - Deadlines Approaching
- Jakie są dobre zasady programowania programów opartych na wtyczkach?
- sprawdzanie słów kluczowych dot. zła
- Re: W czym sie teraz pisze programy??
Najnowsze wątki
- 2025-03-15 parking Auchan
- 2025-03-15 Art. 19.1 ustawy o ochronie praw autorskich
- 2025-03-15 przegląd za mną
- 2025-03-15 Na co komu okna
- 2025-03-15 Mój elektryk
- 2025-03-15 Fejk muzyczny czy nie fejk
- 2025-03-15 China-Kraków => Senior PHP Symfony Developer <=
- 2025-03-15 Wrocław => Konsultant wdrożeniowy Comarch XL (Logistyka, WMS, Produk
- 2025-03-15 Błonie => Analityk Systemów Informatycznych (TMS SPEED) <=
- 2025-03-15 Warszawa => Senior Frontend Developer (React + React Native) <=
- 2025-03-15 Warszawa => Java Full Stack Developer (Angular2+ experience) <=
- 2025-03-15 Warszawa => Java Full Stack Developer (Angular2+) <=
- 2025-03-15 KOMU w RP3 pasuje "Rumuńska łatwość gmerania w wyborach" i dlaczego nie PO-Trzaskanym?
- 2025-03-15 China-Kraków => Key Account Manager IT <=
- 2025-03-14 Spalił się autobus :-)