-
Data: 2019-12-27 20:34:26
Temat: Re: Detekcja strony kodowej (Bayes?)
Od: Mateusz Viste <m...@x...invalid> szukaj wiadomości tego autora
[ pokaż wszystkie nagłówki ]2019-12-27 o 17:29 +0100, Borneq napisał:
> W dniu 2019-12-27 o 15:27, Mateusz Viste pisze:
> > Moja propozycja: Wybierz losowo kilkanaście słów z tekstu. Każde
> > słowo przekonwertuj do UTF-8 zakładając wszystkie możliwe strony
> > kodowe dla tego języka, a następnie znajdź w słowniku czy to słowo
> > istnieje.
>
> Muszę mieć słowniki dla poszczególnych języków.
Da się znaleźć, mnóstwo tego obecnie.
> W każdym razie, muszę mieć niestety wiedzę jaki to język.
To już większy problem. Szczególnie jeśli kodowanie nieznane.
> Gdy mam, tablicę [256] częstotliwości i porównuję Bayesem zgodność.
> To zadziała dobrze dla takich języków jak polski czy norweski dla
> których tylko niektóre są z ogonkami.
To może dałoby się załatwić oba problemy jednym podejściem? Wygenerować
sobie dla każdego języka zestaw tablic częstotliwości - po jednej na
każde dopuszczalne kodowanie, i sprawdzać swój plik na tej podstawie -
jeśli szczęście dopisze, to mamy wykrywanie język+strona. Tylko do
tego, jeśli to w ogóle ma statystyczną szansę zadziałać, trzeba mieć
sporą próbkę materiału.
Mateusz
Następne wpisy z tego wątku
Najnowsze wątki z tej grupy
- Arch. Prog. Nieuprzywilejowanych w pełnej wer. na nowej s. WWW energokod.pl
- 7. Raport Totaliztyczny: Sprawa Qt Group wer. 424
- TCL - problem z escape ostatniego \ w nawiasach {}
- Nauka i Praca Programisty C++ w III Rzeczy (pospolitej)
- testy-wyd-sort - Podsumowanie
- Tworzenie Programów Nieuprzywilejowanych Opartych Na Wtyczkach
- Do czego nadaje się QDockWidget z bibl. Qt?
- Bibl. Qt jest sztucznie ograniczona - jest nieprzydatna do celów komercyjnych
- Co sciaga kretynow
- AEiC 2024 - Ada-Europe conference - Deadlines Approaching
- Jakie są dobre zasady programowania programów opartych na wtyczkach?
- sprawdzanie słów kluczowych dot. zła
- Re: W czym sie teraz pisze programy??
- Re: (PDF) Surgical Pathology of Non-neoplastic Gastrointestinal Diseases by Lizhi Zhang
- CfC 28th Ada-Europe Int. Conf. Reliable Software Technologies
Najnowsze wątki
- 2024-12-28 Antyradar
- 2024-12-28 Deweloper przegral w sadzie musi zwrócic pieniądze Posypia sie kolejne pozwy?
- 2024-12-28 Warszawa => Full Stack .Net Engineer <=
- 2024-12-28 Warszawa => Sales Assistant <=
- 2024-12-28 Warszawa => Programista Full Stack .Net <=
- 2024-12-28 Warszawa => Full Stack web developer (obszar .Net Core, Angular6+) <=
- 2024-12-28 Katowice => Head of Virtualization Platform Management and Operating S
- 2024-12-28 Błonie => Analityk Systemów Informatycznych (TMS SPEED) <=
- 2024-12-28 Warszawa => Senior Frontend Developer (React + React Native) <=
- 2024-12-28 Żerniki => Employer Branding Specialist <=
- 2024-12-28 ale zawziętość i cierpliwość
- 2024-12-27 most kilometrowy
- 2024-12-27 Dyplomaci a alkomaty
- 2024-12-27 Zmiana kary
- 2024-12-27 Chiński elektrolizer tester wody