eGospodarka.pl
eGospodarka.pl poleca

eGospodarka.plGrupypl.comp.programmingDetekcja strony kodowej (Bayes?)Re: Detekcja strony kodowej (Bayes?)
  • Data: 2019-12-27 20:34:26
    Temat: Re: Detekcja strony kodowej (Bayes?)
    Od: Mateusz Viste <m...@x...invalid> szukaj wiadomości tego autora
    [ pokaż wszystkie nagłówki ]

    2019-12-27 o 17:29 +0100, Borneq napisał:
    > W dniu 2019-12-27 o 15:27, Mateusz Viste pisze:
    > > Moja propozycja: Wybierz losowo kilkanaście słów z tekstu. Każde
    > > słowo przekonwertuj do UTF-8 zakładając wszystkie możliwe strony
    > > kodowe dla tego języka, a następnie znajdź w słowniku czy to słowo
    > > istnieje.
    >
    > Muszę mieć słowniki dla poszczególnych języków.

    Da się znaleźć, mnóstwo tego obecnie.

    > W każdym razie, muszę mieć niestety wiedzę jaki to język.

    To już większy problem. Szczególnie jeśli kodowanie nieznane.

    > Gdy mam, tablicę [256] częstotliwości i porównuję Bayesem zgodność.
    > To zadziała dobrze dla takich języków jak polski czy norweski dla
    > których tylko niektóre są z ogonkami.

    To może dałoby się załatwić oba problemy jednym podejściem? Wygenerować
    sobie dla każdego języka zestaw tablic częstotliwości - po jednej na
    każde dopuszczalne kodowanie, i sprawdzać swój plik na tej podstawie -
    jeśli szczęście dopisze, to mamy wykrywanie język+strona. Tylko do
    tego, jeśli to w ogóle ma statystyczną szansę zadziałać, trzeba mieć
    sporą próbkę materiału.

    Mateusz

Podziel się

Poleć ten post znajomemu poleć

Wydrukuj ten post drukuj


Następne wpisy z tego wątku

Najnowsze wątki z tej grupy


Najnowsze wątki

Szukaj w grupach

Eksperci egospodarka.pl

1 1 1

Wpisz nazwę miasta, dla którego chcesz znaleźć jednostkę ZUS.

Wzory dokumentów

Bezpłatne wzory dokumentów i formularzy.
Wyszukaj i pobierz za darmo: