-
1. Data: 2019-12-27 14:53:31
Temat: Detekcja strony kodowej (Bayes?)
Od: Borneq <b...@a...hidden.pl>
Mam strony kodowe 8859-*, CP12?? oraz KOI8-R.
Jak rozpoznać po tekście, np. za pomocą Bayesa, która to strona kodowa?
Jak mam język polski (tu musi być dodatkowa wiedza, jaki to język) to
używam tylko kilku znaków ośmiobitowych (reszta to Ascii 7-bitowe) więc
sprawdzam aby 8-bitowe były z tego zbioru.
A jak jest z takimi językami jak rosyjski, grecki, hebrajski, arabski,
które mają cały alfabet zdefiniowany w wyższym Ascii?
Tu potrzebna była by nauka na tekstach - bo niektóre znaki występują
rzadziej i niektóre częściej, a poza tym kontekst znaków w sylabach.
Jak zdetektować UTF8? Można próbować konwertować, i czy przekonwertuje
się bez błędów lub z bardzo małą ilością błędów. Ale zastanawiam się nad
stronami kodowymi.
-
2. Data: 2019-12-27 15:27:25
Temat: Re: Detekcja strony kodowej (Bayes?)
Od: Mateusz Viste <m...@x...invalid>
2019-12-27 o 14:53 +0100, Borneq napisał:
> Mam strony kodowe 8859-*, CP12?? oraz KOI8-R.
> Jak rozpoznać po tekście, np. za pomocą Bayesa, która to strona
> kodowa? Jak mam język polski (tu musi być dodatkowa wiedza, jaki to
> język) to używam tylko kilku znaków ośmiobitowych (reszta to Ascii
> 7-bitowe) więc sprawdzam aby 8-bitowe były z tego zbioru.
To takie sobie, bo w tekście może występować wszelkiego rodzaju
semigrafika.
> A jak jest z takimi językami jak rosyjski, grecki, hebrajski,
> arabski, które mają cały alfabet zdefiniowany w wyższym Ascii?
Moja propozycja: Wybierz losowo kilkanaście słów z tekstu. Każde słowo
przekonwertuj do UTF-8 zakładając wszystkie możliwe strony kodowe dla
tego języka, a następnie znajdź w słowniku czy to słowo istnieje.
Wygrywa wariant strony kodowej o najwyższej ilości istniejących słów.
> Jak zdetektować UTF8?
Dokładnie tym samym sposobem - tyle że nie potrzeba tego konwertować,
wystarczy bezpośredni wgląd do słownika dla danego języka.
Mateusz
-
3. Data: 2019-12-27 17:29:39
Temat: Re: Detekcja strony kodowej (Bayes?)
Od: Borneq <b...@a...hidden.pl>
W dniu 2019-12-27 o 15:27, Mateusz Viste pisze:
> Moja propozycja: Wybierz losowo kilkanaście słów z tekstu. Każde słowo
> przekonwertuj do UTF-8 zakładając wszystkie możliwe strony kodowe dla
> tego języka, a następnie znajdź w słowniku czy to słowo istnieje.
Muszę mieć słowniki dla poszczególnych języków.
W każdym razie, muszę mieć niestety wiedzę jaki to język.
Gdy mam, tablicę [256] częstotliwości i porównuję Bayesem zgodność. To
zadziała dobrze dla takich języków jak polski czy norweski dla których
tylko niektóre są z ogonkami.
Czy zadziała dla rosyjskiego? Może trzeba będzie tablicy [256*256] lub
choćby [128*128] dla dwuznaków, wtedy będą większe różnice w
częśtotliwościach.
-
4. Data: 2019-12-27 20:34:26
Temat: Re: Detekcja strony kodowej (Bayes?)
Od: Mateusz Viste <m...@x...invalid>
2019-12-27 o 17:29 +0100, Borneq napisał:
> W dniu 2019-12-27 o 15:27, Mateusz Viste pisze:
> > Moja propozycja: Wybierz losowo kilkanaście słów z tekstu. Każde
> > słowo przekonwertuj do UTF-8 zakładając wszystkie możliwe strony
> > kodowe dla tego języka, a następnie znajdź w słowniku czy to słowo
> > istnieje.
>
> Muszę mieć słowniki dla poszczególnych języków.
Da się znaleźć, mnóstwo tego obecnie.
> W każdym razie, muszę mieć niestety wiedzę jaki to język.
To już większy problem. Szczególnie jeśli kodowanie nieznane.
> Gdy mam, tablicę [256] częstotliwości i porównuję Bayesem zgodność.
> To zadziała dobrze dla takich języków jak polski czy norweski dla
> których tylko niektóre są z ogonkami.
To może dałoby się załatwić oba problemy jednym podejściem? Wygenerować
sobie dla każdego języka zestaw tablic częstotliwości - po jednej na
każde dopuszczalne kodowanie, i sprawdzać swój plik na tej podstawie -
jeśli szczęście dopisze, to mamy wykrywanie język+strona. Tylko do
tego, jeśli to w ogóle ma statystyczną szansę zadziałać, trzeba mieć
sporą próbkę materiału.
Mateusz
-
5. Data: 2019-12-28 09:10:54
Temat: Re: Detekcja strony kodowej (Bayes?)
Od: Borneq <b...@a...hidden.pl>
W dniu 2019-12-27 o 20:34, Mateusz Viste pisze:
> To może dałoby się załatwić oba problemy jednym podejściem? Wygenerować
> sobie dla każdego języka zestaw tablic częstotliwości - po jednej na
> każde dopuszczalne kodowanie, i sprawdzać swój plik na tej podstawie -
> jeśli szczęście dopisze, to mamy wykrywanie język+strona. Tylko do
> tego, jeśli to w ogóle ma statystyczną szansę zadziałać, trzeba mieć
> sporą próbkę materiału.
>
> Mateusz
>
sprawdze czy zadziala
-
6. Data: 2020-01-08 13:19:54
Temat: Re: Detekcja strony kodowej (Bayes?)
Od: "M.M." <m...@g...com>
On Saturday, December 28, 2019 at 9:15:02 AM UTC+1, Borneq wrote:
> W dniu 2019-12-27 o 20:34, Mateusz Viste pisze:
> > To może dałoby się załatwić oba problemy jednym podejściem? Wygenerować
> > sobie dla każdego języka zestaw tablic częstotliwości - po jednej na
> > każde dopuszczalne kodowanie, i sprawdzać swój plik na tej podstawie -
> > jeśli szczęście dopisze, to mamy wykrywanie język+strona. Tylko do
> > tego, jeśli to w ogóle ma statystyczną szansę zadziałać, trzeba mieć
> > sporą próbkę materiału.
> >
> > Mateusz
> >
>
> sprawdze czy zadziala
Z częstotliwościami pomysł wydaje się dobry. Jeśli danych jest dużo, to można
ustawić 'dziurkę od klucza' na trzy bajty, a następnie przesuwać dziurkę od
klucza od jeden bajt. Z każdego pliku powstanie N-2 trójek, gdzie N to rozmiar
pliku w bajtach. Jeśli danych jest mało, to dziurkę od klucza lepiej ustawić
na 2 bajty. Tak zebrane częstotliwości można wrzucić na do sieci neuronowej.
Zapewne częstotliwości warto będzie normalizować przed uczeniem sieci.
Może wystarczyć najprostsza sieć z jednym liniowym neuronem, czytaj jedna
sieć na jedno kodowanie. Takie sieci błyskawicznie się uczą przy zastosowaniu
kwadratowej funkcji błędu.
Pozdrawiam
-
7. Data: 2020-01-09 09:45:43
Temat: Re: Detekcja strony kodowej (Bayes?)
Od: "M.M." <m...@g...com>
On Saturday, December 28, 2019 at 9:15:02 AM UTC+1, Borneq wrote:
> W dniu 2019-12-27 o 20:34, Mateusz Viste pisze:
> > To może dałoby się załatwić oba problemy jednym podejściem? Wygenerować
> > sobie dla każdego języka zestaw tablic częstotliwości - po jednej na
> > każde dopuszczalne kodowanie, i sprawdzać swój plik na tej podstawie -
> > jeśli szczęście dopisze, to mamy wykrywanie język+strona. Tylko do
> > tego, jeśli to w ogóle ma statystyczną szansę zadziałać, trzeba mieć
> > sporą próbkę materiału.
> >
> > Mateusz
> >
>
> sprawdze czy zadziala
Zobacz jeszcze to:
https://softwareengineering.stackexchange.com/questi
ons/187169/how-to-detect-the-encoding-of-a-file
Cytat:
[
Files generally indicate their encoding with a file header. There are many examples
here. However, even reading the header you can never be sure what encoding a file is
really using.
For example, a file with the first three bytes 0xEF,0xBB,0xBF is probably a UTF-8
encoded file. However, it might be an ISO-8859-1 file which happens to start with the
characters i>>?. Or it might be a different file type entirely.
]
Pozdrawiam