-
Path: news-archive.icm.edu.pl!news.icm.edu.pl!newsfeed.pionier.net.pl!3.eu.feeder.erj
e.net!feeder.erje.net!newsreader4.netcologne.de!news.netcologne.de!border2.nntp
.ams1.giganews.com!nntp.giganews.com!newsfeed.neostrada.pl!unt-exc-02.news.neos
trada.pl!unt-spo-a-02.news.neostrada.pl!news.neostrada.pl.POSTED!not-for-mail
Subject: Re: Detekcja strony kodowej (Bayes?)
Newsgroups: pl.comp.programming
References: <5e060cd2$0$511$65785112@news.neostrada.pl>
<20191227152725.50c0c2f8@mateusz>
From: Borneq <b...@a...hidden.pl>
Date: Fri, 27 Dec 2019 17:29:39 +0100
User-Agent: Mozilla/5.0 (Windows NT 6.3; WOW64; rv:68.0) Gecko/20100101
Thunderbird/68.3.1
MIME-Version: 1.0
In-Reply-To: <20191227152725.50c0c2f8@mateusz>
Content-Type: text/plain; charset=utf-8; format=flowed
Content-Language: pl
Content-Transfer-Encoding: 8bit
Lines: 13
Message-ID: <5e06316a$0$17346$65785112@news.neostrada.pl>
Organization: Telekomunikacja Polska
NNTP-Posting-Host: 5.184.0.104
X-Trace: 1577464170 unt-rea-a-01.news.neostrada.pl 17346 5.184.0.104:21494
X-Complaints-To: a...@n...neostrada.pl
Xref: news-archive.icm.edu.pl pl.comp.programming:214593
[ ukryj nagłówki ]W dniu 2019-12-27 o 15:27, Mateusz Viste pisze:
> Moja propozycja: Wybierz losowo kilkanaście słów z tekstu. Każde słowo
> przekonwertuj do UTF-8 zakładając wszystkie możliwe strony kodowe dla
> tego języka, a następnie znajdź w słowniku czy to słowo istnieje.
Muszę mieć słowniki dla poszczególnych języków.
W każdym razie, muszę mieć niestety wiedzę jaki to język.
Gdy mam, tablicę [256] częstotliwości i porównuję Bayesem zgodność. To
zadziała dobrze dla takich języków jak polski czy norweski dla których
tylko niektóre są z ogonkami.
Czy zadziała dla rosyjskiego? Może trzeba będzie tablicy [256*256] lub
choćby [128*128] dla dwuznaków, wtedy będą większe różnice w
częśtotliwościach.
Następne wpisy z tego wątku
- 27.12.19 20:34 Mateusz Viste
- 28.12.19 09:10 Borneq
- 08.01.20 13:19 M.M.
- 09.01.20 09:45 M.M.
Najnowsze wątki z tej grupy
- Alg. kompresji LZW
- Popr. 14. Nauka i Praca Programisty C++ w III Rzeczy (pospolitej)
- Arch. Prog. Nieuprzywilejowanych w pełnej wer. na nowej s. WWW energokod.pl
- 7. Raport Totaliztyczny: Sprawa Qt Group wer. 424
- TCL - problem z escape ostatniego \ w nawiasach {}
- Nauka i Praca Programisty C++ w III Rzeczy (pospolitej)
- testy-wyd-sort - Podsumowanie
- Tworzenie Programów Nieuprzywilejowanych Opartych Na Wtyczkach
- Do czego nadaje się QDockWidget z bibl. Qt?
- Bibl. Qt jest sztucznie ograniczona - jest nieprzydatna do celów komercyjnych
- Co sciaga kretynow
- AEiC 2024 - Ada-Europe conference - Deadlines Approaching
- Jakie są dobre zasady programowania programów opartych na wtyczkach?
- sprawdzanie słów kluczowych dot. zła
- Re: W czym sie teraz pisze programy??
Najnowsze wątki
- 2025-03-16 silnik-chwilówka
- 2025-03-16 Prokurator Wrzosek "Bezstronna" nie przyczynia się do śmierci (dowodnie) - oświadcza bodnatura [Dwie Kacze Wieże]
- 2025-03-15 kraje nieprzyjazne samochodom
- 2025-03-15 parking Auchan
- 2025-03-15 Art. 19.1 ustawy o ochronie praw autorskich
- 2025-03-15 przegląd za mną
- 2025-03-15 Na co komu okna
- 2025-03-15 Mój elektryk
- 2025-03-15 Fejk muzyczny czy nie fejk
- 2025-03-15 China-Kraków => Senior PHP Symfony Developer <=
- 2025-03-15 Wrocław => Konsultant wdrożeniowy Comarch XL (Logistyka, WMS, Produk
- 2025-03-15 Błonie => Analityk Systemów Informatycznych (TMS SPEED) <=
- 2025-03-15 Warszawa => Senior Frontend Developer (React + React Native) <=
- 2025-03-15 Warszawa => Java Full Stack Developer (Angular2+ experience) <=
- 2025-03-15 Warszawa => Java Full Stack Developer (Angular2+) <=