-
Path: news-archive.icm.edu.pl!news.icm.edu.pl!newsfeed.pionier.net.pl!feeder.erje.net
!2.eu.feeder.erje.net!feeder2.ecngs.de!ecngs!feeder.ecngs.de!border1.nntp.ams1.
giganews.com!nntp.giganews.com!newsfeed.neostrada.pl!unt-exc-02.news.neostrada.
pl!unt-spo-a-01.news.neostrada.pl!news.neostrada.pl.POSTED!not-for-mail
Newsgroups: pl.comp.programming
X-Mozilla-News-Host: news://news.neostrada.pl:119
From: Borneq <b...@a...hidden.pl>
Subject: Detekcja strony kodowej (Bayes?)
Date: Fri, 27 Dec 2019 14:53:31 +0100
User-Agent: Mozilla/5.0 (Windows NT 6.3; WOW64; rv:68.0) Gecko/20100101
Thunderbird/68.3.1
MIME-Version: 1.0
Content-Type: text/plain; charset=utf-8; format=flowed
Content-Language: pl
Content-Transfer-Encoding: 8bit
Lines: 12
Message-ID: <5e060cd2$0$511$65785112@news.neostrada.pl>
Organization: Telekomunikacja Polska
NNTP-Posting-Host: 5.184.0.104
X-Trace: 1577454803 unt-rea-b-01.news.neostrada.pl 511 5.184.0.104:29098
X-Complaints-To: a...@n...neostrada.pl
Xref: news-archive.icm.edu.pl pl.comp.programming:214591
[ ukryj nagłówki ]Mam strony kodowe 8859-*, CP12?? oraz KOI8-R.
Jak rozpoznać po tekście, np. za pomocą Bayesa, która to strona kodowa?
Jak mam język polski (tu musi być dodatkowa wiedza, jaki to język) to
używam tylko kilku znaków ośmiobitowych (reszta to Ascii 7-bitowe) więc
sprawdzam aby 8-bitowe były z tego zbioru.
A jak jest z takimi językami jak rosyjski, grecki, hebrajski, arabski,
które mają cały alfabet zdefiniowany w wyższym Ascii?
Tu potrzebna była by nauka na tekstach - bo niektóre znaki występują
rzadziej i niektóre częściej, a poza tym kontekst znaków w sylabach.
Jak zdetektować UTF8? Można próbować konwertować, i czy przekonwertuje
się bez błędów lub z bardzo małą ilością błędów. Ale zastanawiam się nad
stronami kodowymi.
Następne wpisy z tego wątku
- 27.12.19 15:27 Mateusz Viste
- 27.12.19 17:29 Borneq
- 27.12.19 20:34 Mateusz Viste
- 28.12.19 09:10 Borneq
- 08.01.20 13:19 M.M.
- 09.01.20 09:45 M.M.
Najnowsze wątki z tej grupy
- Arch. Prog. Nieuprzywilejowanych w pełnej wer. na nowej s. WWW energokod.pl
- 7. Raport Totaliztyczny: Sprawa Qt Group wer. 424
- TCL - problem z escape ostatniego \ w nawiasach {}
- Nauka i Praca Programisty C++ w III Rzeczy (pospolitej)
- testy-wyd-sort - Podsumowanie
- Tworzenie Programów Nieuprzywilejowanych Opartych Na Wtyczkach
- Do czego nadaje się QDockWidget z bibl. Qt?
- Bibl. Qt jest sztucznie ograniczona - jest nieprzydatna do celów komercyjnych
- Co sciaga kretynow
- AEiC 2024 - Ada-Europe conference - Deadlines Approaching
- Jakie są dobre zasady programowania programów opartych na wtyczkach?
- sprawdzanie słów kluczowych dot. zła
- Re: W czym sie teraz pisze programy??
- Re: (PDF) Surgical Pathology of Non-neoplastic Gastrointestinal Diseases by Lizhi Zhang
- CfC 28th Ada-Europe Int. Conf. Reliable Software Technologies
Najnowsze wątki
- 2024-12-28 Antyradar
- 2024-12-28 Deweloper przegral w sadzie musi zwrócic pieniądze Posypia sie kolejne pozwy?
- 2024-12-28 Warszawa => Full Stack .Net Engineer <=
- 2024-12-28 Warszawa => Sales Assistant <=
- 2024-12-28 Warszawa => Programista Full Stack .Net <=
- 2024-12-28 Warszawa => Full Stack web developer (obszar .Net Core, Angular6+) <=
- 2024-12-28 Katowice => Head of Virtualization Platform Management and Operating S
- 2024-12-28 Błonie => Analityk Systemów Informatycznych (TMS SPEED) <=
- 2024-12-28 Warszawa => Senior Frontend Developer (React + React Native) <=
- 2024-12-28 Żerniki => Employer Branding Specialist <=
- 2024-12-28 ale zawziętość i cierpliwość
- 2024-12-27 most kilometrowy
- 2024-12-27 Dyplomaci a alkomaty
- 2024-12-27 Zmiana kary
- 2024-12-27 Chiński elektrolizer tester wody