-
Path: news-archive.icm.edu.pl!news.rmf.pl!agh.edu.pl!news.agh.edu.pl!news.onet.pl!not
-for-mail
From: "Borneq" <b...@a...hidden.pl>
Newsgroups: pl.comp.programming
Subject: Re: Klasyfikacja bayesowska stron kodowych
Date: Sun, 1 Aug 2010 11:00:40 +0200
Organization: http://onet.pl
Lines: 29
Message-ID: <i33d3s$r0i$1@news.onet.pl>
References: <i317b8$4q1$1@news.onet.pl> <i318sm$94e$1@news.onet.pl>
NNTP-Posting-Host: 194.117.241.226
Mime-Version: 1.0
Content-Type: text/plain; format=flowed; charset="iso-8859-2"; reply-type=response
Content-Transfer-Encoding: 8bit
X-Trace: news.onet.pl 1280653244 27666 194.117.241.226 (1 Aug 2010 09:00:44 GMT)
X-Complaints-To: n...@o...pl
NNTP-Posting-Date: Sun, 1 Aug 2010 09:00:44 +0000 (UTC)
X-Priority: 3
X-MSMail-Priority: Normal
X-Newsreader: Microsoft Outlook Express 6.00.2900.5931
X-MimeOLE: Produced By Microsoft MimeOLE V6.00.2900.5931
Xref: news-archive.icm.edu.pl pl.comp.programming:186213
[ ukryj nagłówki ]Użytkownik "Borneq" <b...@a...hidden.pl> napisał w wiadomości
news:i318sm$94e$1@news.onet.pl...
> Jeśli chodzi o Bayesa to najwięcej można znaleźć na temat klasyfikowania
> spamu
Szukam przykładu gdzie sposób bayesowski był by dobrze wytłumaczony na
liczbach. W
http://inf.ug.edu.pl/~stefan/Dydaktyka/SztIntel/Slaj
dy/05-26a.pdf jest
przykład na pomarańczach który rozumiem chociaż mam uwagę że
prawdopodobieństwo niebieskiego naczynia wynosi 1/3 bo jest tam dwa razy
mniej kulek niż w czerwonym a według mnie najpierw wybieramy naczynia z
prawdopodobieństwem 1/2 a dopiero potem jabłko lub pomarańczę.
Na stronie 8 tego pdf mamy wyliczanie prawdopodobieństwa tego że zbiór słów
odpowiada spamowi. Czy tutaj zaklasyfikowanie jako spam jest bardziej
prawdopodobne bo zbiór treningowy spamów jest 3 razy większy niż nie spamów?
Tutaj nie rozumiem skąd się wzięły liczby według których odbywa się
liczenie.
Licznik jeszcze można wytłumaczyć że w P(rynek|S) mamy 1+1 bo słowo "rynek"
występuje w spamie raz i w treningowym raz, P(szybko|S) mamy 2+1 bo słowo
"szybko" występuje 2 razy w spamie a raz w badanym.
Ale co oznaczają liczby w mianowniku? 13 to ilość wszystkich słów a inne
liczby można by tylko dopasować do przykładu (a zbieżność może być
przypadkowa bo mamy tylko jeden przykład). 8 to ilość słów w spamie, 5 suma
w niespamie i w badanym, 2 w badanym. Jednak coś się tu nie zgadza gdy w
mianowniku mamy sumę 2+5, więc 5 to nie suma, poza tym zaznaczona że dotyczy
badanego a dwójka nie spamu. Więc coś się tu nie zgadza.
W http://www.paulgraham.com/naivebayes.html mamy inny wzór na wyliczanie
prawdopodobieństwa.
Następne wpisy z tego wątku
- 01.08.10 12:25 Borneq
- 03.08.10 08:31 Segmentation Fault
- 03.08.10 23:45 Borneq
- 04.08.10 12:33 Segmentation Fault
- 04.08.10 19:19 Borneq
- 04.08.10 20:15 Segmentation Fault
- 05.08.10 11:43 Borneq
Najnowsze wątki z tej grupy
- Popr. 14. Nauka i Praca Programisty C++ w III Rzeczy (pospolitej)
- Arch. Prog. Nieuprzywilejowanych w pełnej wer. na nowej s. WWW energokod.pl
- 7. Raport Totaliztyczny: Sprawa Qt Group wer. 424
- TCL - problem z escape ostatniego \ w nawiasach {}
- Nauka i Praca Programisty C++ w III Rzeczy (pospolitej)
- testy-wyd-sort - Podsumowanie
- Tworzenie Programów Nieuprzywilejowanych Opartych Na Wtyczkach
- Do czego nadaje się QDockWidget z bibl. Qt?
- Bibl. Qt jest sztucznie ograniczona - jest nieprzydatna do celów komercyjnych
- Co sciaga kretynow
- AEiC 2024 - Ada-Europe conference - Deadlines Approaching
- Jakie są dobre zasady programowania programów opartych na wtyczkach?
- sprawdzanie słów kluczowych dot. zła
- Re: W czym sie teraz pisze programy??
- Re: (PDF) Surgical Pathology of Non-neoplastic Gastrointestinal Diseases by Lizhi Zhang
Najnowsze wątki
- 2025-02-04 ranking wyciszenia, głośność, hałas przy 130 km/h, na postoju, przy przyspieszaniu
- 2025-02-05 Warszawa => IT Recruiter <=
- 2025-02-05 Ostrów Wielkopolski => Area Sales Manager OZE <=
- 2025-02-05 Rzeszów => Spedytor Międzynarodowy <=
- 2025-02-05 Warszawa => IT Business Analyst <=
- 2025-02-05 Warszawa => Specjalista DevOps <=
- 2025-02-05 Łódź => NodeJS Developer <=
- 2025-02-05 Warszawa => QA Engineer (Quality Assurance) <=
- 2025-02-05 Gdańsk => Specjalista ds. Sprzedaży <=
- 2025-02-05 Warszawa => QA Engineer <=
- 2025-02-05 Warszawa => Programista Full Stack .Net <=
- 2025-02-05 Re: UK: Michał K. dalej czeka na rozprawę ekstradycyjną w areszcie [bo nie (jeszcze?) zebrał kaucji]
- 2025-02-04 podpisywanie umów z datą wsteczną
- 2025-02-04 Radio internetowe do starego Androida
- 2025-02-04 "ogrodowa linia napowietrzna"