-
Data: 2010-08-04 12:33:31
Temat: Re: Klasyfikacja bayesowska stron kodowych
Od: Segmentation Fault <c...@o...eu> szukaj wiadomości tego autora
[ pokaż wszystkie nagłówki ]On 08/04/2010 01:45 AM, Borneq wrote:
> Użytkownik "Segmentation Fault" <c...@o...eu> napisał w
> wiadomości news:4c57d3da$0$2605$65785112@news.neostrada.pl...
>> Na Twoim miejscu zaczął bym od sprawdzenia jak zadziała histogram na
>> Twoich danych, przed zaprzęganiem bayesa. I tak Ci się przyda porównanie
>> z "prostszą" metodą, jak zrobisz tą bardziej skomplikowaną.
>
> Na razie mam zbiór treningowy niezbyt duży 12 kB i taki sam (czyli duży)
> zbiór testowy. Przy takiej ilości testowej prawdopodobieństwo bardzo
> szybko przekracza minimalny zakres liczb (staje się mniejsze nawet niż
> 1e-32000) dlatego liczby muszą być normalizowane.
A jak liczysz i porównujesz histogramy ?
Ja bym policzył "ile każdego znaczka", potem bym znormalizował
( podzielił wystąpienia każdego znaczka przez ilość wszystkich znaczków
w tekście ). Przy 12.000 znaków "najmniejsza" liczba to będzie 0.000083,
więc jeszcze mieści się we float, na pewno w double.
Potem te znormalizowane histogramy porównywał bym np. licząc korelację
( albo poeksperymentował bym z innymi metodami; wzorki tu:
http://opencv.willowgarage.com/documentation/histogr
ams.html#comparehist
)
Następne wpisy z tego wątku
- 04.08.10 19:19 Borneq
- 04.08.10 20:15 Segmentation Fault
- 05.08.10 11:43 Borneq
Najnowsze wątki z tej grupy
- Popr. 14. Nauka i Praca Programisty C++ w III Rzeczy (pospolitej)
- Arch. Prog. Nieuprzywilejowanych w pełnej wer. na nowej s. WWW energokod.pl
- 7. Raport Totaliztyczny: Sprawa Qt Group wer. 424
- TCL - problem z escape ostatniego \ w nawiasach {}
- Nauka i Praca Programisty C++ w III Rzeczy (pospolitej)
- testy-wyd-sort - Podsumowanie
- Tworzenie Programów Nieuprzywilejowanych Opartych Na Wtyczkach
- Do czego nadaje się QDockWidget z bibl. Qt?
- Bibl. Qt jest sztucznie ograniczona - jest nieprzydatna do celów komercyjnych
- Co sciaga kretynow
- AEiC 2024 - Ada-Europe conference - Deadlines Approaching
- Jakie są dobre zasady programowania programów opartych na wtyczkach?
- sprawdzanie słów kluczowych dot. zła
- Re: W czym sie teraz pisze programy??
- Re: (PDF) Surgical Pathology of Non-neoplastic Gastrointestinal Diseases by Lizhi Zhang
Najnowsze wątki
- 2025-01-31 kupujmy części
- 2025-01-30 pogromca ksiezy
- 2025-01-30 Warszawa => Data Engineer (Tech Lead) <=
- 2025-01-30 Czy WYNIESIENIE UE-posła Brauna z sali obrad UE-parlamentu stanowiło naruszenie jego immunitetu i godności?
- 2025-01-30 drukarka potrzebna
- 2025-01-30 Warszawa => QA Engineer (Quality Assurance) <=
- 2025-01-30 Łódź => Programista NodeJS <=
- 2025-01-30 Jest Trump prezydent jest Meta/FBook/Instagram ugoda za 25 mln. USD
- 2025-01-30 Gdańsk => Solution Architect (Java background) <=
- 2025-01-30 Zielona Góra => Senior Field Sales (system ERP) <=
- 2025-01-30 Błonie => Analityk Systemów Informatycznych (TMS SPEED) <=
- 2025-01-30 DeepSeek nie lubi gadać o polityce
- 2025-01-30 Błonie => Administrator systemów <=
- 2025-01-30 Gliwice => Business Development Manager - Network and Network Security
- 2025-01-30 Warszawa => Programista Full Stack (.Net Core) <=