eGospodarka.pl
eGospodarka.pl poleca

eGospodarka.plGrupypl.comp.programmingWykrywanie sensu (:)Re: Wykrywanie sensu (:)
  • Path: news-archive.icm.edu.pl!news.rmf.pl!nf1.ipartners.pl!ipartners.pl!plix.pl!newsf
    eed1.plix.pl!newsfeed00.sul.t-online.de!t-online.de!border2.nntp.dca.giganews.c
    om!nntp.giganews.com!nx01.iad01.newshosting.com!newshosting.com!newsfeed.neostr
    ada.pl!unt-exc-02.news.neostrada.pl!unt-spo-b-01.news.neostrada.pl!news.neostra
    da.pl.POSTED!not-for-mail
    From: "slawek" <s...@h...pl>
    Newsgroups: pl.comp.programming
    References: <i40dt9$ski$1@news.onet.pl>
    In-Reply-To: <i40dt9$ski$1@news.onet.pl>
    Subject: Re: Wykrywanie sensu (:)
    Date: Thu, 12 Aug 2010 19:33:59 +0200
    MIME-Version: 1.0
    Content-Type: text/plain; format=flowed; charset="iso-8859-2"; reply-type=original
    Content-Transfer-Encoding: 8bit
    X-Priority: 3
    X-MSMail-Priority: Normal
    Importance: Normal
    X-Newsreader: Microsoft Windows Live Mail 14.0.8089.726
    X-MimeOLE: Produced By Microsoft MimeOLE V14.0.8089.726
    Lines: 31
    Message-ID: <4c643086$0$22798$65785112@news.neostrada.pl>
    Organization: Telekomunikacja Polska
    NNTP-Posting-Host: 62.69.202.124
    X-Trace: 1281634438 unt-rea-b-01.news.neostrada.pl 22798 62.69.202.124:60735
    X-Complaints-To: a...@n...neostrada.pl
    Xref: news-archive.icm.edu.pl pl.comp.programming:186472
    [ ukryj nagłówki ]


    Użytkownik "MoonWolf" <m...@p...com> napisał w wiadomości grup
    dyskusyjnych:i40dt9$ski$...@n...onet.pl...
    > Zastanawiam się czy istnieje sposób na wykrycie 'sensu' w ciągu znaków.
    > Chodzi o sprawdzenie czy jest to przypadkowy ciąg, czy też zdanie w
    > języku polskim. Da się coś takiego zrobić?

    Podpowiem ci coś wprost odwrotnego - da się zrobić generator "bezsensu" -
    ale taki, że będziesz potrzebował pewnego wysiłku, aby się połapać.

    Czyli innymi słowy - da się "zawiesić" "oprogramowanie" mózgu na tyle
    skutecznie, że - podobnie jak przy innych złudzeniach - jest to aż nie do
    wiary.

    Algorytm jest prosty, wymaga np. książki (jakiegoś długiego tekstu w danym
    języku). Wybierasz losowe miejsce w książce i patrzysz, jaka jest w tym
    miejscu litera zaczynająca wyraz. Następnie wybierasz inne losowe miejsce w
    książce i szukasz litery takiej, że przed nią jest poprzednio znaleziona
    litera. Potem jeszcze raz - ale szukasz bigramu (tj. dwóch liter, takich jak
    pierwsza i druga). Odstęp też traktujesz jak literę. Odstęp resetuje - po
    nim, gdy wypiszesz już ciąg znaków będący "słowem" (w istocie jest to
    przypadkowy zlepek liter) - restartujesz.

    Oczywiste jest, że tekst jest zupełnie przypadkowy. Jednak bez trudu można
    np. odróżnić tak wygenerowany tekst "niemiecki" od "polskiego". Cały dowcip
    w tym, że taka generacja tekstu zachowuje statystyczne jego właściwości.
    Pojawiają się zlepki liter charakterystyczne dla danego języka.

    slawek


Podziel się

Poleć ten post znajomemu poleć

Wydrukuj ten post drukuj


Następne wpisy z tego wątku

Najnowsze wątki z tej grupy


Najnowsze wątki

Szukaj w grupach

Eksperci egospodarka.pl

1 1 1

Wpisz nazwę miasta, dla którego chcesz znaleźć jednostkę ZUS.

Wzory dokumentów

Bezpłatne wzory dokumentów i formularzy.
Wyszukaj i pobierz za darmo: