eGospodarka.pl
eGospodarka.pl poleca

eGospodarka.plGrupypl.comp.wwwJak gromadzić informacje?Re: Jak gromadzić informacje?
  • Path: news-archive.icm.edu.pl!news.icm.edu.pl!newsfeed.pionier.net.pl!goblin1!goblin.
    stu.neva.ru!newsfeed.neostrada.pl!unt-exc-01.news.neostrada.pl!unt-spo-a-01.new
    s.neostrada.pl!news.neostrada.pl.POSTED!not-for-mail
    Date: Mon, 19 Jan 2015 21:40:56 +0100
    From: Kviat <kviat@NIE_DLA_SPAMUneostrada.pl>
    User-Agent: Mozilla/5.0 (Windows NT 6.3; WOW64; rv:31.0) Gecko/20100101
    Thunderbird/31.4.0
    MIME-Version: 1.0
    Newsgroups: pl.comp.www
    Subject: Re: Jak gromadzić informacje?
    References: <m9jfmg$nbl$1@news.icm.edu.pl>
    In-Reply-To: <m9jfmg$nbl$1@news.icm.edu.pl>
    Content-Type: text/plain; charset=utf-8; format=flowed
    Content-Transfer-Encoding: 8bit
    Lines: 47
    Message-ID: <54bd6bd6$0$25246$65785112@news.neostrada.pl>
    Organization: Telekomunikacja Polska
    NNTP-Posting-Host: 83.11.170.220
    X-Trace: 1421700054 unt-rea-a-02.news.neostrada.pl 25246 83.11.170.220:17645
    X-Complaints-To: a...@n...neostrada.pl
    Xref: news-archive.icm.edu.pl pl.comp.www:402934
    [ ukryj nagłówki ]

    W dniu 2015-01-19 o 18:42, Marek pisze:
    > Witam,
    >
    > W zasadzie znam odpowiedź ale chciałbym ją uzyskać od Was. Może macie
    > inne przemyślenia niż ja. Mianowicie problem jest taki: pewna firma
    > chciałby na bieżąco mieć raporty jakie ceny oferuje jej konkurencja na
    > każdy z oferowanych produktów na ich stronach WWW, a ta jest liczna.

    Oferta jest liczna czy konkurencja jest liczna? ;)

    > Bazowanie na wyszukiwarce Google jest uciążliwe i bardzo mało dokładne a
    > ponadto gdyby jakiś automat miał korzystać z ich wyników wyszukiwania,

    Jeżeli ta konkurencja to jedna czy dwie (czy kilka - w sensie niedużo)
    witryny (sklepy?) to parsuj te witryny.

    Piszę "niedużo" bo dla każdej witryny konkurencji musiałbyś pisać inny
    parser. Jak takich konkurentów/witryn jest dużo, to dużo czasu zajmie ci
    napisanie parsera/ów...

    W telegraficznym skrócie...
    Jeżeli dany towar w danej witrynie ma zawsze stały adres (np.
    www.towary.eu/towar/1, towar) i ma stały szablon, w którym cena
    wyświetlana jest w jakimś stałym miejscu (albo charakterystycznie
    otagowana) to sprawa jest prosta.
    A jeszcze lepiej jak adresy towarów są podobne:
    www.towary.eu/towary/1, towar
    www.towary.eu/towary/2, towar1
    www.towary.eu/towary/3, towar2
    itd..
    parsujesz w pętli podstrony i już.

    > to Google zablokowałyby go dość szybko.

    Jak admin konkurencyjnej witryny jest ogarnięty zrobi to samo...
    Musiałbyś dysponować sporym zapleczem, albo na tyle rzadko parsować żeby
    się nie zorientował. Jak ma duży ruch to może się nie zorientuje zbyt
    szybko.

    > Czy takie przedsięwzięcie da się w ogóle zrealizować? Jeśli tak, to jak
    > by mogło to hipotetycznie działać?

    Zapuszczasz skrypt parsujący w cronie raz/dwa/trzy (niepotrzebne
    skreślić) razy dziennie i niech wysyła ci raport na maila.

    Pozdrawiam
    Piotr

Podziel się

Poleć ten post znajomemu poleć

Wydrukuj ten post drukuj


Następne wpisy z tego wątku

Najnowsze wątki z tej grupy


Najnowsze wątki

Szukaj w grupach

Eksperci egospodarka.pl

1 1 1

Wpisz nazwę miasta, dla którego chcesz znaleźć jednostkę ZUS.

Wzory dokumentów

Bezpłatne wzory dokumentów i formularzy.
Wyszukaj i pobierz za darmo: