-
Path: news-archive.icm.edu.pl!news.icm.edu.pl!newsfeed.pionier.net.pl!goblin1!goblin.
stu.neva.ru!newsfeed.neostrada.pl!unt-exc-01.news.neostrada.pl!unt-spo-a-01.new
s.neostrada.pl!news.neostrada.pl.POSTED!not-for-mail
Date: Mon, 19 Jan 2015 21:40:56 +0100
From: Kviat <kviat@NIE_DLA_SPAMUneostrada.pl>
User-Agent: Mozilla/5.0 (Windows NT 6.3; WOW64; rv:31.0) Gecko/20100101
Thunderbird/31.4.0
MIME-Version: 1.0
Newsgroups: pl.comp.www
Subject: Re: Jak gromadzić informacje?
References: <m9jfmg$nbl$1@news.icm.edu.pl>
In-Reply-To: <m9jfmg$nbl$1@news.icm.edu.pl>
Content-Type: text/plain; charset=utf-8; format=flowed
Content-Transfer-Encoding: 8bit
Lines: 47
Message-ID: <54bd6bd6$0$25246$65785112@news.neostrada.pl>
Organization: Telekomunikacja Polska
NNTP-Posting-Host: 83.11.170.220
X-Trace: 1421700054 unt-rea-a-02.news.neostrada.pl 25246 83.11.170.220:17645
X-Complaints-To: a...@n...neostrada.pl
Xref: news-archive.icm.edu.pl pl.comp.www:402934
[ ukryj nagłówki ]W dniu 2015-01-19 o 18:42, Marek pisze:
> Witam,
>
> W zasadzie znam odpowiedź ale chciałbym ją uzyskać od Was. Może macie
> inne przemyślenia niż ja. Mianowicie problem jest taki: pewna firma
> chciałby na bieżąco mieć raporty jakie ceny oferuje jej konkurencja na
> każdy z oferowanych produktów na ich stronach WWW, a ta jest liczna.
Oferta jest liczna czy konkurencja jest liczna? ;)
> Bazowanie na wyszukiwarce Google jest uciążliwe i bardzo mało dokładne a
> ponadto gdyby jakiś automat miał korzystać z ich wyników wyszukiwania,
Jeżeli ta konkurencja to jedna czy dwie (czy kilka - w sensie niedużo)
witryny (sklepy?) to parsuj te witryny.
Piszę "niedużo" bo dla każdej witryny konkurencji musiałbyś pisać inny
parser. Jak takich konkurentów/witryn jest dużo, to dużo czasu zajmie ci
napisanie parsera/ów...
W telegraficznym skrócie...
Jeżeli dany towar w danej witrynie ma zawsze stały adres (np.
www.towary.eu/towar/1, towar) i ma stały szablon, w którym cena
wyświetlana jest w jakimś stałym miejscu (albo charakterystycznie
otagowana) to sprawa jest prosta.
A jeszcze lepiej jak adresy towarów są podobne:
www.towary.eu/towary/1, towar
www.towary.eu/towary/2, towar1
www.towary.eu/towary/3, towar2
itd..
parsujesz w pętli podstrony i już.
> to Google zablokowałyby go dość szybko.
Jak admin konkurencyjnej witryny jest ogarnięty zrobi to samo...
Musiałbyś dysponować sporym zapleczem, albo na tyle rzadko parsować żeby
się nie zorientował. Jak ma duży ruch to może się nie zorientuje zbyt
szybko.
> Czy takie przedsięwzięcie da się w ogóle zrealizować? Jeśli tak, to jak
> by mogło to hipotetycznie działać?
Zapuszczasz skrypt parsujący w cronie raz/dwa/trzy (niepotrzebne
skreślić) razy dziennie i niech wysyła ci raport na maila.
Pozdrawiam
Piotr
Następne wpisy z tego wątku
Najnowsze wątki z tej grupy
- Jakie znacie działające serwery grup dyskusyjnych?
- is it live this group at news.icm.edu.pl
- php, linki z nazwami a $_GET, SEO
- www polityka pl captcha
- dyktatura brudnego palucha
- www.znanylekarz.pl
- Czy pytanie o sczytywanie stron programami/skryptami to tu?
- Grupy webdevowe
- Jak wydrukować stronę?
- IIS, kilka witryn
- linki <a href="/strona.php"> (ze slashami)
- co rozszerza stronę??
- responsywny akapit <p>
- Czy istnieje jakiś emulator przeglądarek pod Mac'a?
- taka sama konfiguracja dla localhost i produkcji
Najnowsze wątki
- 2024-11-08 Szczecin => Key Account Manager (ERP) <=
- 2024-11-08 Białystok => Full Stack web developer (obszar .Net Core, Angular6+) <
- 2024-11-08 Wrocław => Senior PHP Symfony Developer <=
- 2024-11-08 Warszawa => QA Engineer <=
- 2024-11-08 Warszawa => QA Inżynier <=
- 2024-11-08 Warszawa => Key Account Manager <=
- 2024-11-08 Gdańsk => Software .Net Developer <=
- 2024-11-08 Akumulator Hyundai
- 2024-11-08 Warszawa => Manager/Specialist e-commerce (B2C) <=
- 2024-11-08 Gdańsk => Specjalista ds. Sprzedaży <=
- 2024-11-08 Gdańsk => Kierownik Działu Spedycji Międzynarodowej <=
- 2024-11-08 znaj podstawe
- 2024-11-08 Chrzanów => Specjalista ds. public relations <=
- 2024-11-08 Warszawa => Data Scientist / Data Engineer (predictive modelling) <=
- 2024-11-08 zbrojone wężyki hamulcowe