-
Data: 2015-01-19 21:40:56
Temat: Re: Jak gromadzić informacje?
Od: Kviat <kviat@NIE_DLA_SPAMUneostrada.pl> szukaj wiadomości tego autora
[ pokaż wszystkie nagłówki ]W dniu 2015-01-19 o 18:42, Marek pisze:
> Witam,
>
> W zasadzie znam odpowiedź ale chciałbym ją uzyskać od Was. Może macie
> inne przemyślenia niż ja. Mianowicie problem jest taki: pewna firma
> chciałby na bieżąco mieć raporty jakie ceny oferuje jej konkurencja na
> każdy z oferowanych produktów na ich stronach WWW, a ta jest liczna.
Oferta jest liczna czy konkurencja jest liczna? ;)
> Bazowanie na wyszukiwarce Google jest uciążliwe i bardzo mało dokładne a
> ponadto gdyby jakiś automat miał korzystać z ich wyników wyszukiwania,
Jeżeli ta konkurencja to jedna czy dwie (czy kilka - w sensie niedużo)
witryny (sklepy?) to parsuj te witryny.
Piszę "niedużo" bo dla każdej witryny konkurencji musiałbyś pisać inny
parser. Jak takich konkurentów/witryn jest dużo, to dużo czasu zajmie ci
napisanie parsera/ów...
W telegraficznym skrócie...
Jeżeli dany towar w danej witrynie ma zawsze stały adres (np.
www.towary.eu/towar/1, towar) i ma stały szablon, w którym cena
wyświetlana jest w jakimś stałym miejscu (albo charakterystycznie
otagowana) to sprawa jest prosta.
A jeszcze lepiej jak adresy towarów są podobne:
www.towary.eu/towary/1, towar
www.towary.eu/towary/2, towar1
www.towary.eu/towary/3, towar2
itd..
parsujesz w pętli podstrony i już.
> to Google zablokowałyby go dość szybko.
Jak admin konkurencyjnej witryny jest ogarnięty zrobi to samo...
Musiałbyś dysponować sporym zapleczem, albo na tyle rzadko parsować żeby
się nie zorientował. Jak ma duży ruch to może się nie zorientuje zbyt
szybko.
> Czy takie przedsięwzięcie da się w ogóle zrealizować? Jeśli tak, to jak
> by mogło to hipotetycznie działać?
Zapuszczasz skrypt parsujący w cronie raz/dwa/trzy (niepotrzebne
skreślić) razy dziennie i niech wysyła ci raport na maila.
Pozdrawiam
Piotr
Następne wpisy z tego wątku
Najnowsze wątki z tej grupy
- Jakie znacie działające serwery grup dyskusyjnych?
- is it live this group at news.icm.edu.pl
- php, linki z nazwami a $_GET, SEO
- www polityka pl captcha
- dyktatura brudnego palucha
- www.znanylekarz.pl
- Czy pytanie o sczytywanie stron programami/skryptami to tu?
- Grupy webdevowe
- Jak wydrukować stronę?
- IIS, kilka witryn
- linki <a href="/strona.php"> (ze slashami)
- co rozszerza stronę??
- responsywny akapit <p>
- Czy istnieje jakiś emulator przeglądarek pod Mac'a?
- taka sama konfiguracja dla localhost i produkcji
Najnowsze wątki
- 2025-02-01 Śmierć mózgu a narządy do pobrania
- 2025-01-31 A niektórym to naprawdę zależy na ekologi w miastach LPG POWRACA ;-)
- 2025-01-31 Lublin => Programista Delphi <=
- 2025-01-31 Łódź => Programista NodeJS <=
- 2025-01-31 Wrocław => Senior SAP Support Consultant (SD) <=
- 2025-01-31 Warszawa => Full Stack web developer (obszar .Net Core, Angular6+) <=
- 2025-01-31 Gdańsk => iOS Developer (Swift experience) <=
- 2025-01-31 Kraków => UX Designer <=
- 2025-01-31 Warszawa => Data Engineer (Tech Leader) <=
- 2025-01-31 Gliwice => Business Development Manager - Dział Sieci i Bezpieczeńst
- 2025-01-31 Gliwice => Business Development Manager - Network and Network Security
- 2025-01-31 Warszawa => Architekt rozwiązań (doświadczenie w obszarze Java, AWS
- 2025-01-31 Warszawa => Full Stack .Net Engineer <=
- 2025-01-31 Warszawa => Programista Full Stack (.Net Core) <=
- 2025-01-31 Gdańsk => Programista Full Stack .Net <=