-
Path: news-archive.icm.edu.pl!news.icm.edu.pl!newsfeed.pionier.net.pl!2.eu.feeder.erj
e.net!feeder.erje.net!eternal-september.org!reader02.eternal-september.org!.POS
TED!not-for-mail
From: "Andrzej A. Filip" <a...@o...eu>
Newsgroups: pl.comp.www
Subject: Re: Sczytywanie skryptem Amazon Top100 [wget (User-Agent) rulez? Nie.]
Date: Fri, 11 Mar 2022 07:31:14 +0100 (CET)
Organization: It is for me to know and for you to find out.
Lines: 29
Message-ID: <a...@w...eu>
References: <a...@w...eu> <622875ce$0$500$65785112@news.neostrada.pl>
<a...@w...eu> <6229ab7a$0$488$65785112@news.neostrada.pl>
<a...@w...eu>
Mime-Version: 1.0
Content-Type: text/plain; charset=utf-8
Content-Transfer-Encoding: 8bit
Injection-Info: reader02.eternal-september.org;
posting-host="bf97d023af2c160e715194203fcb9af3";
logging-data="29744";
mail-complaints-to="a...@e...org";
posting-account="U2FsdGVkX18C9vEtQUwBbONCpD9lgYum"
Cancel-Lock: sha1:AdnNkMo0mypvOVXKtHRudgKvinU= sha1:ODp4MsuI1h5w0KLapZHPFgNovVk=
Xref: news-archive.icm.edu.pl pl.comp.www:403707
[ ukryj nagłówki ]"Andrzej A. Filip" <a...@o...eu> pisze:
> Tomek <s...@w...xx.pl> pisze:
>> W dniu 09.03.2022 o 14:41, Andrzej A. Filip pisze:
>>> Czy da się *bez java-script* sczytać pełne top100 z list amazona?
>>> Może skryptu bez java-script (po stronie klienta) widzą pozycje
>>> 1:30 i 51:80.
>>> https://www.amazon.com/best-sellers-books-Amazon/zgb
s/books/
>>>
>>
>> A sprawdzałeś jak sobie radzi "wget"?
>
> Chciałem sprawdzić tylko "na odczepnego" ale o dziwo różnica jest i na
> pierwszy rzut oka jest 50 pozycji na stronie. Dzięki za *o dziwo*
> działające rozwiązane. Później sprawdzę czy samo ustawienie nagłówka
> User-Agent wystarcza [raczej tak nie niekoniecznie (na dłużej)].
>
> Wkopałem się w obecną pozycję bo AFAIR Amazon się biesił na pusty
> User-Agent albo "nie poprawiony" dla WWW::Mechanize (perl).
> Zresztą AFAIR Amazon co kilka miesięcy odstawia "małą rewolucje".
Sugestia przestała był użyteczna. Amazon blokuje User-Agent wget i
samego wget "zależnie od fazy księżyca". Kilka razy zadziałało a
teraz blokuje dostęp prawie zawsze.
PO prostu użyje czego innego to śledzenia nowości z kategorii książek
które mnie interesują "w akceptowalnym dla mnie formacie".
--
Andrzej A. Filip
Następne wpisy z tego wątku
- 13.03.22 20:26 Roman Tyczka
- 13.03.22 20:56 Andrzej A. Filip
- 15.03.22 09:46 Tomek
- 15.03.22 12:18 Andrzej A. Filip
Najnowsze wątki z tej grupy
- Jakie znacie działające serwery grup dyskusyjnych?
- is it live this group at news.icm.edu.pl
- php, linki z nazwami a $_GET, SEO
- www polityka pl captcha
- dyktatura brudnego palucha
- www.znanylekarz.pl
- Czy pytanie o sczytywanie stron programami/skryptami to tu?
- Grupy webdevowe
- Jak wydrukować stronę?
- IIS, kilka witryn
- linki <a href="/strona.php"> (ze slashami)
- co rozszerza stronę??
- responsywny akapit <p>
- Czy istnieje jakiś emulator przeglądarek pod Mac'a?
- taka sama konfiguracja dla localhost i produkcji
Najnowsze wątki
- 2025-02-01 "Nie kupujcie samochodów elektrycznych
- 2025-02-01 jakie małe auto duże w środku :-)
- 2025-02-01 Re: pytanie do oponiarzy lub szybkojeżdzących (opony Hankook Ventus Prime, S1 Evo, alternatywy)
- 2025-02-01 T-1000 was here
- 2025-02-01 Warszawa => DevOps Engineer <=
- 2025-02-01 Katowice => Administrator IT - Operating Systems and Virtualization <=
- 2025-02-01 Warszawa => Spedytor międzynarodowy <=
- 2025-02-01 Śmierć mózgu a narządy do pobrania
- 2025-01-31 A niektórym to naprawdę zależy na ekologi w miastach LPG POWRACA ;-)
- 2025-01-31 Lublin => Programista Delphi <=
- 2025-01-31 Łódź => Programista NodeJS <=
- 2025-01-31 Wrocław => Senior SAP Support Consultant (SD) <=
- 2025-01-31 Warszawa => Full Stack web developer (obszar .Net Core, Angular6+) <=
- 2025-01-31 Gdańsk => iOS Developer (Swift experience) <=
- 2025-01-31 Kraków => UX Designer <=