-
Path: news-archive.icm.edu.pl!news.icm.edu.pl!newsfeed.pionier.net.pl!3.eu.feeder.erj
e.net!feeder.erje.net!news2.arglkargh.de!news.mixmin.net!eternal-september.org!
reader02.eternal-september.org!.POSTED!not-for-mail
From: "Andrzej A. Filip" <a...@o...eu>
Newsgroups: pl.comp.www
Subject: Re: Sczytywanie skryptem Amazon Top100 [wget (User-Agent) rulez? Nie.]
Date: Sun, 13 Mar 2022 20:56:26 +0100 (CET)
Organization: It is for me to know and for you to find out.
Lines: 26
Message-ID: <a...@w...eu>
References: <a...@w...eu> <622875ce$0$500$65785112@news.neostrada.pl>
<a...@w...eu> <6229ab7a$0$488$65785112@news.neostrada.pl>
<a...@w...eu> <a...@w...eu>
<622e4561$0$464$65785112@news.neostrada.pl>
Mime-Version: 1.0
Content-Type: text/plain; charset=utf-8
Content-Transfer-Encoding: 8bit
Injection-Info: reader02.eternal-september.org;
posting-host="53b06414f66020890f2d203498b9a36a";
logging-data="31549";
mail-complaints-to="a...@e...org";
posting-account="U2FsdGVkX1+o7vMXcnhAUcUWxJ9w0Ifx"
Cancel-Lock: sha1:mcSnGVTgGSXGbopkjY9V1BZpXDs= sha1:+MLmAQMzzp2oL4PhxNHIDCneJIw=
Xref: news-archive.icm.edu.pl pl.comp.www:403709
[ ukryj nagłówki ]Roman Tyczka <r...@h...you.spammer> pisze:
> On 11.03.2022 07:31, Andrzej A. Filip wrote:
>> Sugestia przestała był użyteczna. Amazon blokuje User-Agent wget i
>> samego wget "zależnie od fazy księżyca". Kilka razy zadziałało a
>> teraz blokuje dostęp prawie zawsze.
>> PO prostu użyje czego innego to śledzenia nowości z kategorii
>> książek
>> które mnie interesują "w akceptowalnym dla mnie formacie".
>
> Zatem sprawdź curla, on ma większe możliwości niż wget.
> Np. zmiana user agenta:
> curl -A "moj osobisty browser" adres
Ależ wget raz czy dwa dostał wszystkie 50 wpisów na stronie
(zamiast początkowych 30) zanim zaczął dostawać od amazona
"503: Service Unavailable". [Wpisy 31-50 daje javascript]
A co do "User-Agent:" : to z czego korzystam też pozwala to ustawić ale
wygląda że amazon nie tylko to bierze pod uwagę>=. Moje oskryptowanie
radzi sobie nawet z captha (z moją "ręczną" pomocą). Kiedyś amazon
pytał co chwilę, jak zaczął dostawać captcha to (w końcu) przestał.
Użycie Lynx-a jako browsera (czysto tekstoweggo) też nie pomogło.
--
Andrzej A. Filip
Następne wpisy z tego wątku
- 15.03.22 09:46 Tomek
- 15.03.22 12:18 Andrzej A. Filip
Najnowsze wątki z tej grupy
- Jakie znacie działające serwery grup dyskusyjnych?
- is it live this group at news.icm.edu.pl
- php, linki z nazwami a $_GET, SEO
- www polityka pl captcha
- dyktatura brudnego palucha
- www.znanylekarz.pl
- Czy pytanie o sczytywanie stron programami/skryptami to tu?
- Grupy webdevowe
- Jak wydrukować stronę?
- IIS, kilka witryn
- linki <a href="/strona.php"> (ze slashami)
- co rozszerza stronę??
- responsywny akapit <p>
- Czy istnieje jakiś emulator przeglądarek pod Mac'a?
- taka sama konfiguracja dla localhost i produkcji
Najnowsze wątki
- 2025-04-14 Kraków => NMS System Administrator <=
- 2025-04-14 Zielona Góra => Konsultant wdrożeniowy Comarch XL (Logistyka, WMS, P
- 2025-04-14 Warszawa => Fullstack PHP Developer <=
- 2025-04-14 Ostrów Wielkopolski => Konsultant Wdrożeniowy Comarch XL/Optima (Ksi
- 2025-04-14 t-mobile z dodatkiem perplexity_ai
- 2025-04-14 Warszawa => Senior Frontend Developer (React + React Native) <=
- 2025-04-14 Kazdy z nas móglby to napisac
- 2025-04-14 kontrolowanie tego czy wpłaty faktycznie pochodzą od różnych darczyńców jest niemożliwe
- 2025-04-14 Korekcja perspektywy
- 2025-04-13 Wentylator zabija zasilacze LEDek?
- 2025-04-13 Potrącenie 14 w rzeszowie - update
- 2025-04-13 mamy trzy telefony
- 2025-04-13 eSIM będzie standardem
- 2025-04-13 słowo na niedzielę Calais - Koszalin
- 2025-04-13 klej do komór