-
1. Data: 2022-03-08 19:38:19
Temat: Czy pytanie o sczytywanie stron programami/skryptami to tu?
Od: "Andrzej A. Filip" <a...@o...eu>
Czy pytanie o sczytywanie stron programami/skryptami to tu?
P.S. Tak naprawdę to jest chyba test czy ta grupa jeszcze dycha.
--
Andrzej A. Filip
-
2. Data: 2022-03-09 10:40:14
Temat: Re: Czy pytanie o sczytywanie stron programami/skryptami to tu?
Od: Tomek <s...@w...xx.pl>
W dniu 08.03.2022 o 19:38, Andrzej A. Filip pisze:
> Czy pytanie o sczytywanie stron programami/skryptami to tu?
>
> P.S. Tak naprawdę to jest chyba test czy ta grupa jeszcze dycha.
Zadaj pytanie, to może ktoś się wybudzi z hibernacji.
-
3. Data: 2022-03-09 14:41:41
Temat: Re: Sczytuwanie skryptem Amazon Top100 [Was: Czy pytanie o sczytywanie stron programami/skryptami to tu?]
Od: "Andrzej A. Filip" <a...@o...eu>
Tomek <s...@w...xx.pl> pisze:
> W dniu 08.03.2022 o 19:38, Andrzej A. Filip pisze:
>> Czy pytanie o sczytywanie stron programami/skryptami to tu?
>> P.S. Tak naprawdę to jest chyba test czy ta grupa jeszcze dycha.
>
> Zadaj pytanie, to może ktoś się wybudzi z hibernacji.
Czy da się *bez java-script* sczytać pełne top100 z list amazona?
Może skryptu bez java-script (po stronie klienta) widzą pozycje
1:30 i 51:80.
https://www.amazon.com/best-sellers-books-Amazon/zgb
s/books/
--
Andrzej A. Filip
-
4. Data: 2022-03-10 08:41:31
Temat: Re: Sczytuwanie skryptem Amazon Top100 [Was: Czy pytanie o sczytywanie stron programami/skryptami to tu?]
Od: Tomek <s...@w...xx.pl>
W dniu 09.03.2022 o 14:41, Andrzej A. Filip pisze:
> Czy da się *bez java-script* sczytać pełne top100 z list amazona?
>
> Może skryptu bez java-script (po stronie klienta) widzą pozycje
> 1:30 i 51:80.
>
> https://www.amazon.com/best-sellers-books-Amazon/zgb
s/books/
>
A sprawdzałeś jak sobie radzi "wget"?
-
5. Data: 2022-03-10 09:00:40
Temat: Re: Sczytywanie skryptem Amazon Top100 [wget (User-Agent) rulez?]
Od: "Andrzej A. Filip" <a...@o...eu>
Tomek <s...@w...xx.pl> pisze:
> W dniu 09.03.2022 o 14:41, Andrzej A. Filip pisze:
>> Czy da się *bez java-script* sczytać pełne top100 z list amazona?
>> Może skryptu bez java-script (po stronie klienta) widzą pozycje
>> 1:30 i 51:80.
>> https://www.amazon.com/best-sellers-books-Amazon/zgb
s/books/
>>
>
> A sprawdzałeś jak sobie radzi "wget"?
Chciałem sprawdzić tylko "na odczepnego" ale o dziwo różnica jest i na
pierwszy rzut oka jest 50 pozycji na stronie. Dzięki za *o dziwo*
działające rozwiązane. Później sprawdzę czy samo ustawienie nagłówka
User-Agent wystarcza [raczej tak nie niekoniecznie (na dłużej)].
Wkopałem się w obecną pozycję bo AFAIR Amazon się biesił na pusty
User-Agent albo "nie poprawiony" dla WWW::Mechanize (perl).
Zresztą AFAIR Amazon co kilka miesięcy odstawia "małą rewolucje".
"Good Judgment Comes with Experience. Experience Comes from Bad Judgment"
--
Andrzej A. Filip
-
6. Data: 2022-03-11 07:31:14
Temat: Re: Sczytywanie skryptem Amazon Top100 [wget (User-Agent) rulez? Nie.]
Od: "Andrzej A. Filip" <a...@o...eu>
"Andrzej A. Filip" <a...@o...eu> pisze:
> Tomek <s...@w...xx.pl> pisze:
>> W dniu 09.03.2022 o 14:41, Andrzej A. Filip pisze:
>>> Czy da się *bez java-script* sczytać pełne top100 z list amazona?
>>> Może skryptu bez java-script (po stronie klienta) widzą pozycje
>>> 1:30 i 51:80.
>>> https://www.amazon.com/best-sellers-books-Amazon/zgb
s/books/
>>>
>>
>> A sprawdzałeś jak sobie radzi "wget"?
>
> Chciałem sprawdzić tylko "na odczepnego" ale o dziwo różnica jest i na
> pierwszy rzut oka jest 50 pozycji na stronie. Dzięki za *o dziwo*
> działające rozwiązane. Później sprawdzę czy samo ustawienie nagłówka
> User-Agent wystarcza [raczej tak nie niekoniecznie (na dłużej)].
>
> Wkopałem się w obecną pozycję bo AFAIR Amazon się biesił na pusty
> User-Agent albo "nie poprawiony" dla WWW::Mechanize (perl).
> Zresztą AFAIR Amazon co kilka miesięcy odstawia "małą rewolucje".
Sugestia przestała był użyteczna. Amazon blokuje User-Agent wget i
samego wget "zależnie od fazy księżyca". Kilka razy zadziałało a
teraz blokuje dostęp prawie zawsze.
PO prostu użyje czego innego to śledzenia nowości z kategorii książek
które mnie interesują "w akceptowalnym dla mnie formacie".
--
Andrzej A. Filip
-
7. Data: 2022-03-13 20:26:24
Temat: Re: Sczytywanie skryptem Amazon Top100 [wget (User-Agent) rulez? Nie.]
Od: Roman Tyczka <r...@h...you.spammer>
On 11.03.2022 07:31, Andrzej A. Filip wrote:
> Sugestia przestała był użyteczna. Amazon blokuje User-Agent wget i
> samego wget "zależnie od fazy księżyca". Kilka razy zadziałało a
> teraz blokuje dostęp prawie zawsze.
>
> PO prostu użyje czego innego to śledzenia nowości z kategorii książek
> które mnie interesują "w akceptowalnym dla mnie formacie".
Zatem sprawdź curla, on ma większe możliwości niż wget.
Np. zmiana user agenta:
curl -A "moj osobisty browser" adres
--
pzdr
Roman
-
8. Data: 2022-03-13 20:56:26
Temat: Re: Sczytywanie skryptem Amazon Top100 [wget (User-Agent) rulez? Nie.]
Od: "Andrzej A. Filip" <a...@o...eu>
Roman Tyczka <r...@h...you.spammer> pisze:
> On 11.03.2022 07:31, Andrzej A. Filip wrote:
>> Sugestia przestała był użyteczna. Amazon blokuje User-Agent wget i
>> samego wget "zależnie od fazy księżyca". Kilka razy zadziałało a
>> teraz blokuje dostęp prawie zawsze.
>> PO prostu użyje czego innego to śledzenia nowości z kategorii
>> książek
>> które mnie interesują "w akceptowalnym dla mnie formacie".
>
> Zatem sprawdź curla, on ma większe możliwości niż wget.
> Np. zmiana user agenta:
> curl -A "moj osobisty browser" adres
Ależ wget raz czy dwa dostał wszystkie 50 wpisów na stronie
(zamiast początkowych 30) zanim zaczął dostawać od amazona
"503: Service Unavailable". [Wpisy 31-50 daje javascript]
A co do "User-Agent:" : to z czego korzystam też pozwala to ustawić ale
wygląda że amazon nie tylko to bierze pod uwagę>=. Moje oskryptowanie
radzi sobie nawet z captha (z moją "ręczną" pomocą). Kiedyś amazon
pytał co chwilę, jak zaczął dostawać captcha to (w końcu) przestał.
Użycie Lynx-a jako browsera (czysto tekstoweggo) też nie pomogło.
--
Andrzej A. Filip
-
9. Data: 2022-03-15 09:46:51
Temat: Re: Sczytywanie skryptem Amazon Top100 [wget (User-Agent) rulez? Nie.]
Od: Tomek <s...@w...xx.pl>
W dniu 13.03.2022 o 20:56, Andrzej A. Filip pisze:
> Roman Tyczka <r...@h...you.spammer> pisze:
>> On 11.03.2022 07:31, Andrzej A. Filip wrote:
>>> Sugestia przestała był użyteczna. Amazon blokuje User-Agent wget i
>>> samego wget "zależnie od fazy księżyca". Kilka razy zadziałało a
>>> teraz blokuje dostęp prawie zawsze.
To może użyj wgeta z parametrem:
--random-wait
-
10. Data: 2022-03-15 12:18:48
Temat: Re: Sczytywanie skryptem Amazon Top100 [wget (User-Agent) rulez? Nie.]
Od: "Andrzej A. Filip" <a...@o...eu>
Tomek <s...@w...xx.pl> pisze:
> W dniu 13.03.2022 o 20:56, Andrzej A. Filip pisze:
>> Roman Tyczka <r...@h...you.spammer> pisze:
>>> On 11.03.2022 07:31, Andrzej A. Filip wrote:
>>>> Sugestia przestała był użyteczna. Amazon blokuje User-Agent wget i
>>>> samego wget "zależnie od fazy księżyca". Kilka razy zadziałało a
>>>> teraz blokuje dostęp prawie zawsze.
>
>
> To może użyj wgeta z parametrem:
> --random-wait
Problem polega na tym że amazom.com *teraz już* odwala próbę
ściągnięcia pierwszej strony przez wget.
---request begin---
GET /Best-Sellers-Science-Fiction-Fantasy/zgbs/books/25/ HTTP/1.1
Host: www.amazon.com
User-Agent: Wget/1.21.2
Accept: */*
Accept-Encoding: identity
Connection: Keep-Alive
---response begin---
HTTP/1.1 503 Service Unavailable
Content-Type: text/html
Content-Length: 2671
Connection: keep-alive
...
Vary: Content-Type,Accept-Encoding,X-Amzn-CDN-Cache,X-Amzn
-AX-Treatment,User-Agent
...
X-Cache: Error from cloudfront
...
--
Andrzej A. Filip