eGospodarka.pl
eGospodarka.pl poleca

eGospodarka.plGrupypl.comp.wwwCzy pytanie o sczytywanie stron programami/skryptami to tu?
Ilość wypowiedzi w tym wątku: 10

  • 1. Data: 2022-03-08 19:38:19
    Temat: Czy pytanie o sczytywanie stron programami/skryptami to tu?
    Od: "Andrzej A. Filip" <a...@o...eu>

    Czy pytanie o sczytywanie stron programami/skryptami to tu?

    P.S. Tak naprawdę to jest chyba test czy ta grupa jeszcze dycha.

    --
    Andrzej A. Filip


  • 2. Data: 2022-03-09 10:40:14
    Temat: Re: Czy pytanie o sczytywanie stron programami/skryptami to tu?
    Od: Tomek <s...@w...xx.pl>

    W dniu 08.03.2022 o 19:38, Andrzej A. Filip pisze:
    > Czy pytanie o sczytywanie stron programami/skryptami to tu?
    >
    > P.S. Tak naprawdę to jest chyba test czy ta grupa jeszcze dycha.

    Zadaj pytanie, to może ktoś się wybudzi z hibernacji.


  • 3. Data: 2022-03-09 14:41:41
    Temat: Re: Sczytuwanie skryptem Amazon Top100 [Was: Czy pytanie o sczytywanie stron programami/skryptami to tu?]
    Od: "Andrzej A. Filip" <a...@o...eu>

    Tomek <s...@w...xx.pl> pisze:
    > W dniu 08.03.2022 o 19:38, Andrzej A. Filip pisze:
    >> Czy pytanie o sczytywanie stron programami/skryptami to tu?
    >> P.S. Tak naprawdę to jest chyba test czy ta grupa jeszcze dycha.
    >
    > Zadaj pytanie, to może ktoś się wybudzi z hibernacji.

    Czy da się *bez java-script* sczytać pełne top100 z list amazona?

    Może skryptu bez java-script (po stronie klienta) widzą pozycje
    1:30 i 51:80.

    https://www.amazon.com/best-sellers-books-Amazon/zgb
    s/books/

    --
    Andrzej A. Filip


  • 4. Data: 2022-03-10 08:41:31
    Temat: Re: Sczytuwanie skryptem Amazon Top100 [Was: Czy pytanie o sczytywanie stron programami/skryptami to tu?]
    Od: Tomek <s...@w...xx.pl>

    W dniu 09.03.2022 o 14:41, Andrzej A. Filip pisze:
    > Czy da się *bez java-script* sczytać pełne top100 z list amazona?
    >
    > Może skryptu bez java-script (po stronie klienta) widzą pozycje
    > 1:30 i 51:80.
    >
    > https://www.amazon.com/best-sellers-books-Amazon/zgb
    s/books/
    >

    A sprawdzałeś jak sobie radzi "wget"?


  • 5. Data: 2022-03-10 09:00:40
    Temat: Re: Sczytywanie skryptem Amazon Top100 [wget (User-Agent) rulez?]
    Od: "Andrzej A. Filip" <a...@o...eu>

    Tomek <s...@w...xx.pl> pisze:
    > W dniu 09.03.2022 o 14:41, Andrzej A. Filip pisze:
    >> Czy da się *bez java-script* sczytać pełne top100 z list amazona?
    >> Może skryptu bez java-script (po stronie klienta) widzą pozycje
    >> 1:30 i 51:80.
    >> https://www.amazon.com/best-sellers-books-Amazon/zgb
    s/books/
    >>
    >
    > A sprawdzałeś jak sobie radzi "wget"?

    Chciałem sprawdzić tylko "na odczepnego" ale o dziwo różnica jest i na
    pierwszy rzut oka jest 50 pozycji na stronie. Dzięki za *o dziwo*
    działające rozwiązane. Później sprawdzę czy samo ustawienie nagłówka
    User-Agent wystarcza [raczej tak nie niekoniecznie (na dłużej)].

    Wkopałem się w obecną pozycję bo AFAIR Amazon się biesił na pusty
    User-Agent albo "nie poprawiony" dla WWW::Mechanize (perl).
    Zresztą AFAIR Amazon co kilka miesięcy odstawia "małą rewolucje".

    "Good Judgment Comes with Experience. Experience Comes from Bad Judgment"

    --
    Andrzej A. Filip


  • 6. Data: 2022-03-11 07:31:14
    Temat: Re: Sczytywanie skryptem Amazon Top100 [wget (User-Agent) rulez? Nie.]
    Od: "Andrzej A. Filip" <a...@o...eu>

    "Andrzej A. Filip" <a...@o...eu> pisze:
    > Tomek <s...@w...xx.pl> pisze:
    >> W dniu 09.03.2022 o 14:41, Andrzej A. Filip pisze:
    >>> Czy da się *bez java-script* sczytać pełne top100 z list amazona?
    >>> Może skryptu bez java-script (po stronie klienta) widzą pozycje
    >>> 1:30 i 51:80.
    >>> https://www.amazon.com/best-sellers-books-Amazon/zgb
    s/books/
    >>>
    >>
    >> A sprawdzałeś jak sobie radzi "wget"?
    >
    > Chciałem sprawdzić tylko "na odczepnego" ale o dziwo różnica jest i na
    > pierwszy rzut oka jest 50 pozycji na stronie. Dzięki za *o dziwo*
    > działające rozwiązane. Później sprawdzę czy samo ustawienie nagłówka
    > User-Agent wystarcza [raczej tak nie niekoniecznie (na dłużej)].
    >
    > Wkopałem się w obecną pozycję bo AFAIR Amazon się biesił na pusty
    > User-Agent albo "nie poprawiony" dla WWW::Mechanize (perl).
    > Zresztą AFAIR Amazon co kilka miesięcy odstawia "małą rewolucje".

    Sugestia przestała był użyteczna. Amazon blokuje User-Agent wget i
    samego wget "zależnie od fazy księżyca". Kilka razy zadziałało a
    teraz blokuje dostęp prawie zawsze.

    PO prostu użyje czego innego to śledzenia nowości z kategorii książek
    które mnie interesują "w akceptowalnym dla mnie formacie".

    --
    Andrzej A. Filip


  • 7. Data: 2022-03-13 20:26:24
    Temat: Re: Sczytywanie skryptem Amazon Top100 [wget (User-Agent) rulez? Nie.]
    Od: Roman Tyczka <r...@h...you.spammer>

    On 11.03.2022 07:31, Andrzej A. Filip wrote:
    > Sugestia przestała był użyteczna. Amazon blokuje User-Agent wget i
    > samego wget "zależnie od fazy księżyca". Kilka razy zadziałało a
    > teraz blokuje dostęp prawie zawsze.
    >
    > PO prostu użyje czego innego to śledzenia nowości z kategorii książek
    > które mnie interesują "w akceptowalnym dla mnie formacie".

    Zatem sprawdź curla, on ma większe możliwości niż wget.
    Np. zmiana user agenta:
    curl -A "moj osobisty browser" adres

    --
    pzdr
    Roman


  • 8. Data: 2022-03-13 20:56:26
    Temat: Re: Sczytywanie skryptem Amazon Top100 [wget (User-Agent) rulez? Nie.]
    Od: "Andrzej A. Filip" <a...@o...eu>

    Roman Tyczka <r...@h...you.spammer> pisze:
    > On 11.03.2022 07:31, Andrzej A. Filip wrote:
    >> Sugestia przestała był użyteczna. Amazon blokuje User-Agent wget i
    >> samego wget "zależnie od fazy księżyca". Kilka razy zadziałało a
    >> teraz blokuje dostęp prawie zawsze.
    >> PO prostu użyje czego innego to śledzenia nowości z kategorii
    >> książek
    >> które mnie interesują "w akceptowalnym dla mnie formacie".
    >
    > Zatem sprawdź curla, on ma większe możliwości niż wget.
    > Np. zmiana user agenta:
    > curl -A "moj osobisty browser" adres

    Ależ wget raz czy dwa dostał wszystkie 50 wpisów na stronie
    (zamiast początkowych 30) zanim zaczął dostawać od amazona
    "503: Service Unavailable". [Wpisy 31-50 daje javascript]

    A co do "User-Agent:" : to z czego korzystam też pozwala to ustawić ale
    wygląda że amazon nie tylko to bierze pod uwagę>=. Moje oskryptowanie
    radzi sobie nawet z captha (z moją "ręczną" pomocą). Kiedyś amazon
    pytał co chwilę, jak zaczął dostawać captcha to (w końcu) przestał.

    Użycie Lynx-a jako browsera (czysto tekstoweggo) też nie pomogło.

    --
    Andrzej A. Filip


  • 9. Data: 2022-03-15 09:46:51
    Temat: Re: Sczytywanie skryptem Amazon Top100 [wget (User-Agent) rulez? Nie.]
    Od: Tomek <s...@w...xx.pl>

    W dniu 13.03.2022 o 20:56, Andrzej A. Filip pisze:
    > Roman Tyczka <r...@h...you.spammer> pisze:
    >> On 11.03.2022 07:31, Andrzej A. Filip wrote:
    >>> Sugestia przestała był użyteczna. Amazon blokuje User-Agent wget i
    >>> samego wget "zależnie od fazy księżyca". Kilka razy zadziałało a
    >>> teraz blokuje dostęp prawie zawsze.


    To może użyj wgeta z parametrem:
    --random-wait






  • 10. Data: 2022-03-15 12:18:48
    Temat: Re: Sczytywanie skryptem Amazon Top100 [wget (User-Agent) rulez? Nie.]
    Od: "Andrzej A. Filip" <a...@o...eu>

    Tomek <s...@w...xx.pl> pisze:
    > W dniu 13.03.2022 o 20:56, Andrzej A. Filip pisze:
    >> Roman Tyczka <r...@h...you.spammer> pisze:
    >>> On 11.03.2022 07:31, Andrzej A. Filip wrote:
    >>>> Sugestia przestała był użyteczna. Amazon blokuje User-Agent wget i
    >>>> samego wget "zależnie od fazy księżyca". Kilka razy zadziałało a
    >>>> teraz blokuje dostęp prawie zawsze.
    >
    >
    > To może użyj wgeta z parametrem:
    > --random-wait

    Problem polega na tym że amazom.com *teraz już* odwala próbę
    ściągnięcia pierwszej strony przez wget.

    ---request begin---
    GET /Best-Sellers-Science-Fiction-Fantasy/zgbs/books/25/ HTTP/1.1
    Host: www.amazon.com
    User-Agent: Wget/1.21.2
    Accept: */*
    Accept-Encoding: identity
    Connection: Keep-Alive

    ---response begin---
    HTTP/1.1 503 Service Unavailable
    Content-Type: text/html
    Content-Length: 2671
    Connection: keep-alive
    ...
    Vary: Content-Type,Accept-Encoding,X-Amzn-CDN-Cache,X-Amzn
    -AX-Treatment,User-Agent
    ...
    X-Cache: Error from cloudfront
    ...



    --
    Andrzej A. Filip

strony : [ 1 ]


Szukaj w grupach

Szukaj w grupach

Eksperci egospodarka.pl

1 1 1

Wpisz nazwę miasta, dla którego chcesz znaleźć jednostkę ZUS.

Wzory dokumentów

Bezpłatne wzory dokumentów i formularzy.
Wyszukaj i pobierz za darmo: