Allegro - web scraping :: 4programmers.net

Rejestracja:ponad 4 lata
Ostatnio:ponad 4 lata
Postów:53

0

Dzień dobry,

Mam nadzieję że nie zakłócę spokoju na grupie. Pandemia zrobiła spustoszenie w moim życiu. Musze się szybko przebranżowić. Niestety wybór nie padł na IT. Chodź kiedyś tym się zajmowałem, ale patrząc na obecny rozwój to, to już nie na moja głowę i abstrakcję. Ale zmierzając do sedna, myślałem że napiszę sam skrobaka ale jak wspomniałem to chyba mnie przerosło. Gotowe dostępne narzędzia są super mniej lub bardziej, ale nie znalazłem takiego który by jednocześnie potrafił skrobać treść i poobierać zdjęcie. Między innymi w kręgu mojego zainteresowania jest Allegro. Udaje mi się wszystko pobrać co potrzebuję, ale jeśli chodzi o grafikę to już tylko link do grafiki mogę pobrać a nie sama grafikę.
Szukam chętnego, który byłby wstanie napisać taki program. Wydaje mi się że słusznie wytypowałem Pythona :D

Dziękuję za uwagę.

edytowany 1x, ostatnio: KaDwa 2020-11-11 09:36

bootcamp_z_czarnej_listy

2020-11-11 10:58

bootcamp_z_czarnej_listy2020-11-11 10:58

Rejestracja:około 6 lat
Ostatnio:ponad 3 lata
Postów:66

1

A próbowałeś wpisać w google how to download images in python? Jak nie umiesz znaleźć odpowiedzi na takie proste pytanie to może być trudno...

Kopiuj

import requests
image_url = '*url obrazka*'
path_to_save = '*sciezka do obrazka na dysku*'
r = requests.get(image_url, stream=True)
with open(path_to_save, 'wb') as img:
    img.write(r.content)

KaDwa

2020-11-12 09:39

KaDwa2020-11-12 09:39

Rejestracja:ponad 4 lata
Ostatnio:ponad 4 lata
Postów:53

0

@bootcamp_z_czarnej_listy:
Dziękuję za odpowiedź, do nauki mi się przyda. Jednak pisząc o gotowych rozwiązaniach nie miałem na myśli kodów, tylko gotowe programy wyszperane w sieci (google). Chciałbym potrafić samemu napisać takiego skrobaka, jednak zanim bym to osiągnął to pewnie zdąży wyjść 5 wersja Pytona.

edytowany 1x, ostatnio: KaDwa 2020-11-12 09:40

Botek

2020-11-12 09:57

Botek2020-11-12 09:57

Rejestracja:około 6 lat
Ostatnio:6 dni
Postów:214

0

Allegro akurat ma gotowe rest api. A scraping na większości stron jest nielegalny miej to na uwadze.

edytowany 1x, ostatnio: Botek 2020-11-12 09:59

Zobacz pozostałe 3 komentarze

~~iksde~~ 2020-11-12 10:45

Jak możesz wydać na prawników więcej niż PKB małego kraju w Europie to wszystko jest legalne.

Dregorio 2020-11-12 10:47

Ja tyle nie mam, a nie dostałem jeszcze pozwu. Natomiast idąc waszym tokiem rozumowania powinienem mieć ich już kilkaset xd

~~iksde~~ 2020-11-12 10:50

Chodzi mi tylko o to, że "Google tak robi" wcale nie oznacza, że pierwszy lepszy Mietek z komputerem też może. Też się bawię w scraping i jeszcze nie miałem żadnych problemów, ale to niczemu nie dowodzi.

Botek 2020-11-12 10:50

@Dregorio: Tak samo ja powinienem mieć parę pozwów za ściągniecie muzyki z internetu czy to ,że ich nie dostałem znaczy ,że to jest legalne? Póki szkodliwość nie jest duża to nikomu się nie chce z tym kopać.

Dregorio 2020-11-12 11:07

Pobieranie z internetu jest legalne. Nielegalne jest udostępnianie

tsz

2020-11-12 11:15

~~tsz~~2020-11-12 11:15

Rejestracja:prawie 5 lat
Ostatnio:ponad 4 lata
Postów:394

0

Jest Scrapy, ale czy jest wystarczający do Twojego problemu to nie wiem, nigdy nie używałem.

KaDwa

2020-11-18 17:08

KaDwa2020-11-18 17:08

Rejestracja:ponad 4 lata
Ostatnio:ponad 4 lata
Postów:53

0

Dziękuję za odzew,

Zmotywowało mnie to aby samemu podjąć się tematu. Na razie idzie nieźle :) Dzięki requests i BeautifulSoup to jest naprawdę śmiesznie łatwe (przynajmniej na razie).

Napotkałem jedynie na problem. Szukam w google i wychodzi mi to chyba nieudolnie :(
Strona która się wyświetla uzależnia wygląd od rodzaju przeglądarki. Głównie rozchodzi się o pliki graficzne, np dla Firefoxa są to .webp, a dla IE .jpg,. Jak mam ustawić nagłówki aby serwer myślał że to Windows i Explorer/edge.

Pozdrawiam

P.S.
Zauważyłem też że parsowanie przez BeautifulSoup strasznie dużo wycina z kodu html. Może się nie znam, ale w przeglądarce przeglądając kod jest dużo więcej.

edytowany 2x, ostatnio: KaDwa 2020-11-18 23:07

bootcamp_z_czarnej_listy

2020-11-19 12:05

bootcamp_z_czarnej_listy2020-11-19 12:05

Rejestracja:około 6 lat
Ostatnio:ponad 3 lata
Postów:66

0

KaDwa napisał(a):

Jak mam ustawić nagłówki aby serwer myślał że to Windows i Explorer/edge.

Musisz przkazać user-agent w nagłówku. Coś w tym stylu

Kopiuj

headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64; Trident/7.0; rv:11.0) like Gecko',
}
response = requests.get(url, headers=headers)

https://developers.whatismybrowser.com/useragents/

KaDwa 2020-11-19 19:01

Dziękuję !

KaDwa

2020-11-22 15:33

KaDwa2020-11-22 15:33

Rejestracja:ponad 4 lata
Ostatnio:ponad 4 lata
Postów:53

0

@bootcamp_z_czarnej_listy:

Ustawiam:

Kopiuj

eaders =  {'User-Agent':'Mozilla/5.0 (compatible; MSIE 8.0; Windows NT 6.3; Win64; x64)'}
adres_url = 'https://www.whatismybrowser.com/detect/what-http-headers-is-my-browser-sending'

import requests as req

r = req.get(adres_url,headers)
r.encoding='utf-8'

Strona jednak widzi taki nagłówek:

Kopiuj

USER-AGENT 	python-requests/2.25.0

Co robię źle ?

KaDwa

2020-11-22 15:36

KaDwa2020-11-22 15:36

Rejestracja:ponad 4 lata
Ostatnio:ponad 4 lata
Postów:53

0

@KaDwa:
Muszę sobie sam odpowiedzieć:

Kopiuj

r = req.get(adres_url, headers = headers)

Ale czemu nie wywalało błędu ?

edytowany 1x, ostatnio: KaDwa 2020-11-22 17:18

Allegro - web scraping

KaDwa

bootcamp_z_czarnej_listy

KaDwa

Botek

tsz

KaDwa

bootcamp_z_czarnej_listy

KaDwa napisał(a):

KaDwa

KaDwa

Praca dla programistów

Forum dyskusyjne

Sprawy administracyjne

O nas

Skontaktuj się z nami