Web scrapping :: 4programmers.net

ABC DEF

2020-07-22 16:16

ABC DEF2020-07-22 16:16

Rejestracja:prawie 5 lat
Ostatnio:ponad 4 lata
Postów:2

0

Witam,

Kopiuj

from bs4 import BeautifulSoup
import json
import time
import requests
import datetime
import re
import sys

#ttps://api.sofascore.com/api/v1/unique-tournament/17/season/17359/events/round/1
url = "https://api.sofascore.com/api/v1/unique-tournament/17/season/17359/events/round/1"
headers = {
         'User-Agent': 'curl/7.64.0',
         'Referer': 'https://www.sofascore.com/pl/turniej/pilka-nozna/england/premier-league/17',
         }
page = requests.get(url, headers=headers)
                
dict_obj = json.loads(page.text)

print(dict_obj)

sys.exit()

Chciałbym pobrać sobie dane ze strony SofaScore.com. Po uruchomieniu tego skryptu dostałem bana na 24h. Co i jak muszę zmienić żeby to się nie powtórzyło jutro?

trojanus

2020-07-22 16:39

~~trojanus~~2020-07-22 16:39

Rejestracja:ponad 8 lat
Ostatnio:około 2 lata
Postów:731

0

jak nie mają publicznego API, to nie dziwię się, że masz bana - webscraping jest niedozwolony ;)

Dregorio 2020-07-23 12:13

kek?

~~trojanus~~ 2020-07-23 18:36

tak kiedyś czytałem, widocznie mam stare informacje

Markuz

2020-07-22 17:15

Markuz2020-07-22 17:15

Rejestracja:prawie 17 lat
Ostatnio:10 dni
Postów:644

3

Musisz wysyłać żądania dokładnie takie same jak wysyła przeglądarka, zdecydowanie więcej nagłówków itp.
User agent curl to nie jest dobry pomysł na ukrywanie się przed banami.
Używaj proxy, zmieniaj IP co kilka żądań.
Poszukaj alternatyw (może https://www.api-football.com/).

dedicated 2020-07-23 05:47

@Markuz ad. 3: Mógłbyś podać przykład takiego "proxy"?

Markuz 2020-07-23 09:47

np. https://www.proxynova.com/proxy-server-list/ czyli po ustawieniu proxy na adres 116.196.85.150:3128 nasze żądanie będzie wykonane przez Chiny

ledi12

2020-07-22 20:40

ledi122020-07-22 20:40

Rejestracja:prawie 6 lat
Ostatnio:około 2 miesiące
Lokalizacja:Wrocław

1

Najlepszym sposobem bedzie puszczanie tego requestu przez jakies publiczne proxy. Potestuj np. co 5 requestow zmieniaj ip ;)

michal377

2020-07-23 12:24

michal3772020-07-23 12:24

Rejestracja:prawie 5 lat
Ostatnio:ponad 3 lata
Postów:10

1

trojanus napisał(a):

jak nie mają publicznego API, to nie dziwię się, że masz bana - webscraping jest niedozwolony ;)

Nic nie jest prawdą, wszystko jest dozwolone. Każda szanująca się strona posiada plik "robots.txt", który ustala reguły dla wszelkich botów, crawlerów oraz scrapperów (SEO tego używa też). Zapoznaj się z podstawami etyki w scrappingu, jest sporo artykułów na ten temat. Od czasu afery Cambridge Analytica sporo się pozmieniało, to fakt.

WeiXiao 2020-07-23 18:38

Nic nie jest prawdą, wszystko jest dozwolone. wtf?

ABC DEF

2020-07-23 15:43

ABC DEF2020-07-23 15:43

Rejestracja:prawie 5 lat
Ostatnio:ponad 4 lata
Postów:2

0

Rzeczywiście jest takie coś na tej stronie i liczba disallow'ów nie napawa optymizmem:

https://www.sofascore.com/robots.txt

~~tsz~~ 2020-07-23 17:51

To jest z przekierowania. Ten plik nie odnosi się do api.sofacore.com. Jak się właściwie dostałeś do tego API? Jest udostępnione publicznie czy gdzieś na lewo znalazłeś adres?

ABC DEF 2020-07-23 18:25

Włączyłem development tools, zakładkę networks, kliknąłem sortowanie kolejkami i pojawił się JSON z danymi

ABC DEF 2020-07-23 18:49

@tsz: Dotychczas sobie scrapowałem strony gdzie nie było problemu z żadnym banowaniem (jakieś wikipedie itp.). Skoro robots.txt nie odnosi się do api.sofascore.com to co dla mnie oznacza?

ledi12

2020-07-23 16:50

ledi122020-07-23 16:50

Rejestracja:prawie 6 lat
Ostatnio:około 2 miesiące
Lokalizacja:Wrocław

1

Zawsze mozesz sprobowac zrobic to selenium w trybie --headless. Przy odpowiedniej zabawie opoznieniami, czy symulacja clicku, nie powinienes dostac bana.

ABC DEF 2020-07-25 09:59

@ledi12: Poleciłbyś jakieś przejrzyste źródło informacji do nauki Selenium? Zmiana proxy i nagłówki nie działają

ledi12 2020-07-25 10:05

@ABC DEF: youtube, dokumentacja

Web scrapping

ABC DEF

trojanus

Markuz

ledi12

michal377

trojanus napisał(a):

ABC DEF

ledi12

PHP + Codeigniter 4 programista, aplikacja do fakturowania

React Frontend Developer

Programista Systemów Automatyki - PCS7

DevOps Engineer - migracja serwerów (Kubernetes,Docker,RoR)

Praca dla programistów

Forum dyskusyjne

Sprawy administracyjne

O nas

Skontaktuj się z nami