Mam taki kod:
import requests as req
from bs4 import BeautifulSoup
import re
def mf_czytanie_pliku_URL(czytaj_url):
r = req.get(czytaj_url)
r.encoding = 'utf-8'
return r.text
pobrana_Strona = mf_czytanie_pliku_URL('https://allegro.pl/oferta/plyta-gumowa-wykladzina-mata-3-mm-metro-guma-9549970450')
soup = BeautifulSoup(pobrana_Strona,'html.parser', multi_valued_attributes=None)
soup.encode ( "utf8" )
# vvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvv
# Treść oryginalna
strona_Tresc = soup.find(attrs={'class':'_1h7wt _1l8iq _2d49e_1NgnH'})
print(' Treść (oryginalna): ---------------------------------')
print(strona_Tresc)
print()
# Treść w wierszach
strona_TrescWiersze = strona_Tresc.prettify()
print(' Treść w wierszach: --------------------------------')
print(strona_TrescWiersze)
print()
# Wycięcie tagów HTML
strona_TrescBezHTML = re.sub(r'\s*\<.*\>', '', strona_TrescWiersze)
print(' Treść bez HTML: --------------------------------')
print(strona_TrescBezHTML)
print()
# Pobieramy wiersze z cyframi '(.)*\s*[(0-9)]+\s*(.)*'
strona_TrescZapisac = re.findall(r'(.)*\s*[(0-9)]+\s*(.)*', strona_TrescBezHTML, flags=re.MULTILINE)
print('TRESC do zapisania: ', strona_TrescZapisac)
Nie czaję, czemu nie potrafię wyciągnąć wierszy zawierających cyfry :(
- Bez tytułu.png (154 KB) - ściągnięć: 10