problem z pobraniem źródła strony html z polskimi znakami

gruby19

2018-03-12T15:35:18+01:00

Rejestracja: dni
Ostatnio: dni
Postów: 48

0

Cześć!

Chciałbym pobrać źródło strony html, która w adresie zawiera polskie znaki. Przykład dla pracuj.pl:

Kopiuj

import urllib.request

url = 'https://www.pracuj.pl/praca/sql;kw/Warszawa;wp'

SiteSource = urllib.request.urlopen(url).read()
print(SiteSource)

Zwraca źródło:

Kopiuj

b'<!DOCTYPE html> <html prefix="og: http://ogp.me/ns#" xmlns:fb="http://www.facebook.com/2008/fbml"> <head> <meta charset="utf-8"/> (...)

Natomiast, jeżeli tylko zmienię miasto na Poznań:

Kopiuj

import urllib.request

url = 'https://www.pracuj.pl/praca/sql;kw/Poznań;wp'

SiteSource = urllib.request.urlopen(url).read()
print(SiteSource)

Otrzymuję błąd:

Kopiuj

Traceback (most recent call last):
  File "[PythonProjects]/untitled8/asd.py", line 5, in <module>
    SiteSource = urllib.request.urlopen(url).read()
  File "[PythonLib]\urllib\request.py", line 223, in urlopen
    return opener.open(url, data, timeout)
  File "[PythonLib]\urllib\request.py", line 526, in open
    response = self._open(req, data)
  File "[PythonLib]\urllib\request.py", line 544, in _open
    '_open', req)
  File "[PythonLib]\urllib\request.py", line 504, in _call_chain
    result = func(*args)
  File "[PythonLib]\urllib\request.py", line 1361, in https_open
    context=self._context, check_hostname=self._check_hostname)
  File "[PythonLib]\urllib\request.py", line 1318, in do_open
    encode_chunked=req.has_header('Transfer-encoding'))
  File "[PythonLib]\http\client.py", line 1239, in request
    self._send_request(method, url, body, headers, encode_chunked)
  File "[PythonLib]\http\client.py", line 1250, in _send_request
    self.putrequest(method, url, **skips)
  File "[PythonLib]\http\client.py", line 1117, in putrequest
    self._output(request.encode('ascii'))
UnicodeEncodeError: 'ascii' codec can't encode character '\u0144' in position 23: ordinal not in range(128)

Chciałem to jakoś przekonwertować, ale nie mam sposobu:

Kopiuj

url = 'https://www.pracuj.pl/praca/sql;kw/Poznań;wp'
url1 = url.encode('utf-8')
url2 = url.encode('ansi')

print(url1)
print(url2)

Z góry dziękuję za pomoc.

Haskell

2018-03-12T16:51:57+01:00

Rejestracja: dni
Ostatnio: dni
Postów: 4700

0

Kopiuj

from urllib.request import urlopen
from urllib.parse import quote

url = 'https://www.pracuj.pl/praca/sql;kw/Pozna' + quote('ń') + ';wp'

gruby19

2018-03-12T23:00:20+01:00

Rejestracja: dni
Ostatnio: dni
Postów: 48

0

enedil napisał(a):

A raczej quote('https://www.pracuj.pl/praca/sql;kw/Poznań;wp')

Też tak pomyślałem, ale niestety odpada, bo w rezultacie otrzymuje:

Kopiuj

https%3A//www.pracuj.pl/praca/sql%3Bkw/Pozna%C5%84%3Bwp

Haskell napisał(a):

Kopiuj

from urllib.request import urlopen
from urllib.parse import quote

url = 'https://www.pracuj.pl/praca/sql;kw/Pozna' + quote('ń') + ';wp'

quote('ń') odpada, ponieważ Poznań był tylko przykładem - docelowo może się tam znaleźć każde inne miasto.
Ale ponieważ funkcja docelowo ma wyglądać tak:

Kopiuj

ListaMiast = []
for miasto in ListaMiast:
url = 'https://www.pracuj.pl/praca/sql;kw/[miasto];wp'

to spróbuję zrobic quote(miasto) i powinno być po problemie. Jutro przetestuję.

Dzieki!

Haskell

2018-03-13T10:41:03+01:00

Rejestracja: dni
Ostatnio: dni
Postów: 4700

0

gruby19 napisał(a):

quote('ń') odpada, ponieważ Poznań był tylko przykładem - docelowo może się tam znaleźć każde inne miasto.

To był tylko przykład, żeby jasno przedstawić sam zamysł i to co robi metoda quote. W urllib.parse są inne metody pomagające parsować adresy url, warto się z nimi zapoznać:
https://docs.python.org/3/library/urllib.parse.html

Liczba odpowiedzi na stronę

Zarejestruj się i dołącz do największej społeczności programistów w Polsce.

Otrzymaj wsparcie, dziel się wiedzą i rozwijaj swoje umiejętności z najlepszymi.

Akcje

${ topic.is_subscribed ? 'Zakończ obserwację' : 'Obserwuj wątek' }
Przejdź na początek wątku
Udostępnij

Użytkownicy online

MarekR22
Moderator

+44

+389 niezalogowanych online

Aktualnie na tej stronie

+1 niezalogowany online

Popularne tagi

c++ × 22677
java × 16723
c# × 16576
php × 7764
c × 7641
javascript × 6149
delphi × 5516
sql × 3909
python × 3328
mysql × 3042