Unicode \u... na polskie znaki.

xenix33

2018-08-30T12:33:33+02:00

Rejestracja: dni
Ostatnio: dni
Postów: 310

0

Jak zamienić \u0107 na 'ć'? Najlepiej funkcja. Może jest jakaś tablica w sieci. Nie mogę znaleźć. Aha. Chodzi o python 2.7.

Shalom

2018-08-30T13:23:48+02:00

Rejestracja: dni
Ostatnio: dni
Lokalizacja: Space: the final frontier
Postów: 26433

0

Nie bardzo rozumiem co chcesz zamieniać na co. Chcesz gdzieś ten znak wypisać?

Madaoo

2018-08-30T13:24:06+02:00

Rejestracja: dni
Ostatnio: dni
Postów: 490

1

By wydrukować ć z unikodu:

Kopiuj

print u'\u0107'

enedil

2018-08-30T13:24:09+02:00

Rejestracja: dni
Ostatnio: dni
Postów: 1028

0

W czym problem?

Kopiuj

>>> print u'\u0107'
ć

2018-08-30T13:27:53+02:00

Rejestracja: dni
Ostatnio: dni

0

Powim dokładnie. Python 2.7 ma to do siebie, że ciężko coś zdekodować. Mam w pliku txt:
Przest\u0119pcza opowie\u015b\u0107
Jak to zmienić na język polski.

enedil

2018-08-30T13:31:52+02:00

Rejestracja: dni
Ostatnio: dni
Postów: 1028

0

Taki potworek chyba da radę:

Kopiuj

import re

tekst = 'Przest\u0119pcza opowie\u015b\u0107'
zdekodowane = re.sub(r'\\u[0-9a-f]{4}', lambda x: unichr(int(x.group()[2:],16)), tekst)
print zdekodowane

Miej na uwadze, że w żadnym wypadku nie odpowiadam za błędy spowodowane tym kodem.

2018-08-30T13:36:06+02:00

Rejestracja: dni
Ostatnio: dni

0

Działa. Dzięki. Nie pomyślałem o tym.

xenix33

2018-08-30T13:42:01+02:00

Rejestracja: dni
Ostatnio: dni
Postów: 310

0

Chociaż nie mogę zapisać do pliku. Coś jest nie tak. Ake dzięki.

Shalom

2018-08-30T13:45:01+02:00

Rejestracja: dni
Ostatnio: dni
Lokalizacja: Space: the final frontier
Postów: 26433

1

Co faktycznie masz w pliku? Jakie bajty? Pokaż hexdump albo uploaduj taki plik. Bo wątpie zebyś miał tam literalnie ciagi znaków \ucośtam. Po prostu twój notepad tak to wypisuje. To nie problem pythona tylko brak zrozumienia czym jest kodowanie znaków.

xenix33

2018-08-30T13:54:55+02:00

Rejestracja: dni
Ostatnio: dni
Postów: 310

0

Mam w pliku .txt. to np.:
#EXTINF:-1,Przest\u0119pcza opowie\u015b\u0107

Jak zapisać w .txt to samo po polsku.

Shalom

2018-08-30T13:56:21+02:00

Rejestracja: dni
Ostatnio: dni
Lokalizacja: Space: the final frontier
Postów: 26433

1

Nie. To ci się wyświetla jak otworzysz ten plik albo jak wypiszesz zawartość w jakiś sposób. Ja pytam jakie DANE są w pliku. Pokaż hexdump tego pliku albo go uploaduj!

Jeszcze raz: nie rozumiesz co to jest kodowanie znaków. Nie ma czegoś takiego jak zapisanie "po polsku"! Znaki są kodowane w jakiś sposób. Nie ma czegoś takiego jak literka ć. Taki znak w różnych kodowaniach jest zapisywany na różne sposoby. w ISO-8859-2 to będzie jeden bajt 0xe6 ale w Unicode to będą 2 bajty \u0107 a UTF-8 to będzie \xc4\x87

xenix33

2018-08-30T14:01:05+02:00

Rejestracja: dni
Ostatnio: dni
Postów: 310

0

Shalom napisał(a):

Nie. To ci się wyświetla jak otworzysz ten plik albo jak wypiszesz zawartość w jakiś sposób. Ja pytam jakie DANE są w pliku. Pokaż hexdump tego pliku albo go uploaduj!

enedil

2018-08-30T14:07:05+02:00

Rejestracja: dni
Ostatnio: dni
Postów: 1028

0

No to jeszcze zabawniej się porobiło, ktoś wrzucił do Twojego pliku repr(string), zamiast stringa samego w sobie.

Shalom

2018-08-30T14:08:57+02:00

Rejestracja: dni
Ostatnio: dni
Lokalizacja: Space: the final frontier
Postów: 26433

0

No to mam złą wiadomość -> ktoś kto, tak samo jak ty, nie rozumie co to kodowanie znaków, generalnie nasrał do tego pliku. Teraz faktycznie nie ma za bardzo co z tym zrobić, poza szukaniem regexpami tych unicode escape i zamienianiem ich na faktyczne symbole z poprawnym kodowaniem.

xenix33

2018-08-30T14:10:06+02:00

Rejestracja: dni
Ostatnio: dni
Postów: 310

0

enedil napisał(a):

No to jeszcze zabawniej się porobiło, ktoś wrzucił do Twojego pliku repr(string), zamiast stringa samego w sobie.

Można jaśniej?
Oki. Dam całęgo jsona. Może wam się uda zapisać listę m3u z tego po polsku.
Kiedyś widziałem taki parser. name.replace('\u...', 'ż').
Może jest jakiś spis znaków polskich w unicode? Napiszę sobie sam.

yarel

2018-08-30T14:15:56+02:00

Rejestracja: dni
Ostatnio: dni
Postów: 2384

1

W http://www.diveintopython3.net/strings.html masz ładnie wytłumaczone co to jest kodowanie znaków i jak wpływa na interpretację ciągu bajtów i przez kogo.
Patrząc na jsona i sposób zapisu polskich znaków, to nadaje się do działu WTF.

-- edited:
"Spis polskich znaków" masz na https://pl.wikipedia.org/wiki/Alfabet_polski
Są tam podane kombinacje u+...