Obsługa polskich znaków w C++

szybki_procesor

2020-09-11 11:09

~~szybki_procesor~~2020-09-11 11:09

Rejestracja:około 5 lat
Ostatnio:ponad 4 lata
Postów:25

0

Podlinkowałby ktoś stronę z porządnym opisem obsługi polskich znaków w C i C++, chodzi mi o dokładne i szczegółowe wytłumaczenie niuansów, nie tylko co ale i w jaki sposób to działa.

Kopiuj

#include<iostream>
using namespace std;

int main()
{
	string test="ą";
	cout<<test<<endl;
	
	
	wstring wtest=L"ą";
	wcout<<wtest<<endl;
}

Konkratna sprawa która mnie zastanawia: dlaczego w tym programie pierwszy cout wypisuje ładnie ą, za to wcout wypisuje pustą linię?

edytowany 3x, ostatnio: cerrato 2020-09-11 12:02

MarekR22

2020-09-11 12:18

MarekR222020-09-11 12:18

Moderator C/C++

Rejestracja:ponad 17 lat
Ostatnio:2 minuty

4

Jakie kodowanie ma źródło?
Jakie kodowanie używa kompilator do czytania źródła (czy jest zgodne z 1)
Jakiego kodowania używa kompilator do zapisu literałów w kodzie wynikowym? Czy to kodowanie pokrywa polskie znaki?
Jakie locale (kodowanie znaków) ma system na jakim uruchomiony jest program? To ma wpływ na to jak interpretowane jest wyjście z programu.

Na systemach POSIX na każde to pytanie odpowiedzią jest UTF-8 i nie ma problemów.
Na Windows jest bagno i trzeba uważać.

Czy wiesz jak działa kodowanie UTF-8 a jak działa Window1250/CP-1250?

Biorąc pod uwagę, że działa ci dla wstring/wcou, punkty 1 2 są ok, a problem jest dla punktów 3 4.

edytowany 3x, ostatnio: MarekR22 2020-09-11 12:22

szybki_procesor

2020-09-11 12:22

~~szybki_procesor~~2020-09-11 12:22

Rejestracja:około 5 lat
Ostatnio:ponad 4 lata
Postów:25

0

Mam linuxa mint 20 w xfce, g++, xterm i xeda. W jaki sposób sprawdzać kodowanie? Bo w terminalu mam na pewno UTF-8. Nie uczyłem się o kodowaniach, wiem bardzo pobieżnie.

edytowany 1x, ostatnio: ~~szybki_procesor~~ 2020-09-11 12:22

MarekR22

2020-09-11 12:24

MarekR222020-09-11 12:24

Moderator C/C++

Rejestracja:ponad 17 lat
Ostatnio:2 minuty

3

https://www.joelonsoftware.com/2003/10/08/the-absolute-minimum-every-software-developer-absolutely-positively-must-know-about-unicode-and-character-sets-no-excuses/

chardetect - narzędzie detekcji kodowania znaków.

Azarien 2020-09-11 14:36

no nie wszystko jest prawdą w tym artykule, a taki pompatyczny tytuł :)

Azarien

2020-09-11 13:40

Azarien2020-09-11 13:40

Rejestracja:ponad 21 lat
Ostatnio:około 7 godzin

1

szybki_procesor napisał(a):

Konkratna sprawa która mnie zastanawia: dlaczego w tym programie pierwszy cout wypisuje ładnie ą, za to wcout wypisuje pustą linię?

Bo linuxy są upośledzone pod względem wstringów..

MarekR22 napisał(a):

Na Windows jest bagno i trzeba uważać.

Ale za to wstring jest używalny i jest zdefiniowany jako UTF-16, a nie nie wiedzieć na co komu UTF-32.

edytowany 2x, ostatnio: Azarien 2020-09-11 13:42

~~nalik~~ 2020-09-11 14:28

wstring to nie utf32. wstring to typ zdolny pomieścić utf32

Azarien 2020-09-11 14:38

no ale ma 4 bajty na znak. nikomu to niepotrzebne, i jak widać praktycznie nie używane. tymczasem pod Windowsem wstring ma dwubajtowe znaki UTF-16 i działa bardzo dobrze. (no, uściślając „jest to typ zdolny pomieścić utf16” bo co tam trzymasz to twoja sprawa…)

~~nalik~~ 2020-09-11 14:43

To już inna kwestia czy potrzebne komukolwiek. Twórcy standardu cpp i kompilatorów mają wiele za uszami. Nie mniej, jakby standard był w tej kwestii jednoznaczny, to by problemów nie było. Ale jest jak jest.

nalik

2020-09-11 14:01

~~nalik~~2020-09-11 14:01

Rejestracja:około 9 lat
Ostatnio:13 dni
Postów:1039

3

Azarien napisał(a):

szybki_procesor napisał(a):

Konkratna sprawa która mnie zastanawia: dlaczego w tym programie pierwszy cout wypisuje ładnie ą, za to wcout wypisuje pustą linię?

Bo linuxy są upośledzone pod względem wstringów..

MarekR22 napisał(a):

Na Windows jest bagno i trzeba uważać.

Ale za to wstring jest używalny i jest zdefiniowany jako UTF-16, a nie nie wiedzieć na co komu UTF-32.

wstring na windowsie: 2 bajty na znak, wstring na innych systemach 4 bajty na znak.
MS jak zwykle po swojemu

edytowany 1x, ostatnio: ~~nalik~~ 2020-09-11 14:02

Azarien 2020-09-11 16:35

no i bardzo dobrze że wstring na windowsie ma 2 bajty na znak. nikomu nie są potrzebne te 4-bajtowe znaki. dowód przez przykład: nikt ich nie używa :)

nalik

2020-09-11 14:17

~~nalik~~2020-09-11 14:17

Rejestracja:około 9 lat
Ostatnio:13 dni
Postów:1039

3

OP, dużo by pisać. Jest to puszka pandory i jedna z tych rzeczy, której do tej pory komitetowi standaryzacyjnemu nie udało się ogarnąć do końca.

Zachęcam do sprawdzenia wyniku tego programu:

Kopiuj

#include <iostream>
#include <string>
#include <locale>
#include <codecvt>
using namespace std;

template <typename O, typename S>
void write_hex(O &out, const S &s) {
	for (auto x : s) {
    	out << std::hex << static_cast<uint16_t>(x) << " ";
    }
    out << endl;
}


int main() {
    wstring_convert<codecvt_utf8<char16_t>, char16_t> cvu16;
    wstring_convert<codecvt_utf8<wchar_t>> cvu32;
	
    cout << "string:" << endl; 
    string str = u8"abecą";
    cout << str << endl;
    write_hex(cout, str);
    cout << endl;
	
    cout << "u16string:" << endl; 
    u16string str_u16 = u"abecą";
    cout << cvu16.to_bytes(str_u16) << endl;
    write_hex(cout, str_u16);
    cout << endl;
  
    cout << "wstring:" << endl; 
    wstring str2 = L"abecą";
    wcout << str2 << endl;
    cout << cvu32.to_bytes(str2) << endl;
    write_hex(cout, str2);
    cout << endl;
}

Dla leniwych: https://ideone.com/VIRApH

A więc to nie kwestia kodowania wewnątrz programu, a systemu operacyjnego. Linux od dawna wspiera utf-8. Za to nie wspiera utf16/utf32 jako locale, bo są niekompatybilne z ASCII.
Więc wewnątrz swojego programu możesz używać wstring, zakodowanego jako utf16, ale już nie wypiszesz na konsolę bez konwersji. EDIT: Trzeba, jak zostało wspomniane poniżej w innych postach, ustawić locale, na zgodne z systemem.

Swoją drogą, codecvt_utf8 jest deprecated :), ale nie ma dla niego alternatywy w bibliotece standardowej. Nad wsparciem dla unicode pracuje podgrupa w komitecie standaryzacyjnym. Może w końcu kiedyś udam im się wypracować to co inne języki, nawet te młodsze, już dawno mają ;)
Więc może zainteresuj się boost.locale.

edytowany 5x, ostatnio: ~~nalik~~ 2020-09-12 09:34

MarekR22 2020-09-11 16:32

coś ci się pokręciło. std::wstring na Linux nie może być utf-16 bo wchar_t na Linux jest 32-bitowe (ergo używane jest utf-32), tylko na Windows wchar_t ma 16 bitów. Tak problemem jest konwersja kodowania z utf-32 do utf-8 jaką powinno wykonać std::wcout.

~~nalik~~ 2020-09-11 18:01

Ja nie twierdzę że wstring to utf16. Nie mniej na 4 bajtach da się zapisać znak utf16. Standard nie określa kodowanie na wstring. Ale główny problem to ta konwersja do tego co jest ustawione w systemie.

~~nalik~~ 2020-09-11 18:10

Co do locale, wystarczy spróbować ustawić utf16 albo 32 i zobaczyć co się stanie;)

Azarien

2020-09-11 16:37

Azarien2020-09-11 16:37

Rejestracja:ponad 21 lat
Ostatnio:około 7 godzin

1

nalik napisał(a):

A więc to nie kwestia kodowania wewnątrz programu, a systemu operacyjnego. Linux od dawna wspiera utf-8. Za to nie wspiera utf16 jako locale, bo są niekompatybilne z ASCII.
Więc wewnątrz swojego programu możesz używać wstring, zakodowanego jako utf16, ale już nie wypiszesz na konsolę bez konwersji.

A pod Windows mogę :P

MarekR22

2020-09-11 16:46

MarekR222020-09-11 16:46

Moderator C/C++

Rejestracja:ponad 17 lat
Ostatnio:2 minuty

3

A to ciekawe, poza ustawieniem locale na std::wcout trzeba wyłączyć synchronizację z API C, żeby to zadziałało:
https://wandbox.org/permlink/f6YpuptWoHbz0bYa

Kopiuj

#include<iostream>
#include <locale>

int main()
{
    std::ios_base::sync_with_stdio(false);
    std::wcout.imbue(std::locale{""});
    std::cout << "char ąłóżę" << std::endl;
    std::wcout << L"wchar_t ałóężź" << std::endl;
}

Wskazówkę znalazłem tu, ale boost okazał się zbędny.

edytowany 1x, ostatnio: MarekR22 2020-09-11 16:48

~~nalik~~ 2020-09-11 18:06

Ciekawe. A jednocześnie strasznie nieintuicyjne.

Bartłomiej Golenko

2020-09-11 18:47

Bartłomiej Golenko2020-09-11 18:47

Rejestracja:prawie 6 lat
Ostatnio:dzień
Postów:289

4

Ja tylko delikatnie chciałbym przypomnieć, że Windowsowy wstring pozwala trzymać napisy w kodowaniu UCS-2 a nie UTF16. UTF16 jest kodowaniem o zmiennej długości (2 do 4 bajtów na znak).
Z punktu widzenia poprawności programu nie ma znaczenia, czy napis trzymamy w std::string w UTF8 czy w std::wstring w UTF16 - tak czy inaczej nie można zakładać, że i-ty znak będzie na pozycji txt[i]

UTF32 jest już kodowaniem o stałej "szerokości", więc ten niedobry Linuksowy 32-bitowy wchar jest przynajmniej w stanie go jednoznacznie reprezentować.

BTW - w ramach ciekawostki - dawno dawno temu, w NDK do Androida wchar_t był zdefiniowany jako char (zmienili w wersji 2.3).

Azarien

2020-09-11 19:12

Azarien2020-09-11 19:12

Rejestracja:ponad 21 lat
Ostatnio:około 7 godzin

2

Bartłomiej Golenko napisał(a):

Ja tylko delikatnie chciałbym przypomnieć, że Windowsowy wstring pozwala trzymać napisy w kodowaniu UCS-2 a nie UTF16.

Tak było gdzieś za czasów Windows NT. Obecnie natywnym kodowaniem pod Windows jest UTF-16. I tak, to czasami oznacza że jeden znak zajmuje dwa wchary.

szybki_procesor

2020-09-12 06:06

~~szybki_procesor~~2020-09-12 06:06

Rejestracja:około 5 lat
Ostatnio:ponad 4 lata
Postów:25

0

#MarekR22

Dzęki działa, ja jeszcze wpadłem na coś takiego:

Kopiuj

#include<iostream>
#include <locale.h>
using namespace std;

int main()
{
	std::locale::global(std::locale("pl_PL.utf8"));
	
	
	string test="ą";
	cout<<test<<endl;
	
	freopen ("/dev/tty", "w", stdout);
	
	
	wstring wtest=L"ćą";
	wcout<<wtest<<endl;
}

Pytanie tylko czy jest jakiś podręcznik, strona, dokumment czy jakikolwiek inny tekst który solidnie omawia te sprawy?
edit:
Co powiecie na to? http://www.cplusplus.com/reference/iostream/wcout/

A program should not mix output operations on wcout with output operations on cout (or with other narrow-oriented output operations on stdout): Once an output operation has been performed on either, the standard output stream acquires an orientation (either narrow or wide) that can only be safely changed by calling freopen on stdout.

Teraz pytanie: Dlaczego rozwiązanie #MarekR22 działa? xD Co stdio z C ma tutaj do rzeczy?
http://www.cplusplus.com/reference/ios/ios_base/sync_with_stdio/

edytowany 6x, ostatnio: ~~szybki_procesor~~ 2020-09-12 06:56

Azarien

2020-09-12 07:17

Azarien2020-09-12 07:17

Rejestracja:ponad 21 lat
Ostatnio:około 7 godzin

0

szybki_procesor napisał(a):

Teraz pytanie: Dlaczego rozwiązanie #MarekR22 działa? xD Co stdio z C ma tutaj do rzeczy?

Wygląda mi to na bug, po prostu… miało być tak pięknie, UTF-8 w konsoli, a tu się okazuje że i tak nie działa to na zasadzie „po prostu” tylko jakieś locale, jakieś freopen..

i w tym kontekście...

MarekR22 napisał(a):

Na systemach POSIX na każde to pytanie odpowiedzią jest UTF-8 i nie ma problemów.
Na Windows jest bagno i trzeba uważać.

No jak widać są problemy. Czyli też jest bagno.

~~szybki_procesor~~ 2020-09-12 07:24

W sensie undefined behaviour?

Azarien 2020-09-12 08:46

co tu ma UB do rzeczy?

_0x666_ 2020-09-12 08:55

utf-8 będzie działać, jeśli wysyłany tekst też będzie w takim kodowaniu. Podobnie w Windowsie - nie będzie problemów, jeśli aplikacja będzie w kodowaniu cp852 (co jest trochę niepraktyczne). Jeśli chodzi o wchar_t, to AFAIK na obu systemach trzeba ustawiać locale na "zewnętrzne" kodowanie.

szybki_procesor

2020-09-12 08:04

~~szybki_procesor~~2020-09-12 08:04

Rejestracja:około 5 lat
Ostatnio:ponad 4 lata
Postów:25

0

Kopiuj

#include<iostream>
#include <locale>
using namespace std;
int main()
{
	std::locale::global(std::locale("pl_PL.utf8"));
	
	//freopen ("/dev/tty", "w", stdout);
	
	
	
	
	for(int i=0;i<500;i++)
	{
		wcout<<static_cast<wchar_t>(i)<<L" "<<i<<endl;
		
	}
	
}

Może mi ktoś wytłumaczyć do tu się ~~odpierdala~~ dzieje? Dlaczego wypisuje tylko do 156 a potem koniec?

Kopiuj

	for(int i=160;i<500;i++)
	{
		
		wcout<<static_cast<wchar_t>(i)<<L" "<<i<<endl;
		
	}

A od 160 wypisuje, co tam siedzi w tych 157, 158, 159?

edytowany 3x, ostatnio: cerrato 2020-09-12 09:00

~~nalik~~ 2020-09-12 09:32

https://ideone.com/IVPr0y tutaj wypisuje wszystko

~~szybki_procesor~~ 2020-09-12 09:36

Ciekawe, czyli to coś "u mnie" tylko co?

Obsługa polskich znaków w C++

szybki_procesor

MarekR22

szybki_procesor

MarekR22

Azarien

szybki_procesor napisał(a):

MarekR22 napisał(a):

nalik

Azarien napisał(a):

szybki_procesor napisał(a):

MarekR22 napisał(a):

nalik

Azarien

nalik napisał(a):

MarekR22

Bartłomiej Golenko

Azarien

Bartłomiej Golenko napisał(a):

szybki_procesor

Azarien

szybki_procesor napisał(a):

MarekR22 napisał(a):

szybki_procesor

Programista Systemów Automatyki - PCS7

DevOps Engineer - migracja serwerów (Kubernetes,Docker,RoR)

PHP + Codeigniter 4 programista, aplikacja do fakturowania

Praca dla programistów

Forum dyskusyjne

Sprawy administracyjne

O nas

Skontaktuj się z nami