Rozmiar null terminatora w różnych UTF

bajos

2015-10-24 20:52

bajos2015-10-24 20:52

Rejestracja:prawie 12 lat
Ostatnio:prawie 2 lata
Lokalizacja:UwUdź
Postów:267

Witajcie,

Czy rozmiar null terminatora w zależności od UTF się różni? Znaczy w ASCII wiadomo jest to bajt = 0, ale czy w UTF16 i 32 są to odpowiednio 2 i 4 czy też 1? Piszę dekodowanie, więc muszę zrobić StrLen dla UTF. Albo gdzie to sprawdzić?

edytowany 1x, ostatnio: bajos 2015-10-24 20:53

mwl4

2015-10-24 21:03

mwl42015-10-24 21:03

Rejestracja:ponad 12 lat
Ostatnio:około miesiąc
Lokalizacja:Wrocław
Postów:399

ASCII / UTF8 = 1;
UTF16 = 2,
UTF32 = 4

A jeśli opierasz się na wchar_t to radzę sprawdzać sizeof, ponieważ na różnych systemach może być różny.

Azarien

2015-10-24 21:04

Azarien2015-10-24 21:04

Rejestracja:ponad 21 lat
Ostatnio:około godziny

Znak o kodzie U+0000 zakodowany w UTF-16 będzie się składał z dwóch bajtów o wartości 0, a w UTF-32 z czterech.

Albo gdzie to sprawdzić?

http://unicode.org

edytowany 3x, ostatnio: Azarien 2015-10-24 21:06

Patryk27

2015-10-24 21:06

Patryk272015-10-24 21:06

Moderator

Rejestracja:prawie 18 lat
Ostatnio:prawie 2 lata
Lokalizacja:Wrocław
Postów:13042

UTF-8 (nie wiem jak reszta, ale pewnie podobnie) posiada znak null, ale formalnie nie wyznacza on końca ciągu znaków - długość należy trzymać osobno, np. jako struktura:

Kopiuj

struct Utf8String {
  size_t length;
  char* data;
}

Choć niektóre implementacje faktycznie (błędnie) wykorzystują go jako terminator.

edytowany 2x, ostatnio: Patryk27 2015-10-24 21:09

Azarien 2015-10-26 15:03

jakie znowu błędnie? tzw. c-string jest zakończony znakiem null, niezależnie od kodowania. to jakaś bzdura z tym trzymaniem długości osobno.

Patryk27 2015-10-26 16:08

Tak, jest zakończony znakiem null i jest to błąd (uproszczenie) w implementacji. Mogę się ofc. mylić, lecz z tego co przeczytałem null character jest w pełni poprawnym znakiem w UTF-8, stąd zapisywanie długości osobno.

Azarien 2015-10-26 18:49

w ASCII też jest „pełnoprawnym znakiem” ale w języku C string jest zdefiniowany jako ciąg znaków zakończony zerem. określamy więc, że znaki są kodowane w UTF-8 i już, działa. można sobie zdefiniować taką strukturę z osobną długością, ale to nikomu niepotrzebne - chyba że celem ma być szybkie określanie długości.

Liczba odpowiedzi na stronę

Zarejestruj się i dołącz do największej społeczności programistów w Polsce.

Otrzymaj wsparcie, dziel się wiedzą i rozwijaj swoje umiejętności z najlepszymi.

Utwórz konto

Rozmiar null terminatora w różnych UTF

bajos

mwl4

Azarien

Patryk27

React Frontend Developer

Product Engineering Team Lead

PHP + Codeigniter 4 programista, aplikacja do fakturowania

Praca dla programistów

Forum dyskusyjne

Sprawy administracyjne

O nas

Skontaktuj się z nami