Krzaczki po ściągnięciu strony HTML

Krzaczki po ściągnięciu strony HTML
  • Rejestracja: dni
  • Ostatnio: dni
0

Ściągam stronę, w której mamy: <meta http-equiv="Content-Type" content="text/html; charset=utf-8" />
więc kodowanie znamy. UTF-8 jest domyślne dla Javy więc bez problemu powinniśmy to wyświetlić jednak zamiast np. przybliżony dostajemy w programie przybliĹĽony itd.

Trochę poszperałam i znalazłam np. coś takiego:
String newString = new String(oldString.getBytes("UTF-8"), "UTF-8"));
Jednak efekt dokładnie taki sam, nie wiem po co, ale też kombinowałam zmieniając na cp1250, ISO-8859-2 i nic z tego, co najwyżej inne krzaczki dostaję.

Dziwi mnie, że strona w UTF-8, nie może zostać od razu poprawnie odczytana w programie. Ma ktoś pomysł co trzeba zrobić?

Znalazłam też: String z CP1250 do Javy Ale nie pomogło, bo też trochę innego kodowania dotyczył wątek.

Proszę o pomoc, z góry dzięki.

  • Rejestracja: dni
  • Ostatnio: dni
0

Ok, poradziłam sobie.
Wątek do usunięcia. Szkoda że konta wcześniej nie założyłam to mogłabym sama chyba to usunąć?

Sarrus
  • Rejestracja: dni
  • Ostatnio: dni
  • Postów: 2512
0

Tutaj się wątków nie usuwa - ale można za to edytować posty ;)

Antoniossss
  • Rejestracja: dni
  • Ostatnio: dni
0

Bez sensu. Po prostu autor pobierał dane ze strony najprawdopodobniej jako windows-1250 (ale na 100% nie jako utf-8) a później takie śmieci konwertował na utf-8 i zadziwiony był, że nie działa.
Wszystko działało BO cyt: "efekt był taki sam" a więc znaki się nie pozmieniały przy konwersji:)

Zarejestruj się i dołącz do największej społeczności programistów w Polsce.

Otrzymaj wsparcie, dziel się wiedzą i rozwijaj swoje umiejętności z najlepszymi.