Posiadam XML (dokładniej XHTML) wygenerowany z HTML. Próbuję go sparsować za pomocą XmlReader, ale wywala mi wyjątek System.Xml.XmlException: „Odwołanie do niezadeklarowanej jednostki 'raquo'. wiersz 158, pozycja 133.”. O co chodzi? Fragment XML do którego odnosi się wyjątek:
<a onclick="gbar.logger.il(1,{t:66});" href="https://www.google.pl/intl/pl/about/products?tab=wh" class="gbmt">Jeszcze więcej »</a>

- Rejestracja:ponad 4 lata
- Ostatnio:ponad 4 lata
- Postów:80

- Rejestracja:ponad 4 lata
- Ostatnio:ponad 4 lata
- Postów:80
W takim razie co zrobić aby mój XML z HTML był poprawny

- Rejestracja:ponad 4 lata
- Ostatnio:ponad 4 lata
- Postów:80
Tyle że mój program ma być przygotowany na każdy przypadek. Nie wiem jaki jest mój XML, ale program ma być w stanie wyciągnąć z niego pewne informacje jeśli istnieją. Da się coś zrobić aby parser pomijał mi te znaki specjalne?
- Rejestracja:prawie 7 lat
- Ostatnio:około miesiąc
- Postów:3561
@Kamil B:
Posiadam XML (dokładniej XHTML) wygenerowany z HTML.
@Kamil B:
Tyle że mój program ma być przygotowany na każdy przypadek.
Myślę, a nawet jestem przekonany, że to ślepa uliczka.
O ile XML jest ścisłym standardem, ale HTML to bajzel, w tym przypadku jest zasada, że miliony much mają rację, akceptowane są błędy itd. Jak się jakoś uporasz ze znakami specjalnymi, wleziesz na następne brązowe placki.
Moze parsować HTML np HtmlAgilityPack, to parser głęboko przygotowany do życia z błędami
Zarejestruj się i dołącz do największej społeczności programistów w Polsce.
Otrzymaj wsparcie, dziel się wiedzą i rozwijaj swoje umiejętności z najlepszymi.