witam,
mam problem i w związku z tym prośbę o rozwiązanie lub chociaż konkretne fachowe wskazówki, a mianowicie:
jak pobrać zawartość strony html.. zawartosc body.. bez znaczników bez żadnego! ani żadnych śmieci? ja używam tego:
string takeBody(string OnlyBodyTxt)
{
// usuwa wszystko przed body
OnlyBodyTxt = Regex.Replace(OnlyBodyTxt, @"^((.*)?(\n))+(.*)?<body(([^<]*)[\n]?)+([^<]*)?>", " ");
//usuwa znaczniki  .. itd..
OnlyBodyTxt = Regex.Replace(OnlyBodyTxt, @"(<([^<]|\n)+?>)|( )|(»)", " ");
// jeszcze raz usuwa bo czasem sa zagniezdzone znaczniki w skryptach javy itd..
OnlyBodyTxt = Regex.Replace(OnlyBodyTxt, @"(<([^<]|\n)+?>)", " ");
return OnlyBodyTxt;
}
działa dobrze ale gdy czytam strony z całego katalogu strasznie długo to trwa.. lub gdy plik nie ma znaczników.. no nie doczekanie.. problemem może tu być sprawdzanie czy każdy znak [^<]..
proszę o pomoc