Witam, mam taki malutki problem związany z filtracją stringa, w którym jest kod html.
Program ma pobrać stronę YT na której są wszystkie komentarze pod danym filmem i wyciągnąć autorów komentarzy, jest to aplikacja deskopowa.
Chcę aby kod wyciągnął z stringa tekst, który jest w znaczniku span.
oto kod który mam.
using System;
using System.Collections.Generic;
using System.ComponentModel;
using System.Data;
using System.Drawing;
using System.IO;
using System.Linq;
using System.Net;
using System.Text;
using System.Text.RegularExpressions;
using System.Threading.Tasks;
using System.Windows.Forms;
namespace WindowsFormsApplication1
{
public partial class Form1 : Form
{
public Form1()
{
InitializeComponent();
}
private void button1_Click(object sender, EventArgs e)
{
string VideoID = "AWR3-RJrVgo";
WebClient client = new WebClient();
Byte[] pageData = client.DownloadData(string.Format("http://www.youtube.com/all_comments?v={0}", VideoID));
string pageHtml = Encoding.UTF8.GetString(pageData);
StringBuilder sb = new StringBuilder();
string txt = pageHtml;
foreach (string s in Regex.Split(txt, "<span class=\"author\">(.*)</span>"))
{
sb.Append(s + "\n");
}
richTextBox1.Text = sb.ToString();
}
}
}
i jest problem gdyż nie wyszukuje i zapisuje do zmiennej sb tylko czysty html wrzuca :( proszę o szybką pomoc w rozwiązaniu problemu. Z góry dziękuje.
PS. Mam coś podobnego na php tylko że przy większej ilości danych się sypie :(