使用WebRequest或WebClient对象查看初始页面可以正常工作,但如果页面大量使用JavaScript来更改页面加载时的DOM,则这些页面不会提供准确的页面图片。
我已经尝试使用Selenium和Watin UI测试框架,他们工作完美,提供生成的源,它出现在所有JavaScript操作完成后。不幸的是,他们通过打开一个实际的Web浏览器,这是非常缓慢。我实现了一个硒服务器,将这项工作卸载到另一台机器,但仍然有相当大的延迟。
有一个.Net库,将加载和解析一个页面(如浏览器)和吐出生成的代码?显然,谷歌和雅虎没有打开浏览器的每一个页面,他们想要蜘蛛(当然,他们可能有比我更多的资源…)。
有没有这样的图书馆或者我是运气,除非我愿意剖析开源浏览器的源代码?
解
好了,谢谢大家的帮助。我有一个工作的解决方案,比Selenium快大约10X。哇!
感谢这个old article from beansoftware我能够使用System.Windows.Forms.Webbrowser控件下载页面并解析它,然后给em生成的源。即使控件是在Windows.Forms,你仍然可以运行它从Asp.Net(这是我正在做的),只记得添加System.Window.Forms到你的项目引用。
关于代码有两个值得注意的地方。首先,在新线程中调用Webbrowser控件。这是因为它必须在single threaded apartment上运行。
其次,GeneratedSource变量设置在两个地方。这不是由于一个智能的设计决定:)我仍然工作,并将在我完成时更新这个答案。 wb_DocumentCompleted()被多次调用。首先下载初始HTML,然后第一轮JavaScript完成时再次。不幸的是,我刮的网站有3个不同的装载阶段。 1)加载初始HTML 2)进行第一轮JavaScript DOM操作3)暂停半秒,然后进行第二轮JS DOM操作。
由于某些原因,第二轮不是由wb_DocumentCompleted()函数引起的,但是它总是在wb.ReadyState == Complete时被捕获。那么为什么不从wb_DocumentCompleted()中删除它?我仍然不知道为什么它没有抓到那里,这是beadsoftware文章推荐把它。我要继续研究它。我只是想发布这个代码,所以有兴趣的人可以使用它。请享用!
using System.Threading;
using System.Windows.Forms;
public class WebProcessor
{
private string GeneratedSource{ get; set; }
private string URL { get; set; }
public string GetGeneratedHTML(string url)
{
URL = url;
Thread t = new Thread(new ThreadStart(WebbrowserThread));
t.SetApartmentState(ApartmentState.STA);
t.Start();
t.Join();
return GeneratedSource;
}
private void WebbrowserThread()
{
Webbrowser wb = new Webbrowser();
wb.Navigate(URL);
wb.DocumentCompleted +=
new WebbrowserDocumentCompletedEventHandler(
wb_DocumentCompleted);
while (wb.ReadyState != WebbrowserReadyState.Complete)
Application.DoEvents();
//Added this line,because the final HTML takes a while to show up
GeneratedSource= wb.Document.Body.InnerHtml;
wb.dispose();
}
private void wb_DocumentCompleted(object sender,WebbrowserDocumentCompletedEventArgs e)
{
Webbrowser wb = (Webbrowser)sender;
GeneratedSource= wb.Document.Body.InnerHtml;
}
}