程式師世界 >> 編程語言 >> .NET網頁編程 >> C# >> C#入門知識 >> HtmlAgilityPack 抓取頁面的亂碼處理

HtmlAgilityPack 抓取頁面的亂碼處理

編輯：C#入門知識

利用HtmlAgilityPack抓取頁面很方便，但是當頁面是gb2312編碼時候就會出現亂碼，上網查了一下說是默認的獲取頁面方法不夠成熟，具體什麼的我也不知道，姑且就認為是不夠成熟吧。

HtmlWeb htmlWeb = new HtmlWeb();
HtmlDocument htmlDocument = htmlWeb.Load(@url);

解決方法如下：

新建一個方法來獲取 HtmlDocument，傳進來的是抓取頁面的地址

       private static HtmlDocument GetHtmlDocument(string url)
        {
            HttpWebRequest httpWebRequest = WebRequest.Create(new Uri(@url)) as HttpWebRequest;
            httpWebRequest.Method = "GET";
            WebResponse webResponse = httpWebRequest.GetResponse();
            Stream stream = webResponse.GetResponseStream();
            HtmlDocument htmlDocument = new HtmlDocument();
            htmlDocument.Load(stream);

            return htmlDocument;
        }

根據@無機の劍的評論，用這個屬性就解決了（O(∩_∩)O~）：

HtmlWeb htmlWeb = new HtmlWeb(); 
htmlWeb.OverrideEncoding = Encoding.GetEncoding("gb2312");

這樣就可以啦！至於後面的使用方法都一樣，具體可以參考這個博客，講的很詳細哈 http://www.cnblogs.com/linfei721/archive/2013/05/08/3066697.html

C#入門知識

C#版QQ機器人組件源碼（帶示例程序）

作者：overred 來源：開往春天的地鐵(千萬別用此

C#集合之Stack

1、Stack定義 System.C

Break 、Continue 和ReadOnly、Const和Ref和Out params，readonlyparams

Break 、Continue 和ReadOnly、Cons

C#世界中的委托，

C#世界中的委托，委托是C#最重要的特性之一，C#後面的所有

用程序解密愛因斯坦經典難題

愛因斯坦曾在20世紀初提過一個經典問題，據說世界上有9

c#繼承中的函數調用

c#繼承中的函數調用首先看下面的代碼: usin