程式師世界 >> 編程語言 >> 更多編程語言 >> 編程綜合問答 >> 編碼-python抓取網頁，網頁源碼無法解碼

編碼-python抓取網頁，網頁源碼無法解碼

編輯：編程綜合問答

python抓取網頁，網頁源碼無法解碼

抓取的網頁：http://esf.nanjing.fang.com/
浏覽器查看源碼顯示content="text/html; charset=gb2312"
python chardet 結果顯示{'confidence': 0.0, 'encoding': None}
通過page=page.decode('gb2312','ignore').encode('utf-8'),解碼後print為亂碼

求問應該如何對這個網頁的源代碼進行解碼從而抓取需要的信息？

最佳回答：

python3 +.
需要安裝urllib3.

你也可以試試，直接轉換成gb2312.下面的代碼親測可用。

 http = urllib3.PoolManager()
    r=http.request('GET','http://esf.nanjing.fang.com/')
    print((r.data).decode('gb2312','ignore'))

上一頁:spring-Spring data Jpa批量更新操作
下一頁:布局-為什麼我這個findviewbyid返回是空的

編程綜合問答

windows編程-MFC繪制圖形時全屏幕刷新會很閃

MFC繪制圖形時全屏幕刷新會

c語言-程序設定好的循環沒有運行！WHY?

程序設定好的循環沒有運行！W

java web-POI讀取EXCEL文件的錯誤（invalid header signature ）處理

POI讀取EXCEL文件的錯

object-htm5視頻播放快進功能鍵沒有，不能快進後退

htm5視頻播放快進功能鍵沒

mfc-The Active X control cannot be instantiated??

The Active X c

區域-div自適應文字自適應站牌設計

div自適應文字自適應站

熱門圖文

遍歷和查找外部程序Tree-View中的項目百度-找工作職業規劃問題，希望過來人能給些建議。如何運用PHP函數fgets讀取指針文件 lcd顯示-win10字符碼和lcd1602的字符碼一樣嗎？為什麼我顯示的是亂碼？ SSI在php程序中的應用 BZOJ 1043 HAOI 2008 下落的圓盤計算幾何 ASP.NET TextBox 控件 ZOJ 3870 Team Formation（數學）

欄目導航

匯編語言 Delphi Groovy WebSphere Rational Python Ruby 編程解疑編程綜合問答更多關於編程編程問題解答