抓取的網頁:http://esf.nanjing.fang.com/
浏覽器查看源碼顯示content="text/html; charset=gb2312"
python chardet 結果顯示{'confidence': 0.0, 'encoding': None}
通過page=page.decode('gb2312','ignore').encode('utf-8'),解碼後print為亂碼
求問應該如何對這個網頁的源代碼進行解碼從而抓取需要的信息?
python3 +.
需要安裝urllib3.
你也可以試試,直接轉換成gb2312.下面的代碼親測可用。
http = urllib3.PoolManager()
r=http.request('GET','http://esf.nanjing.fang.com/')
print((r.data).decode('gb2312','ignore'))