從網上爬下來了一道數學題,不知道該怎樣獲取裡面的值了
soup = BeautifulSoup(problem_content, 'html.parser') # 這個problem_content是個從網上爬下來的數學題,裡面包含很多的HTML標簽
# print soup # 全部是亂碼,網上找資料說是沒有\xa0這個編碼
# print soup.prettify().replace(u'\xa0', '') # 安裝文檔形式輸出,正常輸出
# print soup.p # 輸出的p標簽內容全部是亂碼
# print soup.encode('gb18030') # 除中文外全部是 亂碼
new_soup = soup.prettify().replace(u'\xa0', '') # new_soup為unicode格式
s_soup = BeautifulSoup(new_soup, 'html.parser') # 再次將其轉為bs4格式數據
cont = s_soup.p.encode('gb18030') # print type(cont)返回 <type 'str'>
# print type(new_soup) 返回 <type 'unicode'>
print cont
print cont返回值是:
<p>
如圖所示,圓錐 $SO$ 的軸截面 $△$$SAB$ 是邊長為$ 4 $的正三角形,$M$為母線 $SB$的中點,過直線 $AM$ 作平面 $β$ $⊥$ 面 $SAB$ ,設 $β$
<span>
與圓錐側面的交線為橢圓 $C$,則橢圓 $C$ 的短半軸
</span>
<span style="font-size:12px;line-height:1.5;">
為( )
</span>
</p>
由於這個cont是個str類型的值,請問老師我該如何才能回去這個值
標簽內部的值?用cont.string返回錯誤提示:cont沒有string屬性
http://zhidao.baidu.com/link?url=RwqRI-mffUi0v72naV59GVaAyDeFVECc6vtfaE82hwVWumkAUNGCSTGHi-et-WADdNO7x5t5VnflbTxKsBtElbMqf2i4UhTfM3uJZoOAo0e