最近在爬取一個志願服務的項目,網頁是志願服務網,爬的時候偷懶,只存成了一個大的字典,放到pickle裡。
無用代碼較多。我截圖了。
得到一個df,這個df是字典的的形式。
df = pd.read_pickle(os.path.join(data_dir, org_data_list[1299]))
其中PTU是一個裡列表,裡面還有字典。
ptu = df['PTU'] ptu len(ptu)
ptu裡面的每一個元素,有volun_name ,我向做一個大的字典,對name進行計數,然後存成pickle。具體就是這樣的。:
def get_org_s_parter(ptu):
dct_temp = {}
for p in ptu:
print(p['volun_name'])
for nm in p['volun_name']:
if dct_temp.get(nm) is None:
dct_temp[nm] = 1
else:
dct_temp[nm] += 1
return dct_temp
aaa = get_org_s_parter(ptu)
aaa
得到的aaa就是我想要的。
後面就是把這個字典,存成文件名的特征的pickle了。