資源下載地址:https://download.csdn.net/download/sheziqiong/85705774
此項目為入門項目,用來了解
文本特征工程,
圖像特征工程,
基本的數據清洗流程
項目建模流程
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 20050 entries, 0 to 20049
Data columns (total 6 columns):
# Column Non-Null Count Dtype
--- ------ -------------- -----
0 gender 19953 non-null object
1 description 16306 non-null object
2 link_color 20050 non-null object
3 profileimage 20050 non-null object
4 sidebar_color 20050 non-null object
5 text 20050 non-null object
dtypes: object(6)
memory usage: 940.0+ KB
None
數據集有20050行,6列
gender: 用戶性別,即預測內容
description:用戶自我描述
link_color:用戶主題顏色
profileimage:twitter頭像鏈接
sidebar_color :用戶側邊欄顏色
text: 用戶twitter 發布的內容
1.1 根據 'gender' 列過濾數據
1.2 過濾掉 'description' 列為空的數據
1.3 過濾掉 'link_color' 列和 'sidebar_color' 列非法的16進制數據
1.4 清洗文本數據
1.5 根據profileimage的鏈接判斷頭像圖片是否有效,
1.6 替換male->0, female->1
分割數據集 分詞 去除停用詞
特征工程
3.1 訓練數據特征提取
3.1.1 文本數據
description數據提取desc文本的TF-IDF特征
提取text文本TF-IDF特征
3.1.2 圖像數據
link color的RGB特征
頭像的RGB直方圖特征
組合文本特征和圖像特征
特征范圍歸一化
3.2 測試數據特征提取:跟訓練集一樣
3.3 PCA降維操作
使用未進行PCA操作的特征
使用PCA操作後的特征
模型:lr_model = LogisticRegression()
模型測試
刪除解壓數據,清理空間
資源下載地址:https://download.csdn.net/download/sheziqiong/85705774