程序師世界是廣大編程愛好者互助、分享、學習的平台,程序師世界有你更精彩!
首頁
編程語言
C語言|JAVA編程
Python編程
網頁編程
ASP編程|PHP編程
JSP編程
數據庫知識
MYSQL數據庫|SqlServer數據庫
Oracle數據庫|DB2數據庫
您现在的位置: 程式師世界 >> 編程語言 >  >> 更多編程語言 >> Python

通過Python識別Twitter用戶性別

編輯:Python

資源下載地址:https://download.csdn.net/download/sheziqiong/85705774

此項目為入門項目,用來了解

  1. 文本特征工程,

  2. 圖像特征工程,

  3. 基本的數據清洗流程

  4. 項目建模流程

數據集基本信息:

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 20050 entries, 0 to 20049
Data columns (total 6 columns):
# Column Non-Null Count Dtype 
--- ------ -------------- -----
0 gender 19953 non-null object
1 description 16306 non-null object
2 link_color 20050 non-null object
3 profileimage 20050 non-null object
4 sidebar_color 20050 non-null object
5 text 20050 non-null object
dtypes: object(6)
memory usage: 940.0+ KB
None

數據集有20050行,6列

特征內容:

  • gender: 用戶性別,即預測內容

  • description:用戶自我描述

  • link_color:用戶主題顏色

  • profileimage:twitter頭像鏈接

  • sidebar_color :用戶側邊欄顏色

  • text: 用戶twitter 發布的內容

數據預覽:

流程介紹:

  1. 數據清洗
1.1 根據 'gender' 列過濾數據
1.2 過濾掉 'description' 列為空的數據
1.3 過濾掉 'link_color' 列和 'sidebar_color' 列非法的16進制數據
1.4 清洗文本數據
1.5 根據profileimage的鏈接判斷頭像圖片是否有效,
1.6 替換male->0, female->1
  1. 分割數據集 分詞 去除停用詞

  2. 特征工程

3.1 訓練數據特征提取

3.1.1 文本數據

description數據提取desc文本的TF-IDF特征

提取text文本TF-IDF特征

3.1.2 圖像數據

link color的RGB特征

頭像的RGB直方圖特征

組合文本特征和圖像特征

特征范圍歸一化

3.2 測試數據特征提取:跟訓練集一樣

3.3 PCA降維操作

  1. 模型建立訓練,對比PCA操作前後的效果

使用未進行PCA操作的特征

使用PCA操作後的特征

模型:lr_model = LogisticRegression()

  1. 模型測試

  2. 刪除解壓數據,清理空間

資源下載地址:https://download.csdn.net/download/sheziqiong/85705774


  1. 上一篇文章:
  2. 下一篇文章:
Copyright © 程式師世界 All Rights Reserved