本博客用Movielens-1m數據集的ratings.dat作為推薦數據來訓練MF推薦模型。第一列是用戶id(user_id)、第二列是物品id(item_id)、第三列是用戶對物品的評分(score)、第四列是時間戳(timestamp)。
在Movielens-1m數據集中,注意ratings.dat是用::
作為分隔符的。。
import numpy as np
import pandas as pd
import os
from tensorflow import keras # tensorflow == 2.X
import warnings
os.environ['TF_CPP_MIN_LOG_LEVEL'] = '2'
warnings.filterwarnings('ignore')
# 進行推薦
def recommend(user_id, uel, mel, N):
movies = uel[user_id-1] @ mel.T # -1是因為預處理後的用戶id從0開始
mids = np.argpartition(movies, -N)[-N:]
return mids
if __name__ == "__main__":
# ------ 讀入數據 ------ #
dataset = pd.read_csv("./ratings.dat", sep="::", names=["user_id", "item_id", "rating", "timestamp"])
# 數據預處理,下標從0開始,去除缺失值使得值連續
dataset.user_id = dataset.user_id.astype('category').cat.codes.values
dataset.item_id = dataset.item_id.astype('category').cat.codes.values
# 獲取用戶和項目列表
user_arr = dataset.user_id.unique()
movies_arr = dataset.item_id.unique()
# 獲取用戶和項目數量
n_users, n_movies = len(user_arr), len(movies_arr) # 6040 3706
n_latent_factors = 20
# ------ 設置Keras參數 ------ #
# 設置項目參數
movie_input = keras.layers.Input(shape=[1], name='Item')
movie_embedding = keras.layers.Embedding(n_movies + 1, n_latent_factors, name='Movie-Embedding')(movie_input)
movie_vec = keras.layers.Flatten(name='FlattenMovies')(movie_embedding)
# 設置用戶參數
user_input = keras.layers.Input(shape=[1], name='User')
user_embedding = keras.layers.Embedding(n_users + 1, n_latent_factors, name='User-Embedding')(user_input)
user_vec = keras.layers.Flatten(name='FlattenUsers')(user_embedding)
# 計算項目向量與用戶張量的點乘
prod = keras.layers.dot([movie_vec, user_vec], axes=1, name='DotProduct')
# 創建用戶-項目模型
model = keras.Model([user_input, movie_input], prod)
# 設置模型優化器、損失函數、測量指標
model.compile(optimizer='adam', loss='mean_squared_error', metrics=['mae', 'mse'])
# ------ 訓練模型 ------ #
# 訓練用戶-項目模型
# verbose=0:不輸出日志;verbose=1:輸出每一個step的訓練進度及日志;verbose=2:輸出每個epochs的日志
model.fit([dataset.user_id, dataset.item_id], dataset.rating, epochs=10, verbose=1)
# 獲得用戶和項目的嵌入矩陣
user_embedding_learnt = model.get_layer(name='User-Embedding').get_weights()[0]
movie_embedding_learnt = model.get_layer(name='Movie-Embedding').get_weights()[0]
# ------ 進行推薦 ------ #
# 給用戶1推薦top10
user = 1
topN = recommend(user_id=user, uel=user_embedding_learnt, mel=movie_embedding_learnt, N=10)
temp_topN = topN.tolist()
print("------ user ------")
print(user)
print("------ temp_topN ------")
print(temp_topN)
# 給所有用戶推薦Top10
# topN_list = {} # 存儲為每一個用戶推薦的列表
# for each_user in tqdm(user_arr, total=len(user_arr)):
# print("------ user ------")
# print(each_user)
# topN = recommend(user_id=each_user, uel=user_embedding_learnt, mel=movie_embedding_learnt, N=len(movie_embedding_learnt))
# topN_list[str(each_user)] = [i+1 for i in topN.tolist()]
# print("------ temp_topN ------")
# print(topN_list[-1])
對用戶1(user_id=1)產生一次推薦的輸出結果(示例):
Epoch 1/2
31257/31257 [==============================] - 223s 7ms/step - loss: 0.1862 - mae: 0.3020 - mse: 0.1862
Epoch 2/2
31257/31257 [==============================] - 202s 6ms/step - loss: 0.1042 - mae: 0.2151 - mse: 0.1042
------ user ------
1
------ temp_topN ------
[579, 1618, 2131, 576, 309, 892, 513, 1563, 106, 346]