程序師世界是廣大編程愛好者互助、分享、學習的平台,程序師世界有你更精彩!
首頁
編程語言
C語言|JAVA編程
Python編程
網頁編程
ASP編程|PHP編程
JSP編程
數據庫知識
MYSQL數據庫|SqlServer數據庫
Oracle數據庫|DB2數據庫
 程式師世界 >> 編程語言 >> 網頁編程 >> PHP編程 >> 關於PHP編程 >> 匹配csdn用戶數據庫與官方用戶的重合度並將重疊部分的用戶篩選出來

匹配csdn用戶數據庫與官方用戶的重合度並將重疊部分的用戶篩選出來

編輯:關於PHP編程

過程:
1、獲取csdn的用戶數據庫導入本地
試用editplus打開提示內存不足,沒找到辦法,同事的linux下查看了一下,基本的格式如下:
用戶名 # 密碼 # 郵箱
用戶名 # 密碼 # 郵箱
相應數據結構:
復制代碼 代碼如下:
CREATE TABLE IF NOT EXISTS `csdn_userdb` (
  `id` int(10) NOT NULL auto_increment,
  `username` varchar(50) character set gbk NOT NULL,
   `password` varchar(50) character set gbk NOT NULL,
  `email` varchar(50) character set gbk NOT NULL,
   PRIMARY KEY (`id`),
  KEY `username` (`username`),
  KEY `email` (`email`)
  ) ENGINE=MyISAM DEFAULT CHARSET=gbk AUTO_INCREMENT=1 ;

一直懷疑fopen打開文件是寫入緩存的,但是實踐證明速度很快,應該是沒有寫入緩存,以下為導入數據的代碼
復制代碼 代碼如下:
<?php
$link = mysql_connect('localhost', 'root', 'admin', true);
mysql_select_db('csdn',$link);
$handle = fopen("C:\Users\zhudong\Desktop\www.csdn.net.sql", "r");
while (!feof($handle)){
$i++;
$buffer = fgets($handle);
list($u,$p,$e) = explode(" # ",$buffer);
mysql_query("INSERT INTO csdn_userdb(username,password,email) VALUES ('$u','$p','$e')",$link);
if ($i%1000 == 0) echo $i."\n";
}
fclose($handle);
?>

以上代碼效率非常差,故做修改後代碼如下:
復制代碼 代碼如下:
<?php
$link = mysql_connect('localhost', 'root', 'admin', true);
mysql_select_db('csdn',$link);
$handle = fopen("C:\Users\zhudong\Desktop\www.csdn.net.sql", "r");
$perpage = 50;
while (!feof($handle)){
$i++;
$buffer = fgets($handle);
list($u,$p,$e) = explode(" # ",$buffer);
$insertValue[] = "('$u','$p','$e')";
if ($i% $perpage == 0){ $perpage == 0){
$instrtValueString = implode(',',$insertValue);
mysql_query("INSERT INTO csdn_userdb(username,password,email) VALUES $instrtValueString",$link);
echo $i."\n";
$insertValue = array();
}
}
fclose($handle);

為了搞清楚有那些因素對導入數據的效率產生影響,故根據不同的設置進行了測試
CSDN用戶總數據 6428600
當$perpage=500;導入後數據:5,902,000;數據丟失526600 丟失率:8%;數據表引擎:MyISAM;索引:有;總耗時 :15分鐘
當$perpage=200,導入後數據總數:6,210,200;數據丟失:218400;丟失率:3.3%;數據表引擎: MYISAM ;索引:有;總耗時:30分鐘
當$perpage=200,導入後數據總數:6,210,200;數據丟失:218400;丟失率:3.3%;數據表引擎:INNODB;索引:有;總耗時:65分鐘
當$perpage=200,導入後數據總數:6,210,200;數據丟失:218400;丟失率:3.3%;數據表引擎:MYISAM;索引:無;總耗時:14分鐘(數據導入完畢後單獨再建索引)
當$perpage=50,導入後數據總數:6,371,200;數據丟失:57400,丟失率:0.8%;數據表引擎:MYISAM;索引:無:總耗時:20分鐘
根據以上情況總結如下:
1、先導入數據後加索引的效率要比先加索引後導入數據的高一倍
2、InnoDB 在單進程數據插入上的效率要比MYISAM低很多
3、當perpage=50的情況下數據丟失率在1%以下
復制代碼 代碼如下:
因為通過浏覽器執行會有超時的問題,而且效率地下,故通過命令行方式運行,此過程中遇到一點小麻煩耽擱了不少時間
起初我執行如下代碼:
php.exe E:\usr\www\importcsdndb.php
但是一直報錯:call to undefined function mysql_connect
折騰發現沒有載入php.ini
正確代碼為:
php.exe -c E:/usr/local/apache2/php.ini importcsdndb.php

2、導入需要匹配的用戶數據數據至本地
命令行進入msyql(不會的自己百度)
然後執行:mysql>source C:/Users/zhudong/Desktop/userdb.sql
3、對比篩選用戶
對比程序寫好了,切記在命令行下運行:
復制代碼 代碼如下:
<?php
$link = mysql_connect('localhost', 'root', 'admin', true);
mysql_select_db('csdn',$link);
$handle_username = fopen("E:/records_username.txt","a");
//$handle_email = fopen("E:/records_email.txt","a");
$username_num = $email_num = $uid = 0;
while ($uid<2181106) {
$nextuid=$uid+10000;
$query = mysql_query("SELECT * FROM pw_members WHERE uid>'$uid' AND uid<'$nextuid'");
while ($rt = mysql_fetch_array($query,MYSQL_ASSOC)) {
$username = $rt['username'];
$email = $rt['email'];
$query2 = mysql_query("SELECT * FROM scdn_userdb WHERE username='$username' OR email='$email'");
while ($rt2 = mysql_fetch_array($query2,MYSQL_ASSOC)) {
if ($rt['password'] = md5($rt2['password'])) {
if ($rt2['username'] == $username) {
$username_num++;
fwrite($handle_username,'OWN:'.$rt['uid'].'|'.$rt['username'].'|'.$rt['password'].'|'.$rt['email'].' CSDN:'.$rt2['username'].'|'.$rt2['password'].'|'.$rt2['email']."\r\n");
echo 'username_num='.$username_num."\r\n";
continue;
}
/*
if ($rt2['email'] == $email) {
$email_num++;
fwrite($handle_email,'OWN:'.$rt['uid'].'|'.$rt['username'].'|'.$rt['password'].'|'.$rt['email'].' CSDN:'.$rt2['username'].'|'.$rt2['password'].'|'.$rt2['email']."\r\n");
echo 'email_num='.$email_num."\r\n";
}
*/
}
}
mysql_free_result($query2);
}
$uid = $nextuid;
}
?>

您看到的以上的代碼是非常蹩腳的,因為其效率特別低 ,幾百萬的數據,要跑10多個小時,怎麼能忘記連表查詢這麼基本的東西呢,以下為修正後的方法
復制代碼 代碼如下:
$link = mysql_connect('localhost', 'root', 'admin', true);
mysql_select_db('csdn',$link);
$handle_username = fopen("E:/records_username.txt","a");
while($uid<2181106) {//此處的數字為要對比用戶庫的最大ID
$nextuid= $uid+10000;
$query = mysql_query("SELECT m.uid,m.username,m.password,m.email,u.password as csdn_password,u.email as csdn_email FROM own_members m LEFT JOIN csdn_userdb u USING(username) WHERE m.uid>'$uid' AND m.uid<='$nextuid' AND u.username!=''");
while ($rt = mysql_fetch_array($query,MYSQL_ASSOC)) {
if ($rt['password'] == md5($rt['csdn_password'])) {
$username_num++;
fwrite($handle_username,'OWN:'.$rt['uid'].'|'.$rt['username'].'|'.$rt['password'].'|'.$rt['email'].' CSDN:'.$rt['username'].'|'.$rt['csdn_password'].'|'.$rt['csdn_email']."\r\n");
echo 'username_num='.$username_num."\r\n";
}
}
$uid = $nextuid;
echo 'uid='.$uid;
}
?>

總對比時間25分鐘,相比較之前10多個小時的執行真是大有提升
總重名用戶:34175
占總會員比例:1.7%
1.7%的重名用戶還是挺嚴重的,希望本文對各位站長對比出本站的用戶有所幫助

  1. 上一頁:
  2. 下一頁:
Copyright © 程式師世界 All Rights Reserved