程序師世界是廣大編程愛好者互助、分享、學習的平台,程序師世界有你更精彩!
首頁
編程語言
C語言|JAVA編程
Python編程
網頁編程
ASP編程|PHP編程
JSP編程
數據庫知識
MYSQL數據庫|SqlServer數據庫
Oracle數據庫|DB2數據庫
 程式師世界 >> 數據庫知識 >> MYSQL數據庫 >> 關於MYSQL數據庫 >> mysql 如何插入隨機字符串數據的實現方法

mysql 如何插入隨機字符串數據的實現方法

編輯:關於MYSQL數據庫

應用場景:
有時需要測試插入數據庫的記錄來測試,所以就非常需要用到這些腳本。

創建表:

CREATE TABLE `tables_a` (
  `id` int(10) NOT NULL DEFAULT '0',
  `name` char(50) DEFAULT NULL,
  PRIMARY KEY (`id`)
) ENGINE=InnoDB DEFAULT CHARSET=utf8;

創建產生隨機字符串的函數:

set global log_bin_trust_function_creators = 1;
DROP FUNCTION IF EXISTS rand_string;
DELIMITER //
CREATE FUNCTION rand_string(n INT)
RETURNS VARCHAR(255)
BEGIN
        DECLARE chars_str varchar(100) DEFAULT 'abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ0123456789';
        DECLARE return_str varchar(255) DEFAULT '';
        DECLARE i INT DEFAULT 0;
        WHILE i < n DO
                SET return_str = concat(return_str,substring(chars_str , FLOOR(1 + RAND()*62 ),1));
                SET i = i +1;
        END WHILE;
        RETURN return_str;
END //
delimiter ; 

創建插入表的procedure,x是從多少開始。y是多少結束,z是產生多少位隨機數

delimiter // 
create procedure test(x int(10),y int(10),z int(10))
begin
  DECLARE i INT DEFAULT x;
  while i<y do
 insert into tables_a values(i,rand_string(z));
 set i=i+1;
 end whi

mysql隨機數據生成並插入

dblp數據庫中引用信息很少,平均一篇論文引用0.2篇。使用dblp做實驗數據集的某篇論文提到,可以隨機添加引用信息。受此啟發,我打算為每一篇論文都添加20篇隨機引用,於是就寫出了如下的sql語句:

String sql = "insert into citation(pId1,pId2) values( (select pId from papers limit ?,1),(select pId from papers limit ?,1))";

使用preparedstatement,以batch方式提交數據庫。

第一個參數是paper的rowid信息,從0~N(N為papers的total row)。第二個參數是Java生成的20個不重復的隨機數,范圍是0-N。然後嵌套在for循環裡,每1w條數據提交給數據庫一次。

這段代碼巧妙運用limit的特性完成隨機選tuple,本來是暗暗得意的。自以為把所有的select都交給數據庫去做了,省去了通過jdbc的多次連接,應該是很快就可以運行完成的。哪知,插了不過10w條(10000*10)數據,就耗時22分鐘之多。最終的實驗需要插入400w條數據,也就是說要花14h左右。

於是開始反思,不斷做寫類似的程序查找時間瓶頸,最終鎖定在select limit,這個操作極耗時間。當初選用limit,原因在於:隨機生成的是數字,要把數字映射到tuple,也就是對應到rowid;由於papers表的主鍵並非遞增int,所以默認的rowid不存在。後來一想,可以在papers表上先增加一個auto_increment的temp列,完成citation插入後再刪除。這樣sql語句就改成了:

String sql = "insert into citation(pId1,pId2) values((select pId from papers where temp=?), (select pId from papers where temp=?))";

再一次插入10w條數據,耗時38s。效率大幅提高,但不知道還可不可以進一步優化。

  1. 上一頁:
  2. 下一頁:
Copyright © 程式師世界 All Rights Reserved