程序師世界是廣大編程愛好者互助、分享、學習的平台,程序師世界有你更精彩!
首頁
編程語言
C語言|JAVA編程
Python編程
網頁編程
ASP編程|PHP編程
JSP編程
數據庫知識
MYSQL數據庫|SqlServer數據庫
Oracle數據庫|DB2數據庫
 程式師世界 >> 數據庫知識 >> DB2數據庫 >> DB2教程 >> python爬蟲補充章,在總控節點那台機器上安裝mongodb和redis數據庫都是非apt方法

python爬蟲補充章,在總控節點那台機器上安裝mongodb和redis數據庫都是非apt方法

編輯:DB2教程

python爬蟲補充章,在總控節點那台機器上安裝mongodb和redis數據庫都是非apt方法


因為發現爬蟲爬取出來的數據如果按照表結構劃分後存儲,不僅麻煩而且非常大的冗余

干脆試試用這樣的非關系數據庫來試試存儲效果如何。

這裡我不打算用redis 進行比較,因為他是內存數據庫,他擅長的領域應該是緩存和少量數據的統計歸類

(做這個的還有另外一大家伙memcache),redis 以後相配合 其他應用提高效率的。

這裡相比較的主要是mongodb和mysql 的性能差,就特定指的是這樣復雜的關系網絡的應用環境下!!

apt-cache depends #(package 了解使用依賴)
apt-cache rdepends #(package 了解某個具體的依賴?#當是查看該包被哪些包依賴吧...)
sudo apt-get build-dep #(package 安裝相關的編譯環境)
apt-get source #(package 下載該包的源代碼)
sudo apt-get clean && sudo apt-get autoclean # 清理下載文件的存檔 && 只清理過時的包
sudo apt-get check #檢查是否有損壞的依賴

補充,如果安裝package突然中斷的錯誤,

sudo rm /var/lib/dpkg/updates/*

主要原因應該是/var/lib/dpkg/updates 文件夾裡面的資料有錯誤,使得更新軟件的程序出現錯誤,所以得把它們完全刪除,

通過sudo apt-get update這個指令會重新建立這些資料,使用sudo apt-get upgrade更新你的電腦裡面已安裝的軟件的明細,根據軟件的明細更新軟件到最新版。

sudo apt-get update #更新源
sudo apt-get upgrade #更新已安裝的包,不同於sudo apt-get dist-upgrade # 這個是升級系統

dpkg和apt-get意外毀損

那麼還要先做:

sudo rm /var/cache/apt/archives/lock
sudo rm /var/lib/dpkg/lock

再做上面的更新

先安裝mongodb:

參考mongodb 官網安裝文檔:http://docs.mongodb.org/manual/tutorial/install-mongodb-on-ubuntu/

這個上面有如何卸載老版本的方法和用apt-get 的方式安裝的方法:

我這裡強烈建議大家按照apt的方法安裝!!!!

我這裡強烈建議大家按照apt的方法安裝!!!!

我這裡強烈建議大家按照apt的方法安裝!!!!

不要學我,慘痛的教訓。。。直接按照mongodb官網的apt教程安裝就好!!!!

我沒有選擇apt 的方法,因為自己新手,apt的方法會把文件都拆分到各個系統文件夾裡去,我搞不清楚

而且我只想用自己設定的自己用戶使用mongodb 不要用root

所以我還是按照 解壓包的方式安裝

我把包下載下來以後,發現盡然沒有conf 文件。全是編譯好的程序文件

1
curl -O https://fastdl.mongodb.org/linux/mongodb-linux-x86_64-3.0.5.tgz
2
tar -zxvf mongodb-linux-x86_64-3.0.5.tgz
3
mkdir -p mongodb-3.0.5/
cp -R -n mongodb-linux-x86_64-3.0.5/ ~/mongodb-3.0.5/
4
export PATH=/bin:$PATH

Running

1
mkdir -p /data/db
2
確定你要有讀寫權限

3
啟動
mongod --dbpath

sudo chmod -R 777 /home/luis/mongodb-3.0.5/data/db/

接下來就是一些輔助的工作了

修改最大連接數:

修改/etc/security/limits.conf 配置文件。
使用命令:sudo gedit /etc/security/limits.conf
在文件中增加
* soft nofile 3000
* hard nofile 20000
root soft nofile 3000
root hard nofile 20000
* 表示該配置對所有用戶均有效,root用戶要特別加兩行。
硬限制通常是根據系統硬件資源狀況(主要是系統內存)計算出來的系統最多可同時打開的文件數量,軟限制是在這個基礎上進一步的限制。因此軟限制數目要低於硬限制。
nofile表示 max number of open files
重新啟動計算機,然後再用ulimit -a 命令查看:
open files (-n) 3000
已經生效了。現在再啟動mongodb server,問題解決

要重啟才生效

然後設置開機啟動

在/etc/init.d/目錄下新建腳本文件mongodb

 

#!/bin/sh  
   
### BEGIN INIT INFO  
# Provides:     mongodb  
# Required-Start:  
# Required-Stop:  
# Default-Start:        2 3 4 5  
# Default-Stop:         0 1 6  
# Short-Description: mongodb  
# Description: mongo db server  
### END INIT INFO  
   
. /lib/lsb/init-functions  
   
PROGRAM=/home/luis/mongodb-3.0.5/bin/mongod
MONGOPID=`ps -ef | grep 'mongod' | grep -v grep | awk '{print $2}'`  
   
test -x $PROGRAM || exit 0  
   
case "$1" in  
  start) 
     ulimit -n 3000  
     log_begin_msg "Starting MongoDB server"   
     $PROGRAM --fork --quiet -journal -maxConns=2400 -rest --dbpath /home/luis/mongodb-3.0.5/data/db --logpath /home/luis/mongodb-3.0.5/data/db/journal/mongodb.log
     log_end_msg 0  
     ;;  
  stop)  
     log_begin_msg "Stopping MongoDB server"   
     if [ ! -z "$MONGOPID" ]; then   
        kill -15 $MONGOPID  
     fi  
     log_end_msg 0  
     ;;  
  status)  
     ;;  
  *)  
     log_success_msg "Usage: /etc/init.d/mongodb {start|stop|status}"   
     exit 1  
esac  
   
exit 0

用sudo chmod +x /etc/init.d/mongodb 命令允許該腳本可被執行
接著運行下面的命令注冊開機腳本:
update-rc.d mongodb defaults

 

你也可以通過update-rc.d -f mongodb remove 刪除
重新啟動,通過ps -def | grep mongod 可以查看到自啟動的服務進程,然後可以通過下面的命令關閉/啟動服務
sudo service mongodb stop
sudo service mongodb start

客戶端登錄服務器
啟動日志如上,服務端啟動如上,現在我們在另外一個終端測試服務器是否正常。
進入/usr/local/mongodb-linux-x86_64-2.0.2/bin,執行./mongo
出現
MongoDB shell version: 2.0.2
connecting to: test
執行db.foo.save({1 : “Hello world”})
然後查找db.foo.find();
看到{ "_id" : ObjectId("4e4b395986738efa2d0718b9"), "1" : "hello world" }
執行到這裡恭喜你,成功安裝好了mongodb


也可以通過下面這種方式連接遠程的mongodb server,默認端口為27017,比如
./mongo 192.168.30.25
創建數據庫
如果沒有mydb數據庫的話,在客戶端中使用命令:
use mydb
將創建mydb數據庫,而且當前數據庫切換為mydb.
此時show dbs不顯示該數據庫名稱。使用db.stats()命令檢查當前數據庫狀態。
標准檢查流程
1.首先檢查 ulimit -a
查看open files (-n) 是否為設置的值
如果是在開機腳本裡面設置,則應該通過下面4步驟檢查。本步驟可以忽略。


2.ps -def | grep mongod
查看該服務是否啟動
3.cd /data/db/journal/
cat mongdb.log
查看服務器是否正確
4.進入http://192.168.1.199:28017
看服務器是否啟動正常
5.進入/usr/mongodb/bin,執行./mongo
看看是否能夠登錄

安裝redis:

參考官網:http://redis.io/download

Installation

$ wget http://download.redis.io/releases/redis-3.0.3.tar.gz
$ tar xzf redis-3.0.3.tar.gz
$ cd redis-3.0.3
$ make

The binaries that are now compiled are available in the src directory. Run Redis with:
$ src/redis-server

You can interact with Redis using the built-in client:
$ src/redis-cli
redis> set foo bar
OK
redis> get foo
"bar"

  1. 上一頁:
  2. 下一頁:
Copyright © 程式師世界 All Rights Reserved