比如一個社交軟件,比如像騰訊的qq。可以進行群聊天(gid),也可以單人聊天。
這裡面使用到了數據庫中間件mycat,和mysql數據表分區。
關於mycat分區參考:
【 數據庫垂直拆分,水平拆分利器,cobar升級版mycat】
http://blog.csdn.net/freewebsys/article/details/44046365
利用mysql分區,假設mysql數據表簡單的為:
CREATE TABLE `group_msg` (
`id` bigint(20) NOT NULL,
`gid` bigint(20) DEFAULT NULL COMMENT '',
`content` varchar(4000),
`create_time` datetime DEFAULT NULL,
PRIMARY KEY (`id`,`gid`)
) ENGINE=MyISAM DEFAULT CHARSET=utf8
PARTITION BY KEY(`gid`)
PARTITIONS 100;
數據表中按照gid進行分區,id不是自增,而是使用全局變量生成的。
在mycat中帶全局變量生成的函數。這裡有個技巧,按照每一個群組做一個全局的id,每個群組的消息都是從1開始。這樣每個群組的id就是聊天信息的總數,方便分頁查詢歷史記錄使用。歷史記錄表後面繼續分析。
參考:http://dev.mysql.com/doc/refman/5.1/en/partitioning-limitations.html
分區表可以設置的大些,因為數據放在本地切分成多個文件成本比較低。
3,配置mycat分表
由於mycat配置分表是按照分庫進行的。所有需要創建多個數據庫。
比起表分區是麻煩點。
參考之前博客:
【Mycat 水平分表,垂直分表實踐(2)】博客數據表拆分和全局id
http://blog.csdn.net/freewebsys/article/details/44399901
其中規則xml的配置如下:
<!DOCTYPE mycat:rule SYSTEM "rule.dtd"> <mycat:rule xmlns:mycat="http://org.opencloudb/"> <!--article 分區配置,按照id進行模10,如果拆分成20個庫模20。--> <tableRule name="mod-long"> <rule> <columns>user_id</columns> <algorithm>mod-long</algorithm> </rule> </tableRule> <function name="mod-long" class="org.opencloudb.route.function.PartitionByMod"> <property name="count">10</property> </function> </mycat:rule>
分區schema配置文件:
<?xml version="1.0"?> <!DOCTYPE mycat:schema SYSTEM "schema.dtd"> <schema name="mycat" checkSQLschema="false" sqlMaxLimit="100"> <table name="MYCAT_SEQUENCE" primaryKey="name" type="global" dataNode="nodeUser" /> </schema> <schema name="group_msg" checkSQLschema="false" sqlMaxLimit="100"> <table name="group_msg" primaryKey="gid" dataNode="nodeGroupMsg01,nodeGroupMsg02,nodeGroupMsg03,nodeGroupMsg04,nodeGroupMsg05,nodeGroupMsg06,nodeGroupMsg07,nodeGroupMsg08,nodeGroupMsg09,nodeGroupMsg10" rule="mod-long" /> </schema> <!--拆分成5 組機器,每個機器上面兩個數據庫。如果壓力大,直接拆分成10個機器,再多拆成20個庫。--> <dataNode name="nodeGroupMsg01" dataHost="dataHost01" database="group_msg_01" /> <dataNode name="nodeGroupMsg02" dataHost="dataHost01" database="group_msg_02" /> <dataNode name="nodeGroupMsg03" dataHost="dataHost02" database="group_msg_03" /> <dataNode name="nodeGroupMsg04" dataHost="dataHost02" database="group_msg_04" /> <dataNode name="nodeGroupMsg05" dataHost="dataHost03" database="group_msg_05" /> <dataNode name="nodeGroupMsg06" dataHost="dataHost03" database="group_msg_06" /> <dataNode name="nodeGroupMsg07" dataHost="dataHost04" database="group_msg_07" /> <dataNode name="nodeGroupMsg08" dataHost="dataHost04" database="group_msg_08" /> <dataNode name="nodeGroupMsg09" dataHost="dataHost05" database="group_msg_09" /> <dataNode name="nodeGroupMsg10" dataHost="dataHost05" database="group_msg_10" /> <dataHost name="dataHost01" maxCon="1000" minCon="10" balance="0" writeType="0" dbType="mysql" dbDriver="native"> <heartbeat>select 1</heartbeat> <writeHost host="hostM1" url="192.168.100.1:3306" user="root" password="root"/> </dataHost> <dataHost name="dataHost02" maxCon="1000" minCon="10" balance="0" writeType="0" dbType="mysql" dbDriver="native"> <heartbeat>select 1</heartbeat> <writeHost host="hostM1" url="192.168.100.2:3306" user="root" password="root"/> </dataHost> <dataHost name="dataHost03" maxCon="1000" minCon="10" balance="0" writeType="0" dbType="mysql" dbDriver="native"> <heartbeat>select 1</heartbeat> <writeHost host="hostM1" url="192.168.100.3:3306" user="root" password="root"/> </dataHost> <dataHost name="dataHost04" maxCon="1000" minCon="10" balance="0" writeType="0" dbType="mysql" dbDriver="native"> <heartbeat>select 1</heartbeat> <writeHost host="hostM1" url="192.168.100.4:3306" user="root" password="root"/> </dataHost> <dataHost name="dataHost05" maxCon="1000" minCon="10" balance="0" writeType="0" dbType="mysql" dbDriver="native"> <heartbeat>select 1</heartbeat> <writeHost host="hostM1" url="192.168.100.5:3306" user="root" password="root"/> </dataHost> </mycat:schema> .考慮按照數據庫拆分成本比較高,直接拆分成10個數據庫,分別放到5個機器上面。如果壓力大可以直接放到10個機器上面。 實際上表分區加上mycat,一個拆了100*10個文件。按照每個文件能承載1000w條記錄算,可以承受100億數據。 這個當然是理論了。假設日活100w,每人發10條,基本上夠2-3年使用的了。 4,總結 這個只是消息表的一個簡單的設計方案。通過使用成熟的組件搭建的分表方案。同時利用了mysql分區和mycat分表兩個結合下。 畢竟一個mysql物理機器不能分太多文件,兩個結合起來效率就高了。達到一個運維成本低,畢竟線上mysql數據庫要配置master-slave,拆的多維護的多。