sx"J{)v1m%m
2 71 65 63 72 741I!c"V)zA
3 60 81 67 87 80
4 67 84 71 61 78
5 64 76 72 64 72
6 73 80 66 58 67(sV2ptI7H)Z
7 62 81 78 52 79
8 74 78 47 60 56@2Vm w3bw
9 62 68 63 74 67)v(i{?X7n f
10 72 73 73 49 60
…… …… …… …… …… ……
第一步:對數據進行規范化處理。7A/YLl:[
將上表中的數據規范化,用0表示成績小於60分,1表示成績大於或等於60分,得到下表:c5X1OX"A'sw6u
學號 語文 數學 英語 物理
化學
1 76 71 68 71 81
2 71 65 63 72 74s7GT0`;O&of:R
3 60 81 67 87 80
4 67 84 71 61 78x u0Xn9PDe2h
5 64 76 72 64 72
6 73 80 66 58 67
7 62 81 78 52 79%IxsW#m:IQp!m"z
8 74 78 47 60 56
9 62 68 63 74 67
10 72 73 73 49 60^6vr Jk if&h#gw
…… …… …… …… …… ……
第二步:選取訓練實例集。
從所有學生中進行抽樣,將抽樣數據作為訓練集,共計有161條記錄。經統計,在這161條記錄的訓練集中單科成績及格人數和不及格人數如下表所示:J.gqkl9{ly*i_,
及格 82 57 34 32 39!n s*zM!T{CW
不及格 79 104 127 129 1223NS$B%M1Az iij
第三步:利用信息增益度選取最能區別訓練集中實例的屬性。W(\!H"`{O
首先計算課程物理所含有的信息量。由表4可知物理及格人數P=32,不及格人數N=129,則可得到:
Info(T)=I(32, 129)=-[(32/161)Log2(32/161)+(129/161)Log2(129/161)]=0.7195
然後計算當課程物理及格和不及格時,課程語文所包含的總信息量。經統計,語文和物理有如下表所示的統計數據:
)B6Eos7B/mC#U
成績搭配 人數FV1Y)c'~ m&T G
語文成績=1且物理成績=1 28
語文成績=1且物理成績=0 54
語文成績=0且物理成績=1 4]:j8z(K/D1t5]
語文成績=0且物理成績=0 75.`5kO$xm.w Q?
可得到:
Info(X,T) = )=(i=1 to n 求和)((|Ti|/|T|)Info(Ti))=(82/161)I(28,54)+(79/161)I(4,75)=0.6136
最後可得到語文的信息增益度為: V Zy;XK\&_B @
Gain(X,T)=Info(T)-Info(X,T)=0.7195-0.6136=0.1059
同理可得其他課程的信息增益度,結果如下表所示:C_*D{8L_0m(g
數學 英語 化學
G Gain 0.2136 0.095 0.1701/Wc4|nR
#~A+oA;P
由此可以看出所有課程當中數學是最能區別訓練集中決定物理成績與否的課程P ]fQO#\
第四步:創建一個樹結點,並創建該結點的子鏈,每個子鏈代表所選屬性的一個唯一值。使用子鏈的值進一步細化子類。當出現以下兩種情形之一時可以停止分類:1.一個結點上的數據都是屬於同一類別;2.沒有屬性可以再對屬性進行分割。
根據各個課程的信息增益度,應該選擇數學作為所建決策樹的根結點。由於數學的屬性值只有兩個:1(及格)和0(不及格),所以在數學下可以建立兩個分支。經統計,數學不及格且物理不及格的人數為100,其准確率為100/104=96.2%。因此對數學不及格這個分之停止分割。又經統計,數學及格的57人中有26人物理及格,31人物理不及格,所以應對數學及格這個分支進行分割。從上表可知,應該選取化學作為分割結點進行細化。分割後經統計顯示,數學和化學都及格的學生中,有26人物理及格,6人物理不及格,准確率為 26/32=81.3%;數學及格但化學不及格的學生中,有22人物理不及格,3人物理及格,准確率為 22/25=88%。由此可構建出數據的決策樹,如下所示
數學
(及格) (不及格)
化學 物理不及格(104/4) k9I:c)L`;J
(及格) (不及格))J#Eo$r9tqs K;D
物理及格(32/6) 物理不及格(25/3)
h S
注:括號內為分支條件(不知道怎麼上傳圖片,實際是一棵樹,呵呵)
第五步:將其它成績作為檢驗集 。並用來檢驗所生成的決策樹的准確度。
由該決策樹可以得出下列規則:u2LK^8L
(1)IF學生的數學成績不及格 n;D2~QXZn
THEN其物理成績通常也不及格。
准確度=(104-4)/104=96.2%
覆蓋率=104/161=64.6%
(2)IF學生的數學及格且化學成績不及格 , ^Pq;m%oZ
THEN物理成績不及格。
9O#{$JB ZH"m4e){;e;I