By RaySaint 2011/06/17
概念學習和歸納偏置
感覺概念學習現在提得很少,可能是因為在機器學習的實際應用中很少用到,但是從概念學習中很容易引出歸納偏置的概念,而歸納偏置是個很重要的概念,因此這次會簡單講講概念學習,著重於歸納偏置。可以看到歸納偏置對於機器學習的重要性。
概念學習
給定一樣例集合以及每個樣例是否屬於某一概念的標注,怎樣自動推斷出該概念的一般定義。這一問題被稱為概念學習。
一個更准確的定義:
概念學習是指從有關某個布爾函數的輸入輸出訓練樣例中推斷出該布爾函數。注意,在前面一篇文章《機器學習的基本概念和學習系統的設計》中提到,機器學習中要學習的知識的確切類型通常是一個函數,在概念學習裡面,這個函數被限定為是一個布爾函數,也就是它的輸出只有{0,1}0代表false,1代表true)),也就是說目標函數的形式如下:
f: X->{0,1}
根據上面的定義,很明顯概念學習屬於監督學習的分類問題。
舉一個《機器學習》By mitchell書上的例子來更好的理解概念學習。
目標概念:Aldo人名)會去海邊游泳的日子,注意,這裡這樣描述不太好,很容易理解成我們要得到的表示目標感念的函數輸出的是一串日期,不符合前面所說的概念學習的目標是推斷一個布爾函數,實際上,這裡是給出一個日子,基於這一天的各種屬性,推斷Aldo是否會在這天去游泳。下面的表1描述了一系列日子的樣例,每個樣例表示為屬性的集合。屬性EnjoySport表示這一天Aldo是否樂於進行水上運動,也是需要預測的屬性;Sky、AirTemp、Humidity、Wind、Water、Forcast是已知的屬性,就是要基於這些屬性來推斷Aldo是否會在這天去海邊游泳。
表1 目標概念EnjoySport的正例和反例
Example Sky AirTemp Humidity Wind Water Forecast EnjoySport 1 Sunny Warm Normal Strong Warm Same Yes 2 Sunny Warm High Strong Warm Same Yes 3 Rainy Cold High Strong Warm Change No 4 Sunny Warm High Strong Cool Change Yes
接下來要確定假設目標函數)的形式,可以先考慮一個較為簡單的形式,即實例的各個屬性的合取式。可令每個假設為6個約束的向量,這些約束指定了Sky、AirTemp、Humidity、Wind、Water、Forcast的值。每個屬性可取值為:
如果某些實例x滿足假設h的所有約束,那麼h將x分類為正例(h(x)=1)。比如,為判定Aldo只在寒冷的和潮濕的日子裡進行隨上運動並與其他屬性無關),這樣的假設可以表示為下面的表達式:
<?, Cold, High, ?, ?, ?>