先瞎扯點別的。進入這個神聖的地方總需要些鞭策,阿西巴,我是被鞭策進來擺攤的程序猿。軟件工程老師說,寫程序,發博客,就來博客園。這是個號召力很強的口號。最近看網絡營銷 搜索引擎優化的書多一些,只能說王老師真的很厲害,至少在這一周因為這個作業的原因,我們學校的程序猿們對各大程序網站訪問猛然驟增,網站流量,點擊價值當然也是不菲,不過流量轉化率就不好說了,當然了,三年多了都這樣。再插一句,Google確實比百度做得好(其實只有中國用百度),SEO優化做的很到位,最近推出的“蜂鳥算法”也很棒,因為關鍵詞明顯好找麼。
好了,言歸正傳了。
題目主要是寫一個程序,分析一個文本文件(英文文章)中各個詞出現的頻率,並且把頻率最高的10個詞打印出來。
自從周四拿到題目以後,發現又要用到萬惡的數據結構了,不得不說這是我的短板,所有上周20號到22號一直在看數據結構的書,當然還有google,在看書的期間確定了這個小程序編碼的思路。
1.首先進行文本文件的讀取,將一個一個的單詞分離出來,並對單詞進行統計;
2.然後對單詞出現的次數進行排序;
3.最後把頻率最高的10個詞打印出來。
整理好思路以後,在23號的中午我終於准備拯救世界了,當然,我們宿捨的其他三位大神已經寫完。。好了,不提我傷心的事了~~
經過分析後,主要就是解決兩個算法的問題,
(1).查找問題:統計出所有出現的單詞以及他們出現的次數,這個方法挺多的,這次主要用了Hashtable,速度快,方便。
在
下面的代碼getAllWords和CountWord分別統計出了所有出現的單詞以及他們出現的次數。並且用控制台和文件輸出兩種方式輸出。
1.首先是計算單詞的次數。
這裡主要用到Hashtable 中各元素的虛擬子組存儲桶,每一存儲桶都與一個哈希代碼關聯,該哈希代碼是使用哈希函數生成的並基於該元素的鍵key.並且把分割的所有的單詞存放到一個名為的集合類中,最後用allWordInfos.Add(new WordInfo(key, (int)allWords[key]));在哈希表中添加了一個keyvalue鍵值對,為每一唯一鍵生成唯一哈希代碼的哈希函數使得搜索性能更佳。
CountWord( inputFilePath, Hashtable allWords = List<WordInfo> allWordInfos = List<WordInfo> ( key allWordInfos.Add( WordInfo(key, ( qucikSort(allWordInfos, , allWordInfos.Count - }
2.然後是統計出了所有出現的單詞
在分析過程中發現還需要特別注意' ', ',', ';', '.', '!', '"'這些符號,所以在讀取字節的時候用到了StreamReader的方法,主要是使其以一種特定的編碼從字節流中讀取字節。然後將讀出來的字符串做處理,分成一個個的單詞,然後就把所有英文單詞對象添加到 Hashtable 的存儲桶中,該存儲桶與匹配該對象的哈希代碼的哈希代碼關聯。在 Hashtable 內搜索一個值時,將為該值生成哈希代碼,並且搜索與該哈希代碼關聯的存儲桶。使得搜索效率變得很高。
Hashtable getAllWords( Hashtable allWords = Hashtable( (StreamReader sr = line = [] seperators = [] { , , , , , [] words = ((line = sr.ReadLine()) != line = words = (words != && words.Length > ( i = ; i < words.Length; i++ allWords[words[i]] = ()allWords[words[i]] + allWords.Add(words[i], }
這個程序第二個問題就是
(2)排序問題,在這裡用到了快速排序。
具體思路就是
1.分別設置low、hight指向序列的最左端、最右端;從序列中選一個進行排序(通常選最左端的值low指向的值),存入到value;
2.從hight端開始,查找比value小的,找到後講該值放入到low指向的存儲位中;同時將hight指向當前查到的值所在的位;
3.從low端開始,查找比value大的,找到後將該值放入到hight指向的存儲為中,同時low指向當前查到的值所在位;
4.若low位小於hight位,返回2步;否則,將tmp值存入到空出來的low+1指向的位置,退出,返回low所在的位置lposition。
5.以lposition為界,將序列分成兩部分,分別對兩部分進行排序。
找了圖,呵呵O(∩_∩)O~ 神一樣的圖~~
qucikSort(List<WordInfo> allWordInfos, low, (low >= pLow = pHigh = WordInfo value = (pLow < ((WordInfo.Compare(allWordInfos[pHigh], value) <= ) && pHigh > pHigh-- (WordInfo.Compare(allWordInfos[pHigh], value) > allWordInfos[pLow] = allWordInfos[pHigh] = pLow++ ((WordInfo.Compare(allWordInfos[pLow], value) >= ) && pHigh > pLow++ (WordInfo.Compare(allWordInfos[pLow], value) < allWordInfos[pHigh] = allWordInfos[pLow] = pHigh-- System.Diagnostics.Trace.Assert(pLow == qucikSort(allWordInfos, low, pLow - qucikSort(allWordInfos, pLow + }
此次快速排序可以將英文單詞出現的頻率全部從高到低排序出來存儲在哈希表的存儲桶裡。
小插曲:在解決快速排序算法的時候,要感謝我們宿捨的各位親們,編碼抓狂的時候有你們足以O(∩_∩)O~ @我編程我快樂 @韓亞華 @FakerWang
最後再解決一些小問題
(3)控制台輸出,文本輸入輸出,以及遍歷出頻率最高的10個詞打印出來等問題。
writeToFile(List<WordInfo> allWordInfos, (StreamWriter sw = StreamWriter(outputFilePath, i = sw.WriteLine( (WordInfo wi sw.WriteLine(, wi.Word, wi.Count); Console.WriteLine(, wi.Word, wi.Count); i++ (i == ) }
行了,差不多了,截圖紀念了。。
個人小項目總結:
最後總結下Hashtable的簡單操作吧
1.在哈希表中添加一個
2.在哈希表中去除某個
3.從哈希表中移除所有元素:
4.判斷哈希表是否包含特定鍵
這個小程序到這裡也就結束了,也就是24號到27號,水平有限沒辦法。不過還是有個好玩的小插曲的,做完以後才發現我的運行效率是宿捨最快的,我們一起運行了一個5兆的英文文章,最慢的要20秒,我的3秒搞定,阿西巴,這是開掛的節奏啊,好了,差不多睡了,晚安了,各位程序猿和程序媛們~~