盡管StreamTokenizer並不是從InputStream或OutputStream衍生的,但它只隨同InputStream工作,所以十分恰當地包括在庫的IO部分中。
StreamTokenizer類用於將任何InputStream分割為一系列“記號”(Token)。這些記號實際是一些斷續的文本塊,中間用我們選擇的任何東西分隔。例如,我們的記號可以是單詞,中間用空白(空格)以及標點符號分隔。
下面是一個簡單的程序,用於計算各個單詞在文本文件中重復出現的次數:
//: SortedWordCount.java // Counts words in a file, outputs // results in sorted form. import java.io.*; import java.util.*; import c08.*; // Contains StrSortVector class Counter { private int i = 1; int read() { return i; } void increment() { i++; } } public class SortedWordCount { private FileInputStream file; private StreamTokenizer st; private Hashtable counts = new Hashtable(); SortedWordCount(String filename) throws FileNotFoundException { try { file = new FileInputStream(filename); st = new StreamTokenizer(file); st.ordinaryChar('.'); st.ordinaryChar('-'); } catch(FileNotFoundException e) { System.out.println( "Could not open " + filename); throw e; } } void cleanup() { try { file.close(); } catch(IOException e) { System.out.println( "file.close() unsuccessful"); } } void countWords() { try { while(st.nextToken() != StreamTokenizer.TT_EOF) { String s; switch(st.ttype) { case StreamTokenizer.TT_EOL: s = new String("EOL"); break; case StreamTokenizer.TT_NUMBER: s = Double.toString(st.nval); break; case StreamTokenizer.TT_WORD: s = st.sval; // Already a String break; default: // single character in ttype s = String.valueOf((char)st.ttype); } if(counts.containsKey(s)) ((Counter)counts.get(s)).increment(); else counts.put(s, new Counter()); } } catch(IOException e) { System.out.println( "st.nextToken() unsuccessful"); } } Enumeration values() { return counts.elements(); } Enumeration keys() { return counts.keys(); } Counter getCounter(String s) { return (Counter)counts.get(s); } Enumeration sortedKeys() { Enumeration e = counts.keys(); StrSortVector sv = new StrSortVector(); while(e.hasMoreElements()) sv.addElement((String)e.nextElement()); // This call forces a sort: return sv.elements(); } public static void main(String[] args) { try { SortedWordCount wc = new SortedWordCount(args[0]); wc.countWords(); Enumeration keys = wc.sortedKeys(); while(keys.hasMoreElements()) { String key = (String)keys.nextElement(); System.out.println(key + ": " + wc.getCounter(key).read()); } wc.cleanup(); } catch(Exception e) { e.printStackTrace(); } } } ///:~
最好將結果按排序格式輸出,但由於Java 1.0和Java 1.1都沒有提供任何排序方法,所以必須由自己動手。這個目標可用一個StrSortVector方便地達成(創建於第8章,屬於那一章創建的軟件包的一部分。記住本書所有子目錄的起始目錄都必須位於類路徑中,否則程序將不能正確地編譯)。
為打開文件,使用了一個FileInputStream。而且為了將文件轉換成單詞,從FileInputStream中創建了一個StreamTokenizer。在StreamTokenizer中,存在一個默認的分隔符列表,我們可用一系列方法加入更多的分隔符。在這裡,我們用ordinaryChar()指出“該字符沒有特別重要的意義”,所以解析器不會把它當作自己創建的任何單詞的一部分。例如,st.ordinaryChar('.')表示小數點不會成為解析出來的單詞的一部分。在與Java配套提供的聯機文檔中,可以找到更多的相關信息。
在countWords()中,每次從數據流中取出一個記號,而ttype信息的作用是判斷對每個記號采取什麼操作——因為記號可能代表一個行尾、一個數字、一個字串或者一個字符。
找到一個記號後,會查詢Hashtable counts,核實其中是否已經以“鍵”(Key)的形式包含了一個記號。若答案是肯定的,對應的Counter(計數器)對象就會增值,指出已找到該單詞的另一個實例。若答案為否,則新建一個Counter——因為Counter構建器會將它的值初始化為1,正是我們計算單詞數量時的要求。
SortedWordCount並不屬於Hashtable(散列表)的一種類型,所以它不會繼承。它執行的一種特定類型的操作,所以盡管keys()和values()方法都必須重新揭示出來,但仍不表示應使用那個繼承,因為大量Hashtable方法在這裡都是不適當的。除此以外,對於另一些方法來說(比如getCounter()——用於獲得一個特定字串的計數器;又如sortedKeys()——用於產生一個枚舉),它們最終都改變了SortedWordCount接口的形式。
在main()內,我們用SortedWordCount打開和計算文件中的單詞數量——總共只用了兩行代碼。隨後,我們為一個排好序的鍵(單詞)列表提取出一個枚舉。並用它獲得每個鍵以及相關的Count(計數)。注意必須調用cleanup(),否則文件不能正常關閉。
采用了StreamTokenizer的第二個例子將在第17章提供。