微軟AGENT簡介
微軟Agent API能夠提供卡通角色的顯示,另外,它還可以支持語音識別,因此應用軟件可以對語音命令作出反應,而卡通角色可以通過合成的語音、錄制好的音頻信號或文字對命令作出反應。
使用微軟AGENT的要求
要使用該技術,我們必須有下面的組件:
·微軟Agent核心組件
·微軟Agent中的卡通角色━━GenIE、Merlin、Robby和Peedy
·微軟Speech API 4.0a運行時間庫
·微軟語音識別引擎
·Lernout和HauspIE文字-語音引擎
上面的所有這些組件都可以從http://microsoft.com/products/msagent/downloads.htm下載。
語音技術簡介
文字-語音轉換指的是計算機將文字信息轉換為合成語音進行輸出,語音識別是指計算機能夠識別出說話者所說的話,接受說話者的命令和輸入的數據。
語音識別和文字-語音轉換都需要用到相關的引擎,幾乎所有的語音識別引擎都是將輸入的語音數據轉換為與特定引擎相關的音素,然後這些音素被轉換為應用程序能夠使用的文字。
文本-語音轉換的二種方式:
1、合成文本-語音轉換
2、連續文本-語音轉換
合成文本-語音轉換方式:
在合成的發音方式中,引擎處理每個單詞,並產生該單詞的發音音素,然後這些音素被轉入一個復雜的算法中,模仿人類的發聲方式,生成語音。
連續文本-語音轉換方式:
在連續文本-語音轉換方式中,引擎對文本信息進行處理,從一個預先錄制好的語音庫中找出句子、單詞和短語,在這種方式中,生成的語音是連續的。
語音應用程序的編程接口
微軟語音應用程序編程接口在Win32(Windows 95、Windows NT)下使用了OLE組件對象模式(COM)架構,微軟的Agent架構在合成語音輸出中使用了微軟語音應用程序編程接口(SAPI),還使用SAPI支持語音輸入(語音識別SR或文本-語音轉換TTS)。微軟的Agent定義了讓應用程序訪問其服務的接口,使得應用程序能夠控制角色動畫、支持用戶輸入事件,指定輸出方式。
角色窗口
在微軟Agent應用程序中,卡通角色是在它們各自的窗口中被顯示的,這些窗口總是出現在Z軸順序的最頂端。用戶可以通過鼠標左鍵拖動角色移動角色所在的窗口,角色的圖像隨著指針而移動。
說話汽球圈
除了語音輸出外,動畫角色還支持以卡通類型說話汽球圈形式的文字字幕,角色說話時,所說的文字就出現在汽球圈兒中,當說完時,汽球圈也就不見了。