一、引言
Java是一門適合於分布式計算環境、尤其是Internet程序設計的語言。這不僅僅在於java具有很好的安全性和可移植性,還在於java為Internet編程提供了豐富的網絡類庫的支持。利用這些網絡類庫,可以輕松編寫多種類型的網絡通信程序。然而由於某些限制,Java在傳輸多媒體信息方面的應用不是很廣,大部分的應用都集中在網絡上傳輸語音等音頻信號的方面。傳輸音頻信號應用方案一般有兩種,一是應用於數據廣播的多對一傳輸,例如音頻數據服務器向數個客戶端發送音頻數據信號,其最廣泛的應用則是某些網上的IP電話,大家經常可以看到不少這種提供在線IP電話服務的網站的客戶端都是使用的嵌在網頁上的Java Applet程序,用來實現撥號、通話等等基本的網絡電話功能; 第二種方案則是我們今天要涉及的部分,一對一的音頻信號數據的傳輸。這種方案的應用范圍更廣。大家都去過語音聊天室,大部分的語音聊天室的語音聊天功能的實現就是使用的Java技術,大家對這樣網頁的源代碼分析一下就可以發現這一點。
我曾開發一個項目,涉及使用java來實現在網絡上傳輸語音數據。開發中遇到不少問題,而且在互聯網上發現關於java語音傳輸的資料比較少,尋找了許多天,最終從一個開放源代碼的一個簡單的Answer Machine 演示程序中獲得了解決問題的方法。今天我就把我在點對點傳輸音頻信號方面的一些經驗拿出來,與大家共同探討這方面的問題。
二、存在的問題
在網絡上傳輸音頻的方面存在的問題主要可以歸納為以下幾點:
1 雙方之間的網絡連接
要進行頻數據的傳輸,首先就是要建立數據連結。常用的通訊協議中,TCP較可靠,所以用在不允許數據丟失的應用上。而UDP則較多應用於處理速度要求較快、數據傳輸可靠性要求不是很高的應用上,如數據廣播。通信協議的選擇取決於我們所要做的應用的類型。怎樣建立網絡連接,穩定的接收和發送音頻信號的數據流是關鍵。
2 音頻信號的采集以及回放
在進行音頻信號的采集中我們必須考慮到采樣率的問題,聲音信號的采樣率有8Khz、16Khz、32Khz、44Khz等,每種數據采樣慮產生的數據量都不一樣,越高的采樣率產生的數據量越大,所以我們要選擇合適的采樣率以適應網絡的帶寬。
3 音頻數字信號的編碼與解碼。
如果把直接采集到的音頻信號數據流在網絡上進行傳輸,它所占有的帶寬也是十分大的,以8Khz的采樣率采集14位的音頻數據那麼就有以下這樣的一個式子:
14 bit * 8000/second=112,000 bits/second or112kbps
從中我們可以看出以這樣的方式傳輸音頻數據,每秒需要向網絡中發送112kb的數據。所以。從節省帶寬的角度考慮,我們很有必要對這樣的數據進行壓縮。對多媒體信號的壓縮我們有許多可以選擇的格式,如mp2、mp3、GSM等等。同樣,我們這裡也存在一個對壓縮格式進行選擇的問題,考慮到音頻數據傳輸的及時性,對傳輸的音頻數據質量的要求,以及各種壓縮格式的壓縮比率以及進行壓縮和解壓縮所要耗費的系統資源等方面問題,選擇合適的壓縮格式就顯得尤為重要。
三、解決的方法
下面就針對前面提出的問題討論一下解決的辦法。
1 雙方之間的網絡連接
Java在這方面有其獨特的優勢,Java提供了豐富的網絡類庫的支持,可以輕松編寫多種類型的網絡通信程序。在我下面的例子中我就使用了TCP/IP協議,通過Java的Socket類進行編程。
2 音頻信號的采集和回放以及音頻數字信號的編碼與解碼
在解決這兩個問題的時候,在網上很幸運地通過一些文章的介紹,找到了Answer Machine 演示程序的源代碼(由of jsresources.org的Florian Bomers 和Matthias Pfisterer編寫,網址http://www.jsresources.org/apps/am.html)。在這個程序代碼中,有幾個解決我們問題所需要的類,而且作者將這些類封裝的很好,我們基本不需要做什麼改動,只需要屏蔽其中的調試信息的輸出就行了,更可貴的是它還封裝了幾種常見的音頻格式。其中的GSM格式(Global System for Mobile Telecommunications)就是我們下面例子中采用的壓縮格式,GSM格式可以將128kbps 的音頻數據流 (16bit通過8k Hz的音頻采樣) 壓縮為13kbps 的音頻數據流,非常適合語音信號的傳送,所以可謂是一石二鳥。
我分析過這幾個類的源代碼,不得不佩服它的作者,每個類的源代碼都很精煉,大家可以自己分析一下。好了下面就給大家講講這幾個類,並且將它們用到的Java Sound API中的類和函數等一並做個簡單介紹,讓大家對Java Sound API中常用的類也有個大致的了解。由於Java Sound API中的類比較多。限於篇幅無法對所有用到的類做詳盡的解釋,以下內容只是簡單提及了各個類的用途和使用規范,有關Java Sound API中類的具體介紹請大家訪問這裡http://java.sun.com/j2se/1.4.2/docs/api/, 查找javax.sound.sampled的相關內容。
以下的提到幾個文件是從Answer Machine 演示程序的源代碼中提取出來的,由於是開放源代碼的程序,大家在使用的時候請注意相關的公共協議。
① AMAudioFormat類(封裝在AMAudioFormat.java文件中)
AMAudioFormat類封裝了CD、FM、TELEPHONE、GSM這四種質量的音頻格式的參數,使用起來也非常簡單,這樣我們在使用Java Sound API時就不用自己去寫那些復雜的代碼了,但為了明白Java Sound API的原理,我們需要對它的代碼做一下分析。它使用了Java Sound API中的AudioFormat這個類,這個類非常重要,在Java中對任何音頻數據的使用都要實現通過它指定所需要使用的音頻格式,AudioFormat類有一個嵌套的類AudioFormat.Encoding,實際上大部分對AudioFormat類的使用都是使用的這個嵌套的類。
AMAudioFormat類的重要方法:
名稱:getLineAudioFormat
調用格式:getLineAudioFormat(整型音頻格式代號)
返回值: 根據傳遞音頻格式代號生成的AudioFormat對象。
說道這裡大家可能要問了,那麼通過Java Sound API可以直接使用GSM格式嗎?答案是比較復雜,但同樣有解決的辦法,作者在這裡使用了另外的開源程序的類庫-tritonus的GSM編碼解碼庫。大家需要在這裡www.tritonus.org/plugins.html下載tritonous_share.jar和tritonus_gsm.jar兩個文件,並在AMAudioFormat類中引用,這樣就完成了GSM格式的設置。需要告訴大家的是在對AMAudioFormat.java這個類進行編譯後,我們的程序運行的時候就可以不需要tritonous_share.jar和tritonus_gsm.jar這兩個文件的支持了。
② AudioCapture類(封裝在AudioCapture.java文件中)
AudioCapture類封裝了從音頻硬件捕獲音頻數據並自動編碼為GSM音頻壓縮數據的過程,並且通過它的getAudioInputStream()方法提供給我們一個音頻數據輸入流,我們就可以直接將這個流發送到網絡中。
AudioCapture 類的重要方法:
名稱:getAudioInputStream
調用格式:getAudioInputStream()
返回值:AudioInputStream對象
AudioCapture 類使用了Java Sound API中的AudioInputStream、AudioFormat、AudioSystem這幾個類和TargetDataLine、LineListener接口。除了AudioFormat類我再簡單介紹一下其他的類:
AudioInputStream 類是帶有特殊音頻格式和長度的InputStream類,它有兩個構造方法,分別是AudioInputStream(InputStream stream, AudioFormat format,long length)和AudioInputStream(TargetData -Line line)。
TargetDataLine 接口是DataLine接口的一種,通過它就可以直接從音頻硬件獲取數據了,它有幾個常用的方法,分別是:open(AudioFormat format)、void open(AudioFormat format, int bufferSize)、int read(byte[] b, int off, int len)。
AudioSystem 類是Java標准音頻系統的入口點,在AudioSystem 類中使用他的getLine() 方法創建TargetDataLine對象。
LineListener接口用來對線路狀態改變的時間進行監聽,他的重要的方法是update(LineEvent event)方法。
③ AudioPlayStream類(封裝在AudioPlayStream.java文件中)
AudioPlayStream類與AudioCapture類剛好相反,它封裝了GSM壓縮音頻數據的解碼和音頻信號的回放過程,提供給我們一個音頻信號輸出流。AudioCapture類用到的Java Sound API中的類它也基本都用到了,只是它使用了SourceDataLine接口而不是TargetDataLine接口
④ Debug類(封裝在Debug.java文件中)
Debug類主要用來在調試時輸出訊息,代碼很少,後來我把其中輸出信息的語句都屏蔽了,對程序運行沒有影響。
為了方便使用以上的幾個類,我們需要對它們進行編譯和打包,編譯時需要設置相關的編譯環境,以下是我們需要用到的命令行
set CLASSPATH=%CLASSPATH%;.;tritonus_gsm.jar;tritonus_share.jar
javac am\*.java am\audio\*.java
jar cmf packaging\manifest.mf am.jar am\*.class
am\audio\*.class
說明一下,我將以上提到的Java源碼文件放在了am目錄下,編譯之後可以得到一個8k的am.jar文件,我們下一步所需要做的就是在我們的程序中引用這個包。
四、實例介紹
有了以上的基本的介紹,我就可以通過對我寫的一個極為簡單的語音對講軟件代碼的解釋讓大家更清楚地了解一下這幾個模塊的具體使用方法,大家可以從中獲得開發具有諸如網絡電話、自動應答等功能的軟件的類似方法,用於語音數據的傳輸。
程序的結構:
整個程序分三層,作用分別如下:
. 頂層: 用戶界面
. 中間層: 控制層
. 底層: 傳輸層
程序有兩個主要的類: (表)
類名 描述 CallLink 網絡傳輸層,用於接收或發送音頻數據。 VoiceSender 作為第二個啟動的線程提供從音頻硬件捕獲並編碼好的數據給網絡傳輸層。程序的主類jphone使用了Runnable和ActionListener接口,主類除了基本的幾個方法之外,還具有方法initAudioHardware()、ShowMSG、startPhone分別用於初始化AudioCapture類與AudioPlayStream類、顯示程序狀態和開始程序。主類jphone具有兩個子類VoiceSender和CallLink。
子類VoiceSender同樣使用了Runnable接口,它在程序中作為第二個啟動的線程負責發送捕獲到的音頻數據。CallLink子類就是負責建立scoket連接,並且負責接收或發送網絡數據、監聽網絡連接等功能的實現。它具有主要的方法是getInputStream()、getOutputStream()、listen()、open()、close()等。
為了讓大家更清楚的了解程序的結構請大家看下面的類圖。
程序的基本工作流程:
當程序啟動時首先執行建立當前主類的實例,當按下呼叫按鈕的時候執行startPhone()方法,startPhone()方法通過調用initAudioHardware()方法建立AudioCapture對象和AudioPlayStream對象的實例PhoneMIC和PhoneSPK, 緊接著在建立CallLink子類的實例curCallLink來與具有目標IP地址的計算機進行scoket連接後,startPhone()方法又將子類VoiceSender作為secondThread線程啟動,然後又調用run()方法。 run()方法通過已經建立的CallLink子類的實例curCallLink監聽網絡上的數據(也就是等待別人的呼叫),一旦有音頻數據到來curCallLink 實例就為AudioPlayStream 對象PhoneSPK 提供網絡傳來的音頻數據,而PhoneSPK在一個循環中不斷的將音頻數據轉換為音頻信號,完成類似電話聽筒的功能。
子類VoiceSender 就作為第二線程啟動的時候,startPhone() 方法傳遞給它的參數是實例化的CallLink 子類curCallLink , 子類VoiceSender 通過實例化的AudioCapture 對象PhoneMIC 將音頻信號壓縮成GSM數據,並通過curCallLink 將音頻數據發送到具有目標IP 地址的計算機上,完成類似電話受話器的功能。
在這裡實例化的CallLink 子類curCallLink 就相當於兩個電話之間的電話線,這樣通過我以上的解釋大家對程序的原理就有一個大概的了解了吧。
其中的音頻數據發送線程和音頻數據接收線程是同步的,不過考慮到網絡的因素,可能在聲音的傳輸上有一些延遲,不過由於延遲比較小對及時聽到對方的話語影響不大。
編寫代碼摘要:
在使用AudioCapture 類和AudioPlayStream 類的方法之前需要知道怎樣初始化這兩個類。在聲明AudioCapture 對象的時候需要傳遞給它一個靜態的整型值用於表達將音頻信號壓縮的方式,這個靜態的整型常量可以是AMAudioFormat 類的以下四個值之一: FORMAT_CODE_CD 、FORMAT_CODE_FM 、FORMAT
_CODE_TELEPHONE 、FORMAT_CODE_GSM 。所以聲明AudioCapture 對象就要用一下的形式:
private AudioCapture PhoneMIC null;
PhoneMIC new AudioCapture(AMAudioFormat.
FORMAT_CODE_GSM);
而聲明AudioPlayStream 對象則不同,我們在初始化它的時候需要傳遞給它一個AudioFormat 對象,用於通知它我們所要播放音頻的格式,這個AudioFormat 對象可以通過AMAudioFormat 類的getLineAudioFormat(格式參數值)方法獲得,其中格式參數的取值和上面提到過的AMAudioFormat 的四個值相同,所以聲明AudioPlayStream 對象就要用以下的形式:
private AudioPlayStream PhoneSPK null;
AudioFormat format null;
format AMAudioFormat.getLineAudioFormat
(AMAudioFormat.FORMAT_CODE_GSM);
PhoneSPK new AudioPlayStream(format);
在這之後就可以使用AudioCapture 和AudioPlayStream 對象的open() 方法打開音頻捕獲和音頻回放通道完成它們的初始化了。---www.bianceng.cn。如以下的形式:
PhoneMIC.open();
PhoneSPK.open();
初始化完成之後要使AudioPlayStream 對象播放聲音還需要以下過程,首先建立一個緩沖區(字節數組)用於存放從網絡傳來的音頻數據流,然後執行AudioPlayStream 對象的start() 方法使AudioPlayStream
對象開始聲音的回放,這時執行一個while 循環,在循環中將音頻流數據寫入緩沖區,再使用AudioPlayStream對象的write()方法將緩沖區的數據還原成語音信號然後播放出來。如下面的例子:
boolean complete false;
byte[] gsmdata new byte[bufSize];
int numBytesRead 0;
......
PhoneSPK.start();
......
complete false;
while((!Thread.currentThread().interrupted()) )
{
try
{
numBytesReadplaybackInputStream.read(gsmdata);
if(numBytesRead == -1)
{
complete=true;
break;
}
PhoneSPK.write(gsmdata, 0, numBytesRead);
}
catch (IOException e)
{
System.exit(1);
}
}
其中complete 的值用於標志終止聲音播放的異常原因。
類似的,初始化完成之後要使AudioCapture 對象捕獲和壓縮聲音數據還需要其他的操作,首先聲明一個InputStream 對象,賦其值為AudioCapture 對象的getAudioInputStream() 方法的返回值,執行
AudioCapture 對象的start() 方法,然後在建立一個循環,將通過InputStream 的read() 方法得到的數據發送到網絡上。例如以下代碼:
InputStream myIStream null;
myIStream PhoneMIC.getAudioInputStream();
......
while((!Thread.currentThread().interrupted()))
b = myIStream.read(compressedVoice,0, bufSize);
sendStream.write(compressedVoice,0,b);
......
通過使用CallLink 的幾個方法,我們可以方便的傳輸和接收音頻數據流。以下是它的代碼:
class CallLink
//使用套接字進行連接
String ipAddr null;
Socket outSock = null;
ServerSocket inServSock null;
Socket inSock null;
CallLink(String inIP)
ipAddr inIP;
void open() throws IOException, UnknownHostException
{//打開網路連接
if (ipAddr != null)
outSock=new Socket(ipAddr,TALK_PORT);
}
void listen() throws IOException
{// 監聽,等候呼叫
inServSock new ServerSocket(TALK_PORT);
inSock inServSock.accept();
}
public InputStream getInputStream()throws IOException
{//返回音頻數據輸入流
if (inSock != null)
return inSock.getInputStream();
else
return null;
}
publicOutputStreamgetOutputStream()throwsIOException
{//返回音頻數據輸出流
if (outSock != null)
return outSock.getOutputStream();
else
return null;
}
void close() throws IOException
{//關閉網絡連接
inSock.close();
outSock.close();
}
程序的代碼總體有366 行,限於篇幅,這裡就不一一列舉了。
編譯以及程序的使用方法:
運行和編譯本程序需要加上額外的環境參數,為了方便使用可以建立以下內容的批處理文件:(假設程序所需要的包均在程序所在目錄下的lib 文件夾中)
用於編譯的批處理程序c.bat 的內容
javac -classpath .;lib\am.jar jphone.java
用於運行的批處理程序r.bat 的內容
java -classpath .;lib\am.jar jphone
啟動時在A 計算機的IP 地址框內輸入要進行連接的計算機B 的IP 地址,在計算機B 的IP 地址框內輸入要進行連接的計算機A 的IP 地址,讓後分別點擊“撥出電話”按鈕就可以進行連接了。當然別忘了接上麥克風和打開音箱電源,呵呵。
提醒大家,這裡的IP 地址欄裡預先存在的地址是127.0.0.1,也就是說,程序也可以和自己進行連接,點擊“撥出電話”按鈕,等8 秒左右敲敲你的麥克風,聽到沒有,是不是也有“嘣、嘣、嘣”的聲音?