VoiceXML背景簡介
自從Web誕生以來,Web的每一步發(fā)展、技術(shù)成熟和應(yīng)用領(lǐng)域的拓展,都離不開W3C(World Wide Web Consortium,W3C理事會(huì)或萬維網(wǎng)聯(lián)盟)[1]的努力。W3C于1994年10月在麻省理工學(xué)院計(jì)算機(jī)科學(xué)w實(shí)驗(yàn)室成立,創(chuàng)建者是萬維網(wǎng)的發(fā)明者Tim Berners-Lee。W3C組織是對(duì)網(wǎng)絡(luò)標(biāo)準(zhǔn)制定的一個(gè)非贏利組織,像HTML、XHTML、CSS、XML的標(biāo)準(zhǔn)就是由W3C來制定。W3C會(huì)員(大約500名)包括生產(chǎn)技術(shù)產(chǎn)品及服務(wù)的廠商、內(nèi)容供應(yīng)商、團(tuán)體用戶、研究實(shí)驗(yàn)室、標(biāo)準(zhǔn)制定機(jī)構(gòu)和政府部門,一起協(xié)同工作,致力在萬維網(wǎng)發(fā)展方向上達(dá)成共識(shí)。W3C是專門致力于創(chuàng)建Web相關(guān)技術(shù)標(biāo)準(zhǔn)并促進(jìn)Web向更深、更廣發(fā)展的國際組織。
創(chuàng)建伊始,W3C就開始以引領(lǐng)Web技術(shù)的發(fā)展和促進(jìn)為己任。其宗旨概括為7點(diǎn):推進(jìn)Web的普及、解決語義網(wǎng)絡(luò)(Semantic Web)問題、Web應(yīng)該是可信任的網(wǎng)絡(luò)、協(xié)同工作、可持續(xù)發(fā)展問題、權(quán)利的分散問題和支持多媒體??傊?,W3C以開發(fā)“Web事實(shí)標(biāo)準(zhǔn)”的各種技術(shù)規(guī)范作為其核心任務(wù),目前已開發(fā)了超過50個(gè)技術(shù)規(guī)范。這些技術(shù)規(guī)范中大部分是由各個(gè)功能組開發(fā)的各種功能性規(guī)范,同時(shí)也包括WWW的核心體系結(jié)構(gòu)。W3C的這些成果基本上已由企業(yè)和研究機(jī)構(gòu)進(jìn)行了實(shí)現(xiàn)。
W3C的已有工作成果和工作框架如圖1所示,該圖展示了萬維網(wǎng)的基礎(chǔ)框架及W3C的工作重點(diǎn)。W3C技術(shù)架構(gòu)圖描繪了一個(gè)兩層的模型:萬維網(wǎng)體系結(jié)構(gòu)(被標(biāo)注為“One Web”)建立在互聯(lián)網(wǎng)(Internet)體系結(jié)構(gòu)之上。圖中豐富的Web層顯示了W3C關(guān)心的領(lǐng)域和發(fā)展的技術(shù)。在頂層包含著六個(gè)框,分別與W3C主要的活動(dòng)組相對(duì)應(yīng):Web Applications、Mobile、Voice、Web Services、Semantic Web和Privacy Security。其中的“Voice”框中所羅列的VoiceXML、SRGS、SSML、CCXML和EMMA則標(biāo)示著語音領(lǐng)域的重要工作。
VoiceXML[2]最初由VoiceXML論壇[3]創(chuàng)建,現(xiàn)由W3C主持,是W3C開發(fā)的基于XML的語言,用來創(chuàng)建為電話應(yīng)用刻畫合成語音、數(shù)字音頻、話音與DTMF鍵入識(shí)別和音頻錄制的語音會(huì)話。其宗旨在于為用戶定義一種新方法,運(yùn)用基于Web的服務(wù)通過口頭指令和DTMF鍵盤實(shí)現(xiàn)交流,通過事先記錄的話音、合成話音或音樂流獲取信息。為了迎接這種挑戰(zhàn),W3C定義了一套在設(shè)計(jì)上與網(wǎng)頁編寫標(biāo)準(zhǔn)相類似的標(biāo)記語言,以規(guī)范應(yīng)用程序的語音問題,例如用戶對(duì)話流、自動(dòng)語音識(shí)別與相關(guān)語法、語音合成與呼叫控制等。它將傳統(tǒng)的專用與密閉式IVR系統(tǒng)提升成開放式可編程體系結(jié)構(gòu),并且通過提供類似于HTML表單或CGI腳本的可編程會(huì)話把Web技術(shù)的優(yōu)點(diǎn)延伸到電話用戶。
為什么要用VoiceXML?
VoiceXML的推出給電話語音系統(tǒng)帶來全新的應(yīng)用和開發(fā)概念,使傳統(tǒng)的CTI技術(shù)從繁瑣、封閉的模式中走了出來,使廣大的語音系統(tǒng)開發(fā)人員可以用極其簡單的方法實(shí)現(xiàn)復(fù)雜系統(tǒng)的開發(fā)。
完全替代傳統(tǒng)CTI:傳統(tǒng)的電話語音系統(tǒng)典型的工作方式是接受用戶的按鍵輸入和語音文件播放、跟據(jù)用戶的需求為用戶提供相應(yīng)服務(wù)?;赩oiceXML開發(fā)的電話語音系統(tǒng)完全可以替代傳統(tǒng)CTI系統(tǒng)所能提供的功能。
語音識(shí)別功能:基于VoiceXML開發(fā)的電話語音系統(tǒng)除了接受用戶的按鍵輸入之外,還可以接受用戶的語音輸入。系統(tǒng)通過語音識(shí)別功能實(shí)現(xiàn)對(duì)用戶輸入語音到文本的轉(zhuǎn)換。這對(duì)于許多僅用按鍵輸入方式而無法解決或解決起來很繁瑣的應(yīng)用領(lǐng)域很有實(shí)用意義。
語音合成功能:基于VoiceXML開發(fā)的電話語音系統(tǒng)除了能夠播放預(yù)先錄制的語音文件之外,還可以將系統(tǒng)中的文本轉(zhuǎn)換成語音的方式播放給用戶。這對(duì)于那些需要播報(bào)即時(shí)消息和可變信息等的應(yīng)用領(lǐng)域很有實(shí)用價(jià)值。
與互聯(lián)網(wǎng)聯(lián)結(jié):長期以來,公用電話網(wǎng)和互聯(lián)網(wǎng)是分離的。隨著互聯(lián)網(wǎng)技術(shù)的迅速發(fā)展,互聯(lián)網(wǎng)信息與日俱增,以及互聯(lián)網(wǎng)相關(guān)服務(wù)的日新月異,將互聯(lián)網(wǎng)與公用電話網(wǎng)整合為一體,使廣大的電話用戶也能享受到互聯(lián)網(wǎng)提供的信息和服務(wù)顯得越來越有吸引力。VoiceXML使公用電話網(wǎng)與互聯(lián)網(wǎng)有機(jī)地結(jié)合,使兩網(wǎng)的信息能夠相互流動(dòng)。例如,電話語音留言可以通過互聯(lián)網(wǎng)以電子郵件的方式傳送到目的地;互聯(lián)網(wǎng)上的新聞可以通過電話播放給用戶等。
靈活的數(shù)據(jù)庫接口:許多電話語音應(yīng)用系統(tǒng)離不開數(shù)據(jù)庫訪問。VoiceXM通過腳本方式提供靈活的數(shù)據(jù)庫接口,使得應(yīng)用系統(tǒng)可以方便地訪問各種數(shù)據(jù)庫,如:Microsoft SQL Server、Oracle、Sybase、Microsoft Access、MySQL等。
簡化開發(fā)過程:用VoiceXML將電話語音應(yīng)用系統(tǒng)開發(fā)人員從繁瑣的編碼細(xì)節(jié)中解脫了出來。開發(fā)人員不需要了解相關(guān)軟件(如語音識(shí)別和語音合成)和硬件(如語音卡)API的編程接口,只需要把精力放在應(yīng)用領(lǐng)域的業(yè)務(wù)流程上。開發(fā)過程輕松快捷、開發(fā)周期大大縮短(7-10倍)。VoiceXML使開發(fā)人員得以用簡單的方法實(shí)現(xiàn)復(fù)雜的工作。
除此之外,基于VoiceXML開發(fā)的語音應(yīng)用系統(tǒng)具有很高的系統(tǒng)可擴(kuò)展性、可維護(hù)性、可移植性、可重用性和開放性。
圖1. W3C技術(shù)架構(gòu)圖
VoiceXML論壇認(rèn)證計(jì)劃
VoiceXML論壇已經(jīng)開展了對(duì)VoiceXML應(yīng)用開發(fā)人員和平臺(tái)認(rèn)證計(jì)劃,前者主要是檢驗(yàn)VoiceXML的開發(fā)技能,而后者則是就廠商所實(shí)現(xiàn)的VoiceXML平臺(tái)對(duì)W3C VoiceXML 2.0規(guī)范的遵從進(jìn)行認(rèn)證,包括以下內(nèi)容:
- 平臺(tái)、語音服務(wù)提供商、工具和應(yīng)用之間的互操作性
- 減少消費(fèi)者對(duì)語言支持和兼容性的混淆
- 整個(gè)業(yè)界適用的公共測(cè)試套件
- 經(jīng)過認(rèn)證的第三方獨(dú)立測(cè)試
VoiceXML平臺(tái)認(rèn)證計(jì)劃[5]由測(cè)試套件、測(cè)試控制和獨(dú)立測(cè)試項(xiàng)目組成,目的是認(rèn)證所實(shí)現(xiàn)的平臺(tái)能通過VoiceXML測(cè)試套件所需的所有測(cè)試。該測(cè)試套件基于W3C VoiceXML 2.0規(guī)范[6]和W3C VoiceXML 2.0執(zhí)行報(bào)告測(cè)試套件[7]。
測(cè)試項(xiàng)目的主要目的是通過提供一種測(cè)試一致性和互操作性的程序,來促使并認(rèn)可廠商和用戶充分利用VoiceXML論壇所創(chuàng)建的有價(jià)值的標(biāo)準(zhǔn)。帶有“通過VoiceXML認(rèn)證”(VoiceXML Certified)字樣的應(yīng)用是指的滿足一致性需求,并且通過VoiceXML認(rèn)證計(jì)劃對(duì)其兼容性進(jìn)行了認(rèn)證的應(yīng)用。整個(gè)認(rèn)證計(jì)劃擁有一套嚴(yán)格而細(xì)致的流程,如圖2所示。
具體的認(rèn)證政策和認(rèn)證過程請(qǐng)參閱VoiceXML論壇提供的官方資料:
- VoiceXML認(rèn)證政策:http://www.voicexml.org/platform_certification/VoiceXML_
CertificationPolicy_CC001_20030930_v10.pdf
- VoiceXML認(rèn)證計(jì)劃指南:http://www.voicexml.org/platform_certification/VoiceXML_
CertificationProgramGuide_CC002_20030930_v10.pdf
VoiceXML論壇官方認(rèn)證平臺(tái)
下面列出已經(jīng)通過了針對(duì)VoiceXML 2.0規(guī)范和VoiceXML Forum Test Suite v1.0測(cè)試套件的VoiceXML論壇平臺(tái)認(rèn)證計(jì)劃的一些代表廠商,如表1所示。完整的列表請(qǐng)參閱VoiceXML論壇網(wǎng)站:http://www.voicexml.org/platform_certification/certified_platforms.html。
表1. 通過VoiceXML平臺(tái)認(rèn)證計(jì)劃的代表廠商(按字母順序排列)
廠商 | 認(rèn)證測(cè)試報(bào)告(CTR) | 產(chǎn)品名稱 | 產(chǎn)品版本 | 操作系統(tǒng) | 電話接口 | ASR 引擎 | TTS引擎 | 認(rèn)證日期 |
Aspect Software | CTR | Aspect Customer- Selfservice |
7.2 | Windows 2003 | T1 (通過PSTN進(jìn)行遠(yuǎn)端測(cè)試) | SpeechWorks OSR3.0.9 | SpeechWorks Speechify 3.0.1 | 2006年6月 |
Avaya, Inc. | CTR | Avaya Voice Portal | 3 | Red Hat Enterprise Linux ES release 3 | SIP | SpeechWorks OSR3.0 | SpeechWorks Speechify 3.0.1 | 2006年7月 |
Avaya, Inc. | CTR | Avaya Interactive Response | 1.3 | Solaris | 信道化T1 (Robbed-bit) |
SpeechWorks OSR3.0 | SpeechWorks Speechify 3.0.1 |
2005年5月 |