????杜克進(jìn)入一種入魔一樣的研究狀態(tài),他現(xiàn)的時(shí)間非常寶貴,完全沒(méi)有多少可以浪費(fèi)的空間,所以吃完后就迅速回到自己那個(gè)小小的家里。坐24小時(shí)不間斷下載的電腦面前,他瘋狂下載各種語(yǔ)音片段資料,交給克里進(jìn)行語(yǔ)音語(yǔ)義分析及基礎(chǔ)知識(shí)庫(kù)的建設(shè)。
????自從搬到出租屋后杜克已經(jīng)瘋狂網(wǎng)上下載了數(shù)千各種環(huán)境和語(yǔ)境下的語(yǔ)音片段,從電視電臺(tái)聞片段到影視劇對(duì)白、動(dòng)物世界或是國(guó)家地理頻道的科教解說(shuō)片段,以及各種偷拍、自拍、偽自拍生活現(xiàn)場(chǎng)片段,感謝酷溜土豆、yutub,還有bt和電驢,讓杜克知道原來(lái)世界還有如此豐富多彩聲音。
????杜克收集的如此眾多聲音材對(duì)于克里處理能力來(lái)說(shuō)卻仿佛是滄海一粟,往往剛剛輸入進(jìn)去,克里就運(yùn)算解析出來(lái)該片段的語(yǔ)音語(yǔ)義特征,從而為語(yǔ)音識(shí)別的語(yǔ)音語(yǔ)義特征庫(kù)增加一份的標(biāo)本元素,越是不同的語(yǔ)音片段越有價(jià)值。
????這就像一個(gè)人生活過(guò)的地方越多,就越能聽(tīng)出不同地方口音是一個(gè)道理,每個(gè)聲音都是有一些特殊特征和普遍特征構(gòu)成的,現(xiàn)的語(yǔ)音識(shí)別軟件對(duì)于標(biāo)準(zhǔn)音的識(shí)別率其實(shí)已經(jīng)很不錯(cuò)了。
????如ib很多年前就推出語(yǔ)音識(shí)別輸入系統(tǒng)iai,安靜環(huán)境和標(biāo)準(zhǔn)音情況下軟件識(shí)別率可以達(dá)到實(shí)用級(jí)別。
????可惜實(shí)際運(yùn)用環(huán)境不會(huì)那么理想,而是就像杜克寢室4個(gè)人一樣千差萬(wàn)別,雖然大家說(shuō)的都是國(guó)話,但是四個(gè)來(lái)自不同地方的人的口音卻大相徑庭,剛剛住一起的時(shí)候四個(gè)人溝通經(jīng)常有些問(wèn)題,但是大家很快就適應(yīng)下來(lái)。
????人腦強(qiáng)悍的學(xué)習(xí)能力絕對(duì)不是當(dāng)今電腦所能夠比擬的。而現(xiàn)有的語(yǔ)音識(shí)別軟件卻沒(méi)有這么強(qiáng)悍的學(xué)習(xí)適應(yīng)能力,也就是說(shuō)它沒(méi)有用來(lái)識(shí)別這種語(yǔ)音特征差異的知識(shí)庫(kù),當(dāng)然就無(wú)法將一些未知類型的音很好的識(shí)別出來(lái)。
????不同口音的識(shí)別和環(huán)境噪音的排除是語(yǔ)音識(shí)別倆個(gè)難題,要解決這些問(wèn)題需要大量的第一手語(yǔ)音資料片段來(lái)建立一個(gè)海量的語(yǔ)音特征知識(shí)庫(kù),或者是開(kāi)出像克里這般高智能的超級(jí)電腦。
????克里根據(jù)杜克下載的理論資料,結(jié)合各種語(yǔ)音片段分析,不斷對(duì)語(yǔ)音識(shí)別基礎(chǔ)算法進(jìn)行了,并且生成不同的語(yǔ)音識(shí)別模擬器--這是主要考慮到地球現(xiàn)主流電腦的運(yùn)算水平比起克里來(lái)說(shuō)實(shí)太低級(jí)。
????以模擬iphn4的50%運(yùn)算能力為低基準(zhǔn),克里模擬出不同性能情況下該語(yǔ)音識(shí)別算法的準(zhǔn)確率和反應(yīng)時(shí)間,原始版本從初基準(zhǔn)性能下5秒內(nèi)能夠達(dá)到90%的識(shí)別準(zhǔn)確率--當(dāng)然這個(gè)成績(jī)已經(jīng)遠(yuǎn)超現(xiàn)地球上所有語(yǔ)音識(shí)別軟件水準(zhǔn)。
????要知道這個(gè)90%準(zhǔn)確率是用數(shù)千段不同語(yǔ)境的不同口音英語(yǔ)音信息進(jìn)行模擬識(shí)別檢驗(yàn),也就是說(shuō)基本上考慮了各種口音及噪音的過(guò)濾處理。
????這個(gè)成績(jī)已經(jīng)比現(xiàn)只會(huì)聽(tīng)英的蘋果iri要強(qiáng)多了,畢竟iri現(xiàn)能夠識(shí)別的也是比較標(biāo)準(zhǔn)的英音。不信你拿印口音和加坡口音的英語(yǔ)錄音片段試試看iri能夠識(shí)別出多少來(lái)。
????如果是一臺(tái)模擬性能接近雙核2g以上主頻電腦上,這個(gè)指標(biāo)的識(shí)別水平將會(huì)提升到2秒以內(nèi)達(dá)到97%以上準(zhǔn)確率,反應(yīng)時(shí)間同識(shí)別準(zhǔn)確率其實(shí)有些沖突,因?yàn)橐R(shí)別加準(zhǔn)確必須要原始版本的語(yǔ)音語(yǔ)料庫(kù)基礎(chǔ)資料來(lái)源加豐富。
????聲音采樣越廣泛識(shí)別準(zhǔn)確率越高,而語(yǔ)音樣本庫(kù)越龐大,用于匹配的時(shí)間就會(huì)越久導(dǎo)致反應(yīng)時(shí)間的延長(zhǎng),因此語(yǔ)音樣本的抽樣壓縮和語(yǔ)音匹配算法一直是克里優(yōu)化的倆個(gè)重點(diǎn)。
????克里一直不停地模擬改進(jìn)提取語(yǔ)音語(yǔ)義特征值的算法,通過(guò)不斷壓縮冗余值,保持不失真的情況下持續(xù)不斷縮小語(yǔ)音樣本語(yǔ)料庫(kù)大小,另外一方面也不斷改進(jìn)對(duì)語(yǔ)音語(yǔ)料庫(kù)智能匹配算法。
????優(yōu)化算法杜克幫不了什么忙,但是收集可能多的語(yǔ)音樣本杜克卻沒(méi)有問(wèn)題,所以杜克的每一天都過(guò)著一種非常充實(shí)的生活,日復(fù)一日地下載不同類型的語(yǔ)音樣本供克里分析提煉,同時(shí)不斷去學(xué)習(xí)理解克里所創(chuàng)造的這些全的處理算法,要敲開(kāi)麻省理工的大門。
????杜克必須要有一篇體現(xiàn)自己能力的世界領(lǐng)先水準(zhǔn)的語(yǔ)音識(shí)別基礎(chǔ)理論創(chuàng)性論,可是克里的知識(shí)庫(kù)并沒(méi)有現(xiàn)成的語(yǔ)音識(shí)別知識(shí),這些對(duì)于克里來(lái)說(shuō)太老舊了,老舊到比萊姆都沒(méi)有為克里增加這些知識(shí)。
????而克里現(xiàn)做的就是地球上現(xiàn)有語(yǔ)音識(shí)別理論和算法基礎(chǔ)上,利用他強(qiáng)悍到無(wú)邊的模擬能力,不斷地模擬各種不同的語(yǔ)音處理算法。
????通過(guò)模擬來(lái)找到一種加有效的--這種方法雖然有些笨拙,但是有了克里超強(qiáng)的運(yùn)算能力,畢竟每秒鐘成千上萬(wàn)種可能算法都可以模擬,使得這種笨拙的方法也有相當(dāng)?shù)男Ч?,找出了好幾種可能的優(yōu)化算法,將識(shí)別率和反應(yīng)時(shí)間提升到了一個(gè)的高。
????可是要將這些成果用地球人能夠理解的語(yǔ)言和理論寫出來(lái),還要讓人能夠看懂,不管是對(duì)克里還是杜克來(lái)說(shuō)都是一個(gè)挑戰(zhàn),因?yàn)榭死锊皇且?1為核心的機(jī)械二進(jìn)制思維模式,而是生物多態(tài)思維模式。