在线永久免费观看丝袜黄网站-凹凸国产熟女精品视频国语-日韩亚洲午夜精品一区二区三区-日韩欧美国产另类一区二区

返回欄目

智慧醫(yī)院 > 新聞資訊 >

醫(yī)院門診排隊(duì)叫號(hào)系統(tǒng)廠家-自動(dòng)語(yǔ)音識(shí)別技術(shù)應(yīng)用（解讀語(yǔ)音識(shí)別技術(shù)奧秘）

2023-10-20 12:44

自動(dòng)語(yǔ)音識(shí)別，稱為ASR，英文全稱Automatic Speech Recognition。是指人工智能（AI）技術(shù)將人類語(yǔ)音轉(zhuǎn)換為文本的過(guò)程。最終目標(biāo)是通過(guò)將聲波正確轉(zhuǎn)換為字母和句子字符串來(lái)提供音頻的轉(zhuǎn)錄。這要求自動(dòng)語(yǔ)音識(shí)別系統(tǒng)通過(guò)識(shí)別語(yǔ)音和解釋對(duì)話上下文來(lái)在一定程度上學(xué)習(xí)語(yǔ)言，以提供最準(zhǔn)確的轉(zhuǎn)錄。多年來(lái)，自動(dòng)語(yǔ)音識(shí)別系統(tǒng)已經(jīng)走了很長(zhǎng)一段路，近年來(lái)變得更加普遍，被集成到Instagram和Tik Tok等流行應(yīng)用程序中。自動(dòng)語(yǔ)音識(shí)別取得的進(jìn)展繼續(xù)為那些受益者提供更易于訪問(wèn)和負(fù)擔(dān)得起的音頻和視頻數(shù)據(jù)打開(kāi)大門。在本文中，我們將探討自動(dòng)語(yǔ)音識(shí)別的發(fā)展、該技術(shù)的現(xiàn)代應(yīng)用以及自動(dòng)語(yǔ)音識(shí)別如何提高可訪問(wèn)性。
自動(dòng)語(yǔ)音識(shí)別的歷史我們今天所知的自動(dòng)語(yǔ)音識(shí)別的起源可以追溯到1952年，當(dāng)時(shí)發(fā)明了一種名為“奧黛麗”的數(shù)字識(shí)別系統(tǒng)。由貝爾實(shí)驗(yàn)室創(chuàng)建，最初奧黛麗只能將口語(yǔ)數(shù)字轉(zhuǎn)錄為可讀的文本，但經(jīng)過(guò)改進(jìn)，它最終也能夠轉(zhuǎn)錄基本單詞。后來(lái)在1960年代，IBM開(kāi)發(fā)了一個(gè)名為“鞋盒”的系統(tǒng)，它能夠識(shí)別數(shù)字以及理解數(shù)學(xué)命令并計(jì)算答案。然而，直到大約十年后，自動(dòng)語(yǔ)音識(shí)別技術(shù)才得到更認(rèn)真的研究。這最終導(dǎo)致了自動(dòng)語(yǔ)音識(shí)別更準(zhǔn)確的商業(yè)使用，并且在 1990 年代以高成本出售自動(dòng)語(yǔ)音識(shí)別技術(shù)和 API。自動(dòng)語(yǔ)音識(shí)別在 2000 年代的技術(shù)繁榮中真正獲得了動(dòng)力，如今自動(dòng)語(yǔ)音識(shí)別現(xiàn)在已達(dá)到接近人類的準(zhǔn)確性。隨著購(gòu)買自動(dòng)語(yǔ)音識(shí)別系統(tǒng)的成本變得更加實(shí)惠和可訪問(wèn)性不斷增長(zhǎng)，現(xiàn)在可以在許多流行的移動(dòng)應(yīng)用程序中找到自動(dòng)語(yǔ)音識(shí)別技術(shù)的形式，變得越來(lái)越普遍和廣泛。自動(dòng)語(yǔ)音識(shí)別如何工作？人在筆記本電腦上，雙手放在鍵盤上，屏幕上有多種語(yǔ)言的語(yǔ)音識(shí)別詞。
為了使自動(dòng)語(yǔ)音識(shí)別能夠準(zhǔn)確地將一系列聲波轉(zhuǎn)換為書(shū)面文本，自動(dòng)語(yǔ)音識(shí)別系統(tǒng)必須學(xué)習(xí)該語(yǔ)言。就像一個(gè)人學(xué)習(xí)一門新語(yǔ)言一樣，自動(dòng)語(yǔ)音識(shí)別系統(tǒng)分步學(xué)習(xí)，并利用這些技能來(lái)轉(zhuǎn)換和正確解釋所說(shuō)的內(nèi)容。此過(guò)程的第一步從自動(dòng)語(yǔ)音識(shí)別系統(tǒng)理解音素開(kāi)始。音素是語(yǔ)言中聲音的最小單位。此步驟使系統(tǒng)能夠理解和識(shí)別每個(gè)字母發(fā)出的聲音。一旦音素能夠被理解，這項(xiàng)基礎(chǔ)技能允許系統(tǒng)組合不同的字母并將它們發(fā)音以創(chuàng)建單詞。

從那里，自動(dòng)語(yǔ)音識(shí)別系統(tǒng)能夠從串在一起的單詞構(gòu)建句子。然而，自動(dòng)語(yǔ)音識(shí)別系統(tǒng)的學(xué)習(xí)和基礎(chǔ)理解并不止于此。為了確保準(zhǔn)確性，自動(dòng)語(yǔ)音識(shí)別系統(tǒng)還必須了解如何正確區(qū)分發(fā)音相似的單詞和短語(yǔ)，并選擇正確的解釋。在處理書(shū)面文本中的聲音時(shí)，重要的是自動(dòng)語(yǔ)音識(shí)別還能夠理解和區(qū)分哪些單詞重要，哪些不重要。例如，系統(tǒng)必須能夠理解和解釋不流暢和填充詞等話語(yǔ)。不流暢包括自然言語(yǔ)中出現(xiàn)的言語(yǔ)，如停頓或猶豫和口吃。填充詞包括像“嗯”這樣的詞，它們填充空間但在對(duì)話上下文中沒(méi)有意義。訓(xùn)練自動(dòng)語(yǔ)音識(shí)別系統(tǒng)的方法訓(xùn)練自動(dòng)語(yǔ)音識(shí)別系統(tǒng)有多種方法和方法。在當(dāng)今世界，訓(xùn)練自動(dòng)語(yǔ)音識(shí)別系統(tǒng)的兩種主要方法是傳統(tǒng)的混合方法和所謂的端到端深度學(xué)習(xí)方法。這些各自的方法中的每一種都在每個(gè)系統(tǒng)中包含多個(gè)模型。傳統(tǒng)的混合方法傳統(tǒng)的混合方法是自動(dòng)語(yǔ)音識(shí)別的傳統(tǒng)方法，今天許多公司仍在使用。盡管現(xiàn)在有更準(zhǔn)確的訓(xùn)練方法，但仍然依賴傳統(tǒng)的混合方法，因?yàn)閷?duì)于如何基于這種方法創(chuàng)建強(qiáng)大的模型有更多的知識(shí)和專有技術(shù)。由于傳統(tǒng)的混合方法是15年來(lái)的主要方法，因此有更多的可用數(shù)據(jù)和已經(jīng)完成的研究，使得構(gòu)建系統(tǒng)變得更加容易。傳統(tǒng)的混合方法使用傳統(tǒng)的HMM（隱馬爾可夫模型）和GMM（高斯混合模型），兩者都需要使用數(shù)據(jù)的力對(duì)齊。強(qiáng)制對(duì)齊是指語(yǔ)音識(shí)別系統(tǒng)獲得所講內(nèi)容的精確轉(zhuǎn)錄的過(guò)程，然后它必須確定語(yǔ)音片段中單詞所屬的時(shí)間順序。在傳統(tǒng)的HMM和GMM方法中，有三種模型是變體，在自動(dòng)語(yǔ)音識(shí)別過(guò)程中起著重要作用。

在使用傳統(tǒng)的混合語(yǔ)音識(shí)別方法中發(fā)揮作用的三種模型是：聲學(xué)模型、詞典模型和語(yǔ)言模型。聲學(xué)模型通常是HMM或GMM方法的變體，用于復(fù)制語(yǔ)音的聲學(xué)模式。這允許它根據(jù)輸入的強(qiáng)制對(duì)齊數(shù)據(jù)預(yù)測(cè)在什么時(shí)間發(fā)生什么聲音。另一個(gè)模型是詞典模型，它被編程為告訴自動(dòng)語(yǔ)音識(shí)別系統(tǒng)單詞是如何發(fā)音的。語(yǔ)言模型還有助于正確確定句子中單詞的正確順序。它使用語(yǔ)言統(tǒng)計(jì)作為資源和指導(dǎo)，使用概率根據(jù)概率和數(shù)據(jù)預(yù)測(cè)哪些單詞相互跟隨。最后是解碼過(guò)程。解碼綜合這些模型，以產(chǎn)生所說(shuō)的文字記錄。

盡管長(zhǎng)期使用傳統(tǒng)的混合方法，但它并非沒(méi)有局限性或缺點(diǎn)。與其他方法相比，這種方法的最大缺點(diǎn)之一是精度較低。使用傳統(tǒng)的混合方法效率也較低，因?yàn)槊總€(gè)系統(tǒng)都必須單獨(dú)訓(xùn)練，這使得它比其他方法更加勞動(dòng)密集和耗時(shí)。準(zhǔn)確性不那么可靠，因?yàn)槊總€(gè)系統(tǒng)都利用自定義語(yǔ)音集來(lái)提供轉(zhuǎn)錄，這取決于它是由誰(shuí)設(shè)計(jì)或編程的。端到端學(xué)習(xí)方法提供自動(dòng)語(yǔ)音識(shí)別的更現(xiàn)代方法是端到端學(xué)習(xí)方法。端到端學(xué)習(xí)能夠?qū)⒔邮盏降穆晫W(xué)信號(hào)映射到一系列單詞中，而無(wú)需依賴力對(duì)齊數(shù)據(jù)。與傳統(tǒng)的混合方法相比，利用端到端學(xué)習(xí)方法可提供更準(zhǔn)確的轉(zhuǎn)錄。與傳統(tǒng)的混合方法不同，端到端學(xué)習(xí)還能夠在不使用詞典模型或語(yǔ)言模型的情況下創(chuàng)建成績(jī)單。三個(gè)突出的端到端架構(gòu)是CTC，LAS和RNNT。所有這些端到端深度學(xué)習(xí)架構(gòu)都可用于創(chuàng)建高度準(zhǔn)確的轉(zhuǎn)錄，而無(wú)需使用強(qiáng)制對(duì)齊的數(shù)據(jù)、語(yǔ)言模型或詞典模型。但是，在此過(guò)程中使用語(yǔ)言模型有助于進(jìn)一步提高準(zhǔn)確性。與傳統(tǒng)的混合方法相比，端到端學(xué)習(xí)方法不僅需要更少的人力，而且更容易培訓(xùn)和編程。自動(dòng)語(yǔ)音識(shí)別準(zhǔn)確嗎？如今，自動(dòng)語(yǔ)音識(shí)別比以往任何時(shí)候都更加準(zhǔn)確，甚至達(dá)到了接近人類水平的準(zhǔn)確性。然而，隨著人工智能系統(tǒng)的不斷學(xué)習(xí)和新的學(xué)習(xí)方法的發(fā)展，自動(dòng)語(yǔ)音識(shí)別一直在改進(jìn)。自動(dòng)語(yǔ)音識(shí)別的準(zhǔn)確性可能受到不同變量的影響，例如使用哪種方法或方法對(duì)系統(tǒng)進(jìn)行編程。衡量自動(dòng)語(yǔ)音識(shí)別準(zhǔn)確性的一個(gè)常用指標(biāo)是單詞錯(cuò)誤率（WER）。單詞錯(cuò)誤率的計(jì)算方法是將錯(cuò)誤數(shù)除以轉(zhuǎn)錄語(yǔ)音片段中的單詞數(shù)。雖然自動(dòng)語(yǔ)音識(shí)別的準(zhǔn)確性受所用方法的影響，但無(wú)論使用哪種方法，WER也受到外部因素的影響。音頻質(zhì)量、重音、串?dāng)_和同音字等變量都會(huì)影響自動(dòng)語(yǔ)音識(shí)別的準(zhǔn)確性。盡管自動(dòng)語(yǔ)音識(shí)別并非沒(méi)有局限性并且仍在改進(jìn)，但目前的自動(dòng)語(yǔ)音識(shí)別系統(tǒng)幾乎接近人類轉(zhuǎn)錄的準(zhǔn)確性。為了證明這種比較，像微軟這樣的流行自動(dòng)語(yǔ)音識(shí)別系統(tǒng)的WER為5.1%，而谷歌的單詞錯(cuò)誤率為4.9%。人類轉(zhuǎn)錄員的平均單詞錯(cuò)誤率為 4%;仍然比自動(dòng)語(yǔ)音識(shí)別更準(zhǔn)確，并且能夠更好地解釋上下文。盡管自動(dòng)語(yǔ)音識(shí)別的準(zhǔn)確性不斷提高，但僅靠自動(dòng)語(yǔ)音識(shí)別系統(tǒng)并不完美，這表明仍然需要人類轉(zhuǎn)錄員來(lái)獲得最可靠的轉(zhuǎn)錄或字幕。自動(dòng)語(yǔ)音識(shí)別的應(yīng)用自動(dòng)語(yǔ)音識(shí)別的應(yīng)用在當(dāng)今的現(xiàn)代世界中無(wú)處不在。盡管當(dāng)大多數(shù)人想到自動(dòng)語(yǔ)音識(shí)別時(shí)，第一個(gè)聯(lián)想可能是想到視頻和電視或其他形式的轉(zhuǎn)錄的字幕，但它遠(yuǎn)遠(yuǎn)不止于此。自動(dòng)語(yǔ)音識(shí)別的常見(jiàn)應(yīng)用無(wú)處不在，從手機(jī)到許多人在家中擁有的數(shù)字和虛擬助手。自動(dòng)語(yǔ)音識(shí)別是日常生活的重要組成部分，比許多人意識(shí)到的要多。如今，自動(dòng)語(yǔ)音識(shí)別的應(yīng)用以某種形式簡(jiǎn)化了大多數(shù)人的任務(wù)，無(wú)論是轉(zhuǎn)錄和發(fā)送短信的智能手機(jī)、遵循命令的虛擬助手還是其他方式。應(yīng)用 1 可以在大多數(shù)家庭和許多工作場(chǎng)所中找到的自動(dòng)語(yǔ)音識(shí)別的日常應(yīng)用在于虛擬和數(shù)字助理。也許這些虛擬助手中最著名的是：亞馬遜的Alexa，谷歌的谷歌助手，蘋果的Siri和微軟的Cortana。這些數(shù)字助理和其他數(shù)字助理旨在能夠執(zhí)行基本任務(wù)并回答和回答問(wèn)題。這樣的人工智能系統(tǒng)能夠訪問(wèn)廣泛的信息和知識(shí)數(shù)據(jù)庫(kù)，使他們能夠找到各種問(wèn)題的答案，計(jì)算計(jì)算，并執(zhí)行打開(kāi)和關(guān)閉電器等命令。在商業(yè)和工作場(chǎng)所，這些數(shù)字助理可以通過(guò)安排和啟動(dòng)視頻會(huì)議和會(huì)議、搜索文檔，甚至創(chuàng)建圖表并將數(shù)據(jù)輸入報(bào)告來(lái)加快辦公任務(wù)并減輕工作量。聊天機(jī)器人是另一種常見(jiàn)的用途，可幫助客戶服務(wù)人員解決常見(jiàn)問(wèn)題和其他基本客戶需求。應(yīng)用 2 除了Siri等數(shù)字助理之外，智能手機(jī)還在各種應(yīng)用程序中利用自動(dòng)語(yǔ)音識(shí)別和語(yǔ)音轉(zhuǎn)文本功能。像Instagram這樣的流行應(yīng)用程序通過(guò)允許用戶通過(guò)語(yǔ)音命令更改或激活過(guò)濾器來(lái)整合自動(dòng)語(yǔ)音識(shí)別。自動(dòng)語(yǔ)音識(shí)別是智能手機(jī)上每次使用語(yǔ)音轉(zhuǎn)文本不可或缺的一部分，無(wú)論是說(shuō)出您希望短信說(shuō)出的內(nèi)容，還是告訴瀏覽器或應(yīng)用程序要搜索的內(nèi)容。Instagram和Youtube等社交媒體和內(nèi)容平臺(tái)上的字幕也使用自動(dòng)語(yǔ)音識(shí)別為視頻提供自動(dòng)生成的字幕。自動(dòng)語(yǔ)音識(shí)別如何使可訪問(wèn)性受益？女人拿著電話與現(xiàn)在說(shuō)話和手機(jī)屏幕上的麥克風(fēng)圖像。
自動(dòng)語(yǔ)音識(shí)別的應(yīng)用可以幫助聾啞人和聽(tīng)力障礙者以及視力低下或行動(dòng)不便的人更容易進(jìn)入技術(shù)和世界。自動(dòng)語(yǔ)音識(shí)別提高可訪問(wèn)性的最顯著方法之一是通過(guò)電視和電影以及社交媒體內(nèi)容的字幕。通過(guò)這種方式，自動(dòng)語(yǔ)音識(shí)別能夠使數(shù)字內(nèi)容更易于訪問(wèn)和包容，因?yàn)槁?tīng)力損失的人能夠遵循對(duì)話，考慮上下文和背景噪音，并總體上更全面地理解和體驗(yàn)視覺(jué)內(nèi)容。自動(dòng)語(yǔ)音識(shí)別在幫助那些有無(wú)障礙需求的人通過(guò)電話、短信或電子郵件更好地溝通方面也發(fā)揮著關(guān)鍵作用。
語(yǔ)音轉(zhuǎn)文本功能允許行動(dòng)不便或視力低下的人指示他們想要包含在電子郵件或短信中的內(nèi)容，然后自動(dòng)語(yǔ)音識(shí)別系統(tǒng)為他們輸入。這項(xiàng)技術(shù)允許這些人減輕因必須使用鍵盤實(shí)際鍵入這些形式的通信而產(chǎn)生的疲勞或沮喪。聽(tīng)力損失的人通常很難聽(tīng)到電話交談，并且由于這一點(diǎn)和可能相關(guān)的焦慮，可能會(huì)完全避免打電話。但是，自動(dòng)語(yǔ)音識(shí)別有助于通過(guò)InnoCaption等服務(wù)提供準(zhǔn)確的字幕，以便聽(tīng)力障礙者可以重新獲得獨(dú)立撥打電話的信心。

InnoCaption如何使用自動(dòng)語(yǔ)音識(shí)別
InnoCaption使聽(tīng)力障礙社區(qū)能夠使用速記員和自動(dòng)語(yǔ)音識(shí)別來(lái)?yè)艽螂娫?，以提供?shí)時(shí)字幕。速記員是訓(xùn)練有素的專業(yè)人員，他們使用速記機(jī)以速記方式轉(zhuǎn)錄對(duì)話并提供字幕。通過(guò)同時(shí)提供自動(dòng)語(yǔ)音識(shí)別和實(shí)時(shí)速記員，InnoCaption 將選擇權(quán)交到用戶手中，他們能夠隨著可訪問(wèn)性需求的變化在字幕方法之間切換。自動(dòng)語(yǔ)音識(shí)別能夠提供準(zhǔn)確和快速的字幕，而無(wú)需速記員或其他現(xiàn)場(chǎng)人員在場(chǎng)。為了通過(guò)自動(dòng)語(yǔ)音識(shí)別提供一流的字幕，InnoCaption使用多個(gè)引擎，并始終如一地設(shè)計(jì)專有解決方案以最好地為用戶服務(wù)。通過(guò)使用自動(dòng)語(yǔ)音識(shí)別來(lái)提供字幕，InnoCaption還能夠?yàn)橛脩籼峁┯⒄Z(yǔ)和西班牙語(yǔ)的字幕。除了實(shí)時(shí)速記員之外，通過(guò)使用自動(dòng)語(yǔ)音識(shí)別，InnoCaption能夠?yàn)楦鼜V泛，更多樣化的社區(qū)提供字幕。自動(dòng)語(yǔ)音識(shí)別的未來(lái)會(huì)是什么樣子？隨著自動(dòng)語(yǔ)音識(shí)別的不斷改進(jìn)和發(fā)展，這項(xiàng)技術(shù)的未來(lái)使用和實(shí)施也是如此。數(shù)據(jù)收集和處理提高了準(zhǔn)確性，并繼續(xù)使自動(dòng)語(yǔ)音識(shí)別系統(tǒng)能夠更好地處理口音和獨(dú)特的語(yǔ)音模式。自動(dòng)語(yǔ)音識(shí)別系統(tǒng)的持續(xù)學(xué)習(xí)表明這種人工智能技術(shù)只會(huì)得到進(jìn)一步的使用，專家推測(cè)它也將在更多行業(yè)中發(fā)揮更大的作用。自動(dòng)語(yǔ)音識(shí)別在未來(lái)使用的一個(gè)期望在于醫(yī)療保健領(lǐng)域。許多人預(yù)計(jì)，聊天機(jī)器人和語(yǔ)音技術(shù)系統(tǒng)將進(jìn)一步整合到醫(yī)療檢查和管理任務(wù)中，在健康檢查中更大程度地取代人類。在數(shù)字助理的帶領(lǐng)下，搜索行為也有望發(fā)生變化并進(jìn)一步依賴語(yǔ)音，并且設(shè)備和搜索引擎上的許多接觸點(diǎn)很可能會(huì)轉(zhuǎn)變?yōu)槭章?tīng)點(diǎn)。

四部InnoCaption屏幕手機(jī)在城市景觀背景下。

上一篇：無(wú)線醫(yī)護(hù)對(duì)講系統(tǒng)廠家-Avaya電話（了解Avaya電話公司）; 返回
下一篇：醫(yī)療呼叫系統(tǒng)廠家-電話自動(dòng)呼叫分配系統(tǒng)（電話系統(tǒng)中自動(dòng)呼叫分配的功能與應(yīng)用）

全國(guó)熱線

400-6333-661

售前電話

135-3656-7657

全國(guó)熱線 : 400-6333-661

售前電話 : 135-3656-7657

總部地址

廣東省珠海市香洲區(qū)金鼎工業(yè)園金恒一路9號(hào)1棟

熱推信息 | 企業(yè)分站

網(wǎng)站地圖 | RSS | TAG標(biāo)簽

微信客服
瀏覽更多產(chǎn)品 >

<bdo id="l2mih"><span id="l2mih"></span></bdo>