文本轉(zhuǎn)語音服務(wù)-Azure AI
專用API
【更新時間: 2024.04.11】
Azure AI的文本轉(zhuǎn)語音服務(wù),這是一款強大的文本到語音應(yīng)用。它能夠?qū)⑽谋厩擅畹剞D(zhuǎn)換為極其逼真的語音,實現(xiàn)文字轉(zhuǎn)語音的智能語音生成,并且支持多種語言,讓文本與語音之間的轉(zhuǎn)換輕松而高效。
|
瀏覽次數(shù)
685
采購人數(shù)
35
試用次數(shù)
0
收藏
×
完成
取消
×
書簽名稱
確定
|

- API詳情
- 使用指南
- 常見 FAQ
- 關(guān)于我們
- 相關(guān)推薦


什么是Azure AI的文本轉(zhuǎn)語音服務(wù)?
Azure文本轉(zhuǎn)語音服務(wù),它可以將文本內(nèi)容轉(zhuǎn)換為自然發(fā)音的語音輸出。這項服務(wù)允許用戶通過自定義AI語音生成器來創(chuàng)造獨特的品牌聲音,并能夠根據(jù)不同的應(yīng)用場景選擇合適的語音風(fēng)格和情感語調(diào)。文本轉(zhuǎn)語音可讓應(yīng)用程序、工具或設(shè)備將文本轉(zhuǎn)換為類似于人類的合成語音。 文本轉(zhuǎn)語音功能也稱為語音合成。 使用類似于人類的現(xiàn)成預(yù)生成神經(jīng)語音,或根據(jù)你的產(chǎn)品或品牌創(chuàng)建獨特的自定義神經(jīng)語音。
什么是Azure AI的文本轉(zhuǎn)語音服務(wù)接口?
Azure AI的文本轉(zhuǎn)語音服務(wù)有哪些核心功能?
- 實時語音合成: azure 文本轉(zhuǎn)語音提供實時語音合成功能,使用語音SDK或REST API可以通過預(yù)生成的神經(jīng)網(wǎng)絡(luò)語音將文本轉(zhuǎn)換為語音。azure 文本轉(zhuǎn)語音使得應(yīng)用程序、工具或設(shè)備能夠?qū)崟r生成流暢自然的語音輸出,適用于聊天機器人、語音助手和車內(nèi)導(dǎo)航系統(tǒng)等場景。
- 長音頻的異步合成: 使用批量合成API,azure 文本轉(zhuǎn)語音能夠異步合成10分鐘以上的長音頻文件,例如有聲書籍或講座。與實時合成不同,這種合成方式不會立即返回響應(yīng),而是通過異步請求、輪詢響應(yīng)和下載合成音頻的方式來實現(xiàn)。
- 預(yù)生成的神經(jīng)網(wǎng)絡(luò)語音:azure 文本轉(zhuǎn)語音使用深度神經(jīng)網(wǎng)絡(luò)來生成語音,克服了傳統(tǒng)語音合成在口語的重音和語調(diào)方面的局限性。韻律預(yù)測和語音合成同步發(fā)生,使輸出聽起來更流暢且自然。每個預(yù)生成的神經(jīng)語音模型在24 kHz和高保真48 kHz下可用,適用于讓聊天機器人和語音助手的互動更加自然和吸引人。
- 使用SSML改進(jìn)文本轉(zhuǎn)語音輸出: 語音合成標(biāo)記語言(SSML)是一種基于XML的標(biāo)記語言,用于對文本轉(zhuǎn)語音輸出進(jìn)行自定義。使用SSML,可以調(diào)整音調(diào)、添加暫停、改進(jìn)發(fā)音、更改語速、調(diào)整音量,以及將多個語音歸屬到單個文檔,從而提供更精細(xì)的語音控制
Azure AI的文本轉(zhuǎn)語音服務(wù)的核心優(yōu)勢是什么?
- 高質(zhì)量的神經(jīng)網(wǎng)絡(luò)語音合成:azure 文本轉(zhuǎn)語音使用深度神經(jīng)網(wǎng)絡(luò)技術(shù),提供清晰發(fā)音和自然韻律的語音合成,使計算機的聲音與人類錄音幾乎無法區(qū)分。azure 文本轉(zhuǎn)語音克服了傳統(tǒng)語音合成在口語的重音和語調(diào)方面的局限性,提供了流暢自然的語音輸出。
- 實時語音合成與長音頻異步合成: 服務(wù)支持實時語音合成,允許通過語音SDK或REST API將文本轉(zhuǎn)換為語音。此外,azure 文本轉(zhuǎn)語音還提供長音頻的異步合成功能,可以處理10分鐘以上的文本轉(zhuǎn)語音文件,如將電子書轉(zhuǎn)換為有聲讀物。
- 預(yù)生成的神經(jīng)網(wǎng)絡(luò)語音: azure 文本轉(zhuǎn)語音提供了一系列預(yù)生成的神經(jīng)網(wǎng)絡(luò)語音,這些語音在24 kHz和高保真48 kHz下可用,使得與聊天機器人和語音助手的互動更加自然和吸引人。
- 使用SSML改進(jìn)文本轉(zhuǎn)語音輸出: 語音合成標(biāo)記語言(SSML)允許用戶對文本轉(zhuǎn)語音輸出進(jìn)行自定義,包括調(diào)整音調(diào)、添加暫停、改進(jìn)發(fā)音、更改語速和調(diào)整音量等,從而提供更精細(xì)的語音控制。
- 多語言和區(qū)域支持: azure 文本轉(zhuǎn)語音支持超過400種神經(jīng)語音,涵蓋140多種語言和地區(qū),適合應(yīng)用在跨國業(yè)務(wù)、語言學(xué)習(xí)等需要多語言轉(zhuǎn)換的場景。
- 易于集成和使用: 用戶可以使用與非高清語音相同的SDK和REST API來生成高清語音,輕松集成到現(xiàn)有的應(yīng)用程序中,提供了靈活的集成選項和簡便的操作流程
在哪些場景會用到Azure AI的文本轉(zhuǎn)語音服務(wù)?
1. 電子書和有聲讀物
想象一下,您擁有一本精彩的電子書,但您沒有時間閱讀,或者您只是想在旅途中放松身心,享受聽書的樂趣。Azure 文本轉(zhuǎn)語音服務(wù)可以將您的電子書或文檔轉(zhuǎn)換為自然流暢的語音,為您提供沉浸式的聽書體驗。您只需將電子書內(nèi)容上傳到 Azure 平臺,選擇合適的語音風(fēng)格和語速,即可生成高質(zhì)量的有聲讀物。這不僅方便了用戶,也為出版社和作家提供了一種新的內(nèi)容傳播方式。
2. 語音助手和聊天機器人
AI 語音助手和聊天機器人正逐漸成為我們生活中不可或缺的一部分。它們可以幫助我們完成各種任務(wù),例如查詢信息、設(shè)定提醒、控制智能家居等。Azure 文本轉(zhuǎn)語音服務(wù)可以為這些智能助手和聊天機器人提供自然流暢的語音響應(yīng),使它們更像一個真正的伙伴,與用戶進(jìn)行自然對話。例如,您可以使用 Azure 文本轉(zhuǎn)語音服務(wù)為您的智能音箱或聊天機器人提供個性化的語音,使其更具親切感和吸引力。
3. 視頻和音頻制作
在視頻制作或播客中,使用合成語音可以增強內(nèi)容的吸引力,并為觀眾提供更豐富的體驗。例如,您可以使用 Azure 文本轉(zhuǎn)語音服務(wù)為您的視頻添加旁白,或為您的播客生成配音。您可以選擇不同的語音風(fēng)格和語速,以適應(yīng)您的內(nèi)容和目標(biāo)受眾。這可以節(jié)省您聘請專業(yè)配音演員的成本,并提高內(nèi)容制作效率。
4. 界面朗讀
對于視力受限的用戶來說,使用電腦和手機等設(shè)備會帶來很大的困難。Azure 文本轉(zhuǎn)語音服務(wù)可以幫助他們通過語音讀取屏幕上的信息,例如網(wǎng)頁內(nèi)容、電子郵件、文檔等。這可以幫助他們更便捷地獲取信息,并提高他們的生活質(zhì)量。
5. 客戶服務(wù)和呼叫中心
自動語音應(yīng)答系統(tǒng)(IVR)和客戶服務(wù)機器人可以為客戶提供自動語音服務(wù),例如,引導(dǎo)客戶進(jìn)行自助服務(wù)、提供常見問題解答等。Azure 文本轉(zhuǎn)語音服務(wù)可以為這些系統(tǒng)提供高質(zhì)量的語音,使其更具人性化,并提高客戶滿意度。
6. 教育和學(xué)習(xí)應(yīng)用
在教育和學(xué)習(xí)應(yīng)用中,Azure 文本轉(zhuǎn)語音服務(wù)可以提供語音反饋和朗讀功能,幫助用戶更好地理解和學(xué)習(xí)。例如,在語言學(xué)習(xí)軟件中,您可以使用 Azure 文本轉(zhuǎn)語音服務(wù)為用戶提供語音朗讀和發(fā)音練習(xí)。在兒童教育應(yīng)用中,您可以使用 Azure 文本轉(zhuǎn)語音服務(wù)為孩子朗讀故事和童謠,并提供語音互動。


文本轉(zhuǎn)語音 REST API 開發(fā)使用指南
概述
文本轉(zhuǎn)語音(TTS)服務(wù)允許開發(fā)者將文本轉(zhuǎn)換為合成語音。本文檔提供了如何使用文本轉(zhuǎn)語音 REST API 的基本指南,包括獲取語音列表和將文本轉(zhuǎn)換為語音的步驟。
接口地址
獲取語音列表
要獲取特定區(qū)域的語音列表,使用以下終結(jié)點:
GET https://<YOUR_RESOURCE_REGION>.tts.speech.microsoft.com/cognitiveservices/voices/list
請將 <YOUR_RESOURCE_REGION>
替換為您所需的區(qū)域,例如 westus
。
將文本轉(zhuǎn)換為語音
要將文本轉(zhuǎn)換為語音,使用以下終結(jié)點:
POST https://<YOUR_RESOURCE_REGION>.tts.speech.microsoft.com/cognitiveservices/v1
同樣,請將 <YOUR_RESOURCE_REGION>
替換為相應(yīng)的區(qū)域。
身份驗證
在使用文本轉(zhuǎn)語音 REST API 之前,您需要進(jìn)行身份驗證。可以使用以下兩種方式之一:
- 使用 Ocp-Apim-Subscription-Key:在請求中包含您的語音資源密鑰。
- 使用 Bearer Token:通過向
issueToken
終結(jié)點請求獲取訪問令牌,并在后續(xù)請求中使用該令牌。
獲取訪問令牌
要獲取訪問令牌,請使用以下終結(jié)點:
POST https://<REGION_IDENTIFIER>.api.cognitive.microsoft.com/sts/v1.0/issueToken
將 <REGION_IDENTIFIER>
替換為與您的訂閱區(qū)域相匹配的標(biāo)識符。
區(qū)域和終結(jié)點
文本轉(zhuǎn)語音服務(wù)支持多個區(qū)域。以下是一些可用的區(qū)域及其對應(yīng)的終結(jié)點:
- 澳大利亞東部:
https://australiaeast.tts.speech.microsoft.com
- 巴西南部:
https://brazilsouth.tts.speech.microsoft.com
- 加拿大中部:
https://canadacentral.tts.speech.microsoft.com
- 美國東部:
https://eastus.tts.speech.microsoft.com
- 西歐:
https://westeurope.tts.speech.microsoft.com
確保選擇與您的語音資源區(qū)域匹配的終結(jié)點。
音頻輸出格式
在請求中,您可以指定音頻輸出格式,支持的格式包括但不限于:
riff-24khz-16bit-mono-pcm
audio-24khz-192kbitrate-mono-mp3
ogg-24khz-16bit-mono-opus
注意事項
- 每個請求都需包含有效的身份驗證信息。
- 對于長文本,生成的音頻長度不能超過 10 分鐘。
- 預(yù)生成的神經(jīng)網(wǎng)絡(luò)聲音和定制聲音的費用不同,具體請參考語音服務(wù)定價。
后續(xù)步驟
- 創(chuàng)建免費 Azure 帳戶以開始使用服務(wù)。
- 了解神經(jīng)網(wǎng)絡(luò)定制聲音的使用方法。
- 探索批處理合成的功能。
通過遵循這些指南,您可以有效地使用文本轉(zhuǎn)語音 REST API 將文本轉(zhuǎn)換為高質(zhì)量的語音輸出。




什么是 Azure?
Azure 云平臺匯集的產(chǎn)品和云服務(wù)超過 200 種,旨在幫助你將新解決方案付諸實踐,以便解決當(dāng)今的難題,并創(chuàng)造未來。利用所選的工具和框架,在多個云中、在本地以及在邊緣生成、運行和管理應(yīng)用程序。
合作伙伴:


文本轉(zhuǎn)語音 REST API 開發(fā)使用指南
概述
文本轉(zhuǎn)語音(TTS)服務(wù)允許開發(fā)者將文本轉(zhuǎn)換為合成語音。本文檔提供了如何使用文本轉(zhuǎn)語音 REST API 的基本指南,包括獲取語音列表和將文本轉(zhuǎn)換為語音的步驟。
接口地址
獲取語音列表
要獲取特定區(qū)域的語音列表,使用以下終結(jié)點:
GET https://<YOUR_RESOURCE_REGION>.tts.speech.microsoft.com/cognitiveservices/voices/list
請將 <YOUR_RESOURCE_REGION>
替換為您所需的區(qū)域,例如 westus
。
將文本轉(zhuǎn)換為語音
要將文本轉(zhuǎn)換為語音,使用以下終結(jié)點:
POST https://<YOUR_RESOURCE_REGION>.tts.speech.microsoft.com/cognitiveservices/v1
同樣,請將 <YOUR_RESOURCE_REGION>
替換為相應(yīng)的區(qū)域。
身份驗證
在使用文本轉(zhuǎn)語音 REST API 之前,您需要進(jìn)行身份驗證。可以使用以下兩種方式之一:
- 使用 Ocp-Apim-Subscription-Key:在請求中包含您的語音資源密鑰。
- 使用 Bearer Token:通過向
issueToken
終結(jié)點請求獲取訪問令牌,并在后續(xù)請求中使用該令牌。
獲取訪問令牌
要獲取訪問令牌,請使用以下終結(jié)點:
POST https://<REGION_IDENTIFIER>.api.cognitive.microsoft.com/sts/v1.0/issueToken
將 <REGION_IDENTIFIER>
替換為與您的訂閱區(qū)域相匹配的標(biāo)識符。
區(qū)域和終結(jié)點
文本轉(zhuǎn)語音服務(wù)支持多個區(qū)域。以下是一些可用的區(qū)域及其對應(yīng)的終結(jié)點:
- 澳大利亞東部:
https://australiaeast.tts.speech.microsoft.com
- 巴西南部:
https://brazilsouth.tts.speech.microsoft.com
- 加拿大中部:
https://canadacentral.tts.speech.microsoft.com
- 美國東部:
https://eastus.tts.speech.microsoft.com
- 西歐:
https://westeurope.tts.speech.microsoft.com
確保選擇與您的語音資源區(qū)域匹配的終結(jié)點。
音頻輸出格式
在請求中,您可以指定音頻輸出格式,支持的格式包括但不限于:
riff-24khz-16bit-mono-pcm
audio-24khz-192kbitrate-mono-mp3
ogg-24khz-16bit-mono-opus
注意事項
- 每個請求都需包含有效的身份驗證信息。
- 對于長文本,生成的音頻長度不能超過 10 分鐘。
- 預(yù)生成的神經(jīng)網(wǎng)絡(luò)聲音和定制聲音的費用不同,具體請參考語音服務(wù)定價。
后續(xù)步驟
- 創(chuàng)建免費 Azure 帳戶以開始使用服務(wù)。
- 了解神經(jīng)網(wǎng)絡(luò)定制聲音的使用方法。
- 探索批處理合成的功能。
通過遵循這些指南,您可以有效地使用文本轉(zhuǎn)語音 REST API 將文本轉(zhuǎn)換為高質(zhì)量的語音輸出。






什么是 Azure?
Azure 云平臺匯集的產(chǎn)品和云服務(wù)超過 200 種,旨在幫助你將新解決方案付諸實踐,以便解決當(dāng)今的難題,并創(chuàng)造未來。利用所選的工具和框架,在多個云中、在本地以及在邊緣生成、運行和管理應(yīng)用程序。
合作伙伴:

