阿里云語音分析服務

阿里云語音分析服務

專用API
【更新時間: 2024.08.14】 阿里云語音分析服務是一款專為滿足開發(fā)者對語音數(shù)據(jù)處理需求而設計的數(shù)據(jù)與API產品。該服務旨在幫助企業(yè)快速構建語音識別、情感分析、關鍵詞提取等多種語音處理能力,無需從頭開始構建復雜的語音處理系統(tǒng)。
30千次 / 50.00年起 去服務商官網(wǎng)采購>
瀏覽次數(shù)
26
采購人數(shù)
1
試用次數(shù)
0
! SLA: N/A
! 響應: N/A
! 適用于個人&企業(yè)
收藏
×
完成
取消
×
書簽名稱
確定
<
產品介紹
>

什么是阿里云語音分析服務?

語音分析技術是指通過檢測與分析音頻,識別特定語音分類的技術,包括說話人識別、語種識別、性別識別、聲音事件檢測等技術,可應用于會議音頻識別、客服音頻分析或音視頻剪輯等場景。

什么是阿里云語音分析服務接口?

由服務使用方的應用程序發(fā)起,以Restful風格為主、通過公網(wǎng)HTTP協(xié)議調用阿里云語音分析服務,從而實現(xiàn)程序的自動化交互,提高服務效率。

阿里云語音分析服務有哪些核心功能?

1. 語種識別
實現(xiàn)對上傳音頻(實時或離線)中所說的是哪種語言進行句級別的判定,并返回是中、英、粵語或其他語言。

2. 性別識別
通過對上傳音頻(實時或離線)進行高效解析,有效判定說話人的性別(男女)以及年齡段(兒童、成年、老人)。

3. 聲音事件檢測
通過一段聲音來對環(huán)境音(包括語音、短視頻等)里面的事件類型進行檢測分類,其主要任務是檢測識別音頻中諸如背景音樂、哭聲、笑聲、爆炸聲之類的聲音,并標注出聲音的起止時間。

4. 說話人識別
基于自研聲紋識別算法,通過解析一段語音,將提取到的音頻特征與之前注冊的音頻特征進行比對,來對說話人身份進行核驗(類似人臉識別)。

阿里云語音分析服務的核心優(yōu)勢是什么?

1. 易接入
支持HTTP&SDK多種技術接入,各類平臺適用,支持本地化部署
2. 速度快
可批量對音頻進行識別并快速返回結果
3. 領域廣
可應用于多種場景如電話客服、手機應用等

在哪些場景會用到阿里云語音分析服務?

1. 跨國會議場景
由于跨國會議往往涉及到多個國家人群的對話,基于用戶上傳的聲音進行分析可以自動選擇不同識別模型提升會議識別率。
3. 音視頻剪輯
視頻后期工作者往往要面對海量的剪輯工作,通過此功能可輕松定位不同事件位置,極大提升了剪輯效率。
2. 外呼營銷場景
通過對一句話內有效音頻識別出用戶性別,以便更好地提供人性化語音交互服務,提升客戶體驗。
4. 金融風控場景
說話人識別從1:1身份確認到1:N身份辨認,為金融定制精準高效的客戶身份安全驗證。
<
產品價格
>

<
使用指南
>

入門流程

快速入門文檔介紹使用智能語音服務需要的步驟,幫助您快速開通服務、創(chuàng)建測試項目和調用語音服務。

image

步驟1:準備賬號

  1. 注冊阿里云賬號。

    阿里云賬號作為阿里云系統(tǒng)識別的資源消費賬戶,有阿里云所有產品和管理權限。具體操作,請參見注冊阿里云賬號

  2. 個人實名認證。

    為了確保您可以正常使用阿里云產品和服務,您需要完成個人實名認證。具體操作,請參見個人實名認證

  3. (可選)創(chuàng)建并授權RAM用戶。

    當您的企業(yè)存在多用戶協(xié)同訪問資源的場景時,可以創(chuàng)建RAM用戶,使用RAM可以按需為用戶分配最小權限,避免多用戶共享阿里云賬號密碼或訪問密鑰,從而降低企業(yè)的安全風險。具體操作,請參見創(chuàng)建RAM用戶。關于RAM用戶的更多信息,請參見什么是訪問控制

    如果使用RAM用戶調用智能語音交互產品,請前往控制臺為RAM用戶授予AliyunNLSFullAccess權限。具體操作,請參見為RAM用戶授權

    RAM授權

    說明

    創(chuàng)建RAM用戶時,請設置登錄密碼,否則無法單獨登錄RAM賬號。

步驟2:創(chuàng)建AccessKey

在調用阿里云API時您需要使用AccessKey完成身份驗證,AccessKey包括AccessKey ID和AccessKey Secret,具體說明如下:

  • AccessKey ID:用于標識用戶。

  • AccessKey Secret:用于驗證用戶的密鑰。AccessKey Secret必須保密。

創(chuàng)建阿里云賬號的AccessKey

登錄RAM訪問控制臺,使用阿里云賬號創(chuàng)建AccessKey。具體操作,請參見創(chuàng)建AccessKey

image

創(chuàng)建RAM用戶的AccessKey

使用阿里云賬號登錄RAM訪問控制臺,為RAM用戶創(chuàng)建AccessKey。具體操作,請參見創(chuàng)建AccessKey

重要

RAM用戶的AccessKey Secret只在創(chuàng)建時顯示,不支持查看,請妥善保管。

image

步驟3:開通服務

如果您是第一次使用智能語音交互,推薦您使用阿里云賬號開通智能語音交互服務。

進入智能語音交互產品首頁,單擊開通并購買,然后在產品開通頁面,選擇服務類型并選中服務協(xié)議,單擊立即開通,即可開通智能語音交互服務。

類型

說明

免費試用版

默認全部試用。長文本語音合成、錄音文件識別(閑時版)和錄音文件識別(極速版)無試用版。

新開通服務的用戶可免費試用3個月,支持2路并發(fā)(即同時最大2個任務)或每日2小時的錄音文件識別額度。

重要

新用戶試用期3個月內,每隔24小時可免費識別2小時時長的文件轉寫服務。免費額度用完后,間隔24小時后可繼續(xù)試用。

商用版

選擇某個或多個語音服務為商用,開通后按量計費,根據(jù)實際使用量從您的阿里云賬戶余額中扣費。更多信息,請參見計費說明

立即開通

步驟4:管理項目

登錄智能語音交互控制臺,創(chuàng)建項目生成對應的Appkey。具體操作,請參見管理項目

步驟5:獲取Token

訪問令牌( Token)是調用智能語音交互服務的服務鑒權憑證。

Token在不同項目間、不同進程間、不同線程間都可以共用,Token有效期根據(jù)服務端返回為準,過期前必須提前重新獲取Token,建議每天重新獲取。為了安全起見,建議您在服務端集成Token SDK,客戶端從服務端獲取Token。

獲取Token方式

建議使用場景

通過控制臺獲取Token

僅供測試使用,在控制臺獲取Token。

獲取Token

正式環(huán)境使用,通過傳入AccessKey ID和AccessKey Secret,在SDK通過代碼定期自動獲取Token。

通過OpenAPI獲取Token

若對應的編程語言缺少SDK,或者需要控制依賴組件,可以通過OpenAPI獲取Token。

步驟6:集成開發(fā)

根據(jù)以上幾步獲取到賬號對應的AccessKey IDAccessKey Secret服務鑒權Token、以及項目Appkey,必須確保這幾項數(shù)值歸屬于同一阿里云賬號或同一RAM用戶。

您可以根據(jù)以上信息,通過命令行等方式快速體驗智能語音交互產品能力,具體操作,請參見運行示例。也可以通過SDK和API概覽詳細了解在各類平臺如何將語音識別語音合成功能集成到您的服務當中。

集成運行

說明

集成運行

說明

運行示例

基于使用阿里云主賬號且從控制臺獲取測試Token來體驗產品。

主要通過控制臺、curl命令行、postman、以及Java SDK等方式快速體驗智能語音交互能力。

SDK和API概覽

RESTful API、移動端、服務端、微信小程序以及WebSocket等多種接入方式。

<
產品問答
>
?
什么是并發(fā)?
智能語音交互產品中的并發(fā),是指系統(tǒng)同時處理的請求數(shù)。 以實時語音轉寫為例,每當發(fā)起一個請求后(比如調用start接口),即為建立一個WebSocket鏈接, 在請求結束之前(比如調用stop或close接口),該請求一直占用一個并發(fā)。如果您的并發(fā)額度是200,即同時只能建立200個類似的實時轉寫請求,如果超出額度會返回錯誤碼40000005。
?
什么是QPS?
QPS是指每秒能夠處理的請求數(shù)。 以錄音文件識別(含閑時版)為例,QPS限制是指您每秒最多調用的請求數(shù), 如果超過QPS限制,可能會報出Throttling.User : Request was denied due to user flow control.類似的錯誤。 建議您適當調整提交任務、查詢任務接口的調用頻率。
?
剛剛購買了資源包,為什么控制臺上顯示不出來?
如果當日購買資源包,在次日(T+1) 才會在控制臺上顯示余量。
<
關于我們
>
豐富的企業(yè)應用,滿足企業(yè)經(jīng)營和數(shù)字化所需 安全合規(guī) 亞太合規(guī)資質最全的云服務商之一,從基礎設施安全、內核平臺安全、系統(tǒng)服務安全、云安全產品四個層面,保障千行百業(yè)客戶的業(yè)務安全在線。擁有權威認可的原生安全能力,根據(jù)2021年Gartner報告,安全能力全球第一。 技術領先 飛天是阿里云自主研發(fā)、國內唯一自研的云計算操作系統(tǒng),編排調度百萬級服務器,單集群調度規(guī)模超十萬臺,具備EB級數(shù)據(jù)存儲能力,并通過CIPU率先實現(xiàn)虛擬化“0”損耗,提供業(yè)界領先的計算性能,既滿足客戶嚴苛的業(yè)務要求,又提供高性價比服務。
聯(lián)系信息
服務時間: 7*24
電話號碼: 86 571 8502 2600

<
最可能同場景使用的其他API
>
API接口列表
<
產品價格
>

<
使用指南
>

入門流程

快速入門文檔介紹使用智能語音服務需要的步驟,幫助您快速開通服務、創(chuàng)建測試項目和調用語音服務。

image

步驟1:準備賬號

  1. 注冊阿里云賬號。

    阿里云賬號作為阿里云系統(tǒng)識別的資源消費賬戶,有阿里云所有產品和管理權限。具體操作,請參見注冊阿里云賬號

  2. 個人實名認證。

    為了確保您可以正常使用阿里云產品和服務,您需要完成個人實名認證。具體操作,請參見個人實名認證

  3. (可選)創(chuàng)建并授權RAM用戶。

    當您的企業(yè)存在多用戶協(xié)同訪問資源的場景時,可以創(chuàng)建RAM用戶,使用RAM可以按需為用戶分配最小權限,避免多用戶共享阿里云賬號密碼或訪問密鑰,從而降低企業(yè)的安全風險。具體操作,請參見創(chuàng)建RAM用戶。關于RAM用戶的更多信息,請參見什么是訪問控制

    如果使用RAM用戶調用智能語音交互產品,請前往控制臺為RAM用戶授予AliyunNLSFullAccess權限。具體操作,請參見為RAM用戶授權

    RAM授權

    說明

    創(chuàng)建RAM用戶時,請設置登錄密碼,否則無法單獨登錄RAM賬號。

步驟2:創(chuàng)建AccessKey

在調用阿里云API時您需要使用AccessKey完成身份驗證,AccessKey包括AccessKey ID和AccessKey Secret,具體說明如下:

  • AccessKey ID:用于標識用戶。

  • AccessKey Secret:用于驗證用戶的密鑰。AccessKey Secret必須保密。

創(chuàng)建阿里云賬號的AccessKey

登錄RAM訪問控制臺,使用阿里云賬號創(chuàng)建AccessKey。具體操作,請參見創(chuàng)建AccessKey

image

創(chuàng)建RAM用戶的AccessKey

使用阿里云賬號登錄RAM訪問控制臺,為RAM用戶創(chuàng)建AccessKey。具體操作,請參見創(chuàng)建AccessKey

重要

RAM用戶的AccessKey Secret只在創(chuàng)建時顯示,不支持查看,請妥善保管。

image

步驟3:開通服務

如果您是第一次使用智能語音交互,推薦您使用阿里云賬號開通智能語音交互服務。

進入智能語音交互產品首頁,單擊開通并購買,然后在產品開通頁面,選擇服務類型并選中服務協(xié)議,單擊立即開通,即可開通智能語音交互服務。

類型

說明

免費試用版

默認全部試用。長文本語音合成、錄音文件識別(閑時版)和錄音文件識別(極速版)無試用版。

新開通服務的用戶可免費試用3個月,支持2路并發(fā)(即同時最大2個任務)或每日2小時的錄音文件識別額度。

重要

新用戶試用期3個月內,每隔24小時可免費識別2小時時長的文件轉寫服務。免費額度用完后,間隔24小時后可繼續(xù)試用。

商用版

選擇某個或多個語音服務為商用,開通后按量計費,根據(jù)實際使用量從您的阿里云賬戶余額中扣費。更多信息,請參見計費說明

立即開通

步驟4:管理項目

登錄智能語音交互控制臺,創(chuàng)建項目生成對應的Appkey。具體操作,請參見管理項目

步驟5:獲取Token

訪問令牌( Token)是調用智能語音交互服務的服務鑒權憑證。

Token在不同項目間、不同進程間、不同線程間都可以共用,Token有效期根據(jù)服務端返回為準,過期前必須提前重新獲取Token,建議每天重新獲取。為了安全起見,建議您在服務端集成Token SDK,客戶端從服務端獲取Token。

獲取Token方式

建議使用場景

通過控制臺獲取Token

僅供測試使用,在控制臺獲取Token。

獲取Token

正式環(huán)境使用,通過傳入AccessKey ID和AccessKey Secret,在SDK通過代碼定期自動獲取Token。

通過OpenAPI獲取Token

若對應的編程語言缺少SDK,或者需要控制依賴組件,可以通過OpenAPI獲取Token。

步驟6:集成開發(fā)

根據(jù)以上幾步獲取到賬號對應的AccessKey IDAccessKey Secret服務鑒權Token、以及項目Appkey,必須確保這幾項數(shù)值歸屬于同一阿里云賬號或同一RAM用戶。

您可以根據(jù)以上信息,通過命令行等方式快速體驗智能語音交互產品能力,具體操作,請參見運行示例。也可以通過SDK和API概覽詳細了解在各類平臺如何將語音識別語音合成功能集成到您的服務當中。

集成運行

說明

集成運行

說明

運行示例

基于使用阿里云主賬號且從控制臺獲取測試Token來體驗產品。

主要通過控制臺、curl命令行、postman、以及Java SDK等方式快速體驗智能語音交互能力。

SDK和API概覽

RESTful API、移動端、服務端、微信小程序以及WebSocket等多種接入方式。

<
依賴服務
>
<
產品問答
>
?
什么是并發(fā)?
智能語音交互產品中的并發(fā),是指系統(tǒng)同時處理的請求數(shù)。 以實時語音轉寫為例,每當發(fā)起一個請求后(比如調用start接口),即為建立一個WebSocket鏈接, 在請求結束之前(比如調用stop或close接口),該請求一直占用一個并發(fā)。如果您的并發(fā)額度是200,即同時只能建立200個類似的實時轉寫請求,如果超出額度會返回錯誤碼40000005。
?
什么是QPS?
QPS是指每秒能夠處理的請求數(shù)。 以錄音文件識別(含閑時版)為例,QPS限制是指您每秒最多調用的請求數(shù), 如果超過QPS限制,可能會報出Throttling.User : Request was denied due to user flow control.類似的錯誤。 建議您適當調整提交任務、查詢任務接口的調用頻率。
?
剛剛購買了資源包,為什么控制臺上顯示不出來?
如果當日購買資源包,在次日(T+1) 才會在控制臺上顯示余量。
<
關于我們
>
豐富的企業(yè)應用,滿足企業(yè)經(jīng)營和數(shù)字化所需 安全合規(guī) 亞太合規(guī)資質最全的云服務商之一,從基礎設施安全、內核平臺安全、系統(tǒng)服務安全、云安全產品四個層面,保障千行百業(yè)客戶的業(yè)務安全在線。擁有權威認可的原生安全能力,根據(jù)2021年Gartner報告,安全能力全球第一。 技術領先 飛天是阿里云自主研發(fā)、國內唯一自研的云計算操作系統(tǒng),編排調度百萬級服務器,單集群調度規(guī)模超十萬臺,具備EB級數(shù)據(jù)存儲能力,并通過CIPU率先實現(xiàn)虛擬化“0”損耗,提供業(yè)界領先的計算性能,既滿足客戶嚴苛的業(yè)務要求,又提供高性價比服務。
聯(lián)系信息
服務時間: 7*24
電話號碼: 86 571 8502 2600

<
最可能同場景使用的其他API
>