![]() |
音頻技術-北京火山引擎
專用API
【更新時間: 2024.06.28】
音頻技術(SAMI)專注于語音合成、音頻處理、音樂理解與創(chuàng)作。我們的優(yōu)勢在于音樂與音頻的多模態(tài)技術融合,自主研發(fā)的算法追求卓越性能。我們的目標是利用AI激發(fā)創(chuàng)作者的靈感,為用戶帶來創(chuàng)新的交互體驗,探索聲音的無限潛力。
0元起
去服務商官網(wǎng)采購>
|
瀏覽次數(shù)
179
采購人數(shù)
3
試用次數(shù)
1
試用
收藏
×
完成
取消
×
書簽名稱
確定
|
- API詳情
- 定價
- 使用指南
- 常見 FAQ
- 關于我們
- 相關推薦


什么是北京火山引擎的音頻技術?
音頻技術(Speech, Audio & Music Intelligence,簡稱SAMI),主要致力于語音合成、音頻理解與處理、音樂理解與編輯、音樂生成等技術的研究和應用。我們的優(yōu)勢是基于音樂和音頻的多模態(tài)技術融合與創(chuàng)新,自研算法追求更優(yōu)性能。我們的愿景是用AI賦能創(chuàng)作者,激發(fā)創(chuàng)作靈感,為用戶提供全新的交互體驗,發(fā)掘聲音的無限可能。
北京火山引擎的音頻技術有哪些核心功能?
1. 文本朗讀(TTS)
我們使用業(yè)界領先的語音合成(TTS)技術,將文本轉(zhuǎn)化為自然流暢、情感豐富、高度擬人化的語音,支持多語種、多方言,現(xiàn)已具備幾十種音色并支持個性化定制,滿足各類場景對文本朗讀的需求。
2. 節(jié)拍檢測(BeatTracking)
節(jié)拍檢測能夠自動分析獲取音樂的節(jié)拍點,發(fā)現(xiàn)音樂的更多信息,輔助音樂資源利用。
目前支持在線OpenAPI調(diào)用以及離線SDK調(diào)用。
3. 音樂轉(zhuǎn)譜(MIDI)
音樂轉(zhuǎn)譜將輸入的音頻進行分析,提取導出MIDI格式內(nèi)容,包含音樂的音符、力度、時長等信息。
4. 音樂標簽(MusicTagging)
音樂標簽通過人聲、曲風、情緒、場景、語言、二級曲風等多個維度分析音樂,自動生成各維度下的標簽。
5. 音源分離(MusicSourceSeparate)
音源分離能夠自動分析歌曲中的人聲和伴奏,進行提取分離用于K歌、二次創(chuàng)作等多種玩法。
6. 音頻降噪與增強(AudioNoiseReductionAndEnhancement)
自研基于dsp算法和深度學習的回聲消除、噪聲抑制、聲音增強,兼顧強降噪與高保真。針對不同場景,采取精準優(yōu)化措施,尤其在音樂場景下,可以在保證人聲和背景音樂無損傷的前提下,更好地抑制噪聲。
目前可以通過接入音頻技術SDK使用該功能。
7. 音效處理與變聲 (SoundEffectProcessingAndVoiceChange)
提供多種音頻剪輯能力,包含
預置變聲特效 (花栗鼠、小哥哥、麥霸、擴音器、機器人、沒電了、小黃人、巨人)
混響美化音效模板 (KTV、大自然、回音、演唱會、錄音棚、音樂廳、空靈),
支持音頻檢測 (音高檢測、語音活性檢測、音量檢測、響度檢測、延遲檢測),
單點音效器(動態(tài)壓縮器、合唱音效、失真音效、回聲音效、濾波器、調(diào)整聲像、限制器、混響、顫音、升降調(diào)、增益),以及變速不變調(diào)等
目前可以通過接入音頻技術SDK使用該功能。
北京火山引擎的音頻技術的核心優(yōu)勢是什么?
-
多模態(tài)技術融合與創(chuàng)新:火山引擎的音頻技術不僅僅是單一的語音或音樂處理技術,而是將語音合成、音頻理解與處理、音樂理解與編輯、音樂生成等多種技術進行了融合與創(chuàng)新,這種多模態(tài)技術的結(jié)合使得火山引擎的音頻技術能夠處理更加復雜和多樣化的音頻任務。
-
自研算法追求更優(yōu)性能:火山引擎在音頻技術領域擁有自主研發(fā)的核心算法,這些算法經(jīng)過不斷優(yōu)化和迭代,追求在性能上達到最優(yōu),能夠在各種應用場景下提供高質(zhì)量、高效率的音頻處理效果。
-
廣泛的產(chǎn)品線和應用能力:火山引擎已經(jīng)推出了包括文本朗讀(TTS)、節(jié)拍檢測(BeatTracking)、音樂轉(zhuǎn)譜(MIDI)、音樂標簽(MusicTagging)、音源分離(MusicSourceSeparate)、音頻降噪與增強(AudioNoiseReductionAndEnhancement)以及音效處理與變聲(SoundEffectProcessingAndVoiceChange)等一系列音頻技術產(chǎn)品,這些產(chǎn)品能夠滿足不同領域和場景下的音頻處理需求。
-
高度擬人化的語音合成技術:火山引擎的文本朗讀(TTS)技術采用業(yè)界領先的語音合成技術,能夠?qū)⑽谋巨D(zhuǎn)化為自然流暢、情感豐富、高度擬人化的語音,支持多語種、多方言,并具備幾十種音色和個性化定制能力,為用戶提供了豐富的選擇。
-
精準的音頻處理能力:火山引擎的音頻技術不僅限于語音合成,還包括音頻降噪與增強、音效處理與變聲等功能,能夠?qū)崿F(xiàn)對音頻的精準處理和優(yōu)化,滿足不同用戶對音頻處理效果的需求。
-
用AI賦能創(chuàng)作者:火山引擎的愿景是用AI賦能創(chuàng)作者,通過音頻技術激發(fā)創(chuàng)作靈感,為用戶提供全新的交互體驗,發(fā)掘聲音的無限可能。這種愿景使得火山引擎的音頻技術不僅僅是一種技術工具,更是一種能夠激發(fā)創(chuàng)造力和想象力的力量。
在哪些場景會用到北京火山引擎的音頻技術?
1. 有聲朗讀
用于小說、新聞、廣告等多種語音播報場景,風格多樣,情感豐富
2. 游戲場景
定制npc發(fā)音人,個性化語音包
3. 虛擬人物
適配不同虛擬形象的特色聲音,可輸出時間截匹配口型,效果更真實
4. 智能創(chuàng)作
為音視頻編輯的配音、轉(zhuǎn)場提供多樣化的精品音色,讓創(chuàng)作更精彩


免費服務
API | 免費調(diào)用量限額 | 免費調(diào)用并發(fā)限額 |
歌詞對齊 | 100分鐘免費調(diào)用,自開通之日3個月 | 2 |
正式服務
API | 調(diào)用量(分鐘/月) | 梯度價格(元/分鐘) | 調(diào)用并發(fā)限額 |
歌詞對齊 | - | 0.2 | 5 |
次數(shù)包
API | 調(diào)用量(分鐘) | 價格(元) | 調(diào)用并發(fā)限額 | 有效期 |
歌詞對齊 | 10000 | 1800 | 5 | 一年 |
歌詞對齊 | 50000 | 8500 | 5 | 一年 |
增購并發(fā)
API | 按月購買(元/并發(fā)/月) |
歌詞對齊 | 200 |


步驟一:注冊賬號
點擊立即注冊,注冊成為火山用戶(如已注冊,請直接登錄)
步驟二:登錄賬號完成實名認證
請點擊立即登錄立即登錄,登錄火山引擎控制臺,完成實名認證。
步驟三:獲取訪問密鑰AccessKey
拿到賬號,并且登錄控制臺后??梢栽诳刂婆_的右上角進入到密鑰管理,點擊進入:
在密鑰管理中心,用戶可以創(chuàng)建密鑰,后續(xù)在對接的過程中會用到。在這個頁面拿到AccessKey和AccessKey Secret。
步驟四:登錄音頻技術管控臺
使用火山引擎主賬號或者子賬號登錄音頻技術管控臺,默認進入 應用中心-應用管理 界面。
入口一:
從火山引擎首頁→產(chǎn)品→音頻技術→點擊管理控制臺或立即使用,即可進入音頻技術的控制臺。但首次登錄會要求注冊賬號。
入口二:
從火山引擎首頁→右上角管理控制臺→產(chǎn)品及服務列表中選擇音頻技術→即可進入音頻技術的控制臺。
進入控制臺后,會進入應用管理頁面,在這個頁面創(chuàng)建應用,開通API服務等。
步驟五:創(chuàng)建應用獲取appkey
操作路徑: 應用管理 -> 創(chuàng)建應用
-
創(chuàng)建應用
-
填寫應用信息,創(chuàng)建應用時,可能會發(fā)現(xiàn)部分能無法勾選。原因是此時還未開通相應的API服務。可以先完成步驟3的開通服務后,再去勾選應用接入。
-
開通服務,請點擊左側(cè)導航欄的“服務列表”先開通,則試用期以開通時刻開始計算。如果需要開通正式收費版服務,則繼續(xù)點擊“按調(diào)用次數(shù)付費”或者購買“次數(shù)包”。
4.服務接入應用,可以在能力詳情頁底部的“接入應用”或者是應用管理的右側(cè)的“接入應用”特別說明一下,語音合成的功能,有免費的4個音色可以直接調(diào)用。要開通試用 其他音色,可以在語音合成的介紹頁的底部開通,試用期一般是15天。
5.接入應用后,API可以使用。按照接入指南操作。其中用appkey
的位置如圖,開發(fā)測試。接口開發(fā)文檔中要求獲取的token,請在下一篇文章“獲取鑒權Token”中查看。
更新應用
操作路徑: 應用管理 -> 接入能力




計算 |
存儲 |
數(shù)據(jù)庫 | 容器與中間件 |
人工智能與機器學習 | 網(wǎng)絡 | CDN與邊緣 | 大數(shù)據(jù) |
視頻云 | 安全 | 企業(yè)服務與云通信 | 查看全部產(chǎn)品 |
企業(yè)上云
基于多云開放的高可用架構(gòu),火山引擎幫助企業(yè)業(yè)務快速云上部署,保障業(yè)務運行穩(wěn)定,不斷追求極致性能,使企業(yè)云上每一次計算及存儲都能獲得最優(yōu)配置。
音視頻
基于字節(jié)跳動音視頻場景下的產(chǎn)品與運營實踐,火山引擎為客戶提供覆蓋全場景云端一體音視頻解決方案,一站獲取完備音視頻能力,助力業(yè)務創(chuàng)新敏捷落地。
智能營銷
基于抖音集團的用戶增長方法論,火山引擎從業(yè)務視角出發(fā),持續(xù)串聯(lián)內(nèi)容生產(chǎn)、內(nèi)容管理、公私域運營等環(huán)節(jié),提供覆蓋營銷全鏈路的完整解決方案。
汽車行業(yè)
基于抖音集團在智能與數(shù)據(jù)領域的沉淀,火山引擎以“智能駕駛云”、“智能座艙云”、“體驗運營云”為核心,打造個性化的互動智能座艙,提升全生命周期用戶體驗,構(gòu)建精細化用戶運營和業(yè)務增長能力。
金融行業(yè)
基于字節(jié)跳動的技術積累,火山引擎為金融機構(gòu)提供從底層技術架構(gòu)到技術中臺,再到各類智能應用的全方位技術支持,構(gòu)建數(shù)字敏捷,激發(fā)金融活力。
文娛行業(yè)
基于抖音集團穩(wěn)定的基礎產(chǎn)品能力、數(shù)據(jù)驅(qū)動的營銷增長套件、AI加持的智能互動產(chǎn)品與多媒體技術,火山引擎為企業(yè)構(gòu)建穩(wěn)定業(yè)務、擴大用戶觸點、驅(qū)動交互創(chuàng)新、實現(xiàn)業(yè)務增長。
醫(yī)療
基于對生物醫(yī)學行業(yè)的關注,火山引擎與行業(yè)深度結(jié)合,通過BT+IT技術推動行業(yè)加速,為客戶提供多場景的解決方案,支持客戶業(yè)務創(chuàng)新、敏捷落地。
政府文旅
基于抖音集團的技術底座,火山引擎整合云基礎、數(shù)據(jù)、人工智能、物聯(lián)網(wǎng)等技術能力,全面助力城市實現(xiàn)數(shù)字化轉(zhuǎn)型,在城市治理、文旅營銷等場景中全面實現(xiàn)效率提升。
通信傳媒
基于抖音集團在泛資訊、短視頻等領域的前沿能力,火山引擎提供了覆蓋內(nèi)容引入、生產(chǎn)、運營、分發(fā)、消費的端到端服務能力,打造完善的媒體數(shù)智化運營體系。
大消費
基于抖音集團的場景化實踐,火山引擎圍繞人貨場關系,整合云基礎、數(shù)據(jù)、算法、AI、內(nèi)容等能力,實現(xiàn)從投放到交易的數(shù)據(jù)化閉環(huán),幫助企業(yè)數(shù)字化運營效率提升。
優(yōu)質(zhì)的服務,全方位的支持 火山引擎堅定進入云市場 我們將始終堅持三個關鍵的理念 |
||
定制化服務方案 |
全方位業(yè)務響應 |
專業(yè)化技術支持 |


免費服務
API | 免費調(diào)用量限額 | 免費調(diào)用并發(fā)限額 |
歌詞對齊 | 100分鐘免費調(diào)用,自開通之日3個月 | 2 |
正式服務
API | 調(diào)用量(分鐘/月) | 梯度價格(元/分鐘) | 調(diào)用并發(fā)限額 |
歌詞對齊 | - | 0.2 | 5 |
次數(shù)包
API | 調(diào)用量(分鐘) | 價格(元) | 調(diào)用并發(fā)限額 | 有效期 |
歌詞對齊 | 10000 | 1800 | 5 | 一年 |
歌詞對齊 | 50000 | 8500 | 5 | 一年 |
增購并發(fā)
API | 按月購買(元/并發(fā)/月) |
歌詞對齊 | 200 |


步驟一:注冊賬號
點擊立即注冊,注冊成為火山用戶(如已注冊,請直接登錄)
步驟二:登錄賬號完成實名認證
請點擊立即登錄立即登錄,登錄火山引擎控制臺,完成實名認證。
步驟三:獲取訪問密鑰AccessKey
拿到賬號,并且登錄控制臺后。可以在控制臺的右上角進入到密鑰管理,點擊進入:
在密鑰管理中心,用戶可以創(chuàng)建密鑰,后續(xù)在對接的過程中會用到。在這個頁面拿到AccessKey和AccessKey Secret。
步驟四:登錄音頻技術管控臺
使用火山引擎主賬號或者子賬號登錄音頻技術管控臺,默認進入 應用中心-應用管理 界面。
入口一:
從火山引擎首頁→產(chǎn)品→音頻技術→點擊管理控制臺或立即使用,即可進入音頻技術的控制臺。但首次登錄會要求注冊賬號。
入口二:
從火山引擎首頁→右上角管理控制臺→產(chǎn)品及服務列表中選擇音頻技術→即可進入音頻技術的控制臺。
進入控制臺后,會進入應用管理頁面,在這個頁面創(chuàng)建應用,開通API服務等。
步驟五:創(chuàng)建應用獲取appkey
操作路徑: 應用管理 -> 創(chuàng)建應用
-
創(chuàng)建應用
-
填寫應用信息,創(chuàng)建應用時,可能會發(fā)現(xiàn)部分能無法勾選。原因是此時還未開通相應的API服務。可以先完成步驟3的開通服務后,再去勾選應用接入。
-
開通服務,請點擊左側(cè)導航欄的“服務列表”先開通,則試用期以開通時刻開始計算。如果需要開通正式收費版服務,則繼續(xù)點擊“按調(diào)用次數(shù)付費”或者購買“次數(shù)包”。
4.服務接入應用,可以在能力詳情頁底部的“接入應用”或者是應用管理的右側(cè)的“接入應用”特別說明一下,語音合成的功能,有免費的4個音色可以直接調(diào)用。要開通試用 其他音色,可以在語音合成的介紹頁的底部開通,試用期一般是15天。
5.接入應用后,API可以使用。按照接入指南操作。其中用appkey
的位置如圖,開發(fā)測試。接口開發(fā)文檔中要求獲取的token,請在下一篇文章“獲取鑒權Token”中查看。
更新應用
操作路徑: 應用管理 -> 接入能力






計算 |
存儲 |
數(shù)據(jù)庫 | 容器與中間件 |
人工智能與機器學習 | 網(wǎng)絡 | CDN與邊緣 | 大數(shù)據(jù) |
視頻云 | 安全 | 企業(yè)服務與云通信 | 查看全部產(chǎn)品 |
企業(yè)上云
基于多云開放的高可用架構(gòu),火山引擎幫助企業(yè)業(yè)務快速云上部署,保障業(yè)務運行穩(wěn)定,不斷追求極致性能,使企業(yè)云上每一次計算及存儲都能獲得最優(yōu)配置。
音視頻
基于字節(jié)跳動音視頻場景下的產(chǎn)品與運營實踐,火山引擎為客戶提供覆蓋全場景云端一體音視頻解決方案,一站獲取完備音視頻能力,助力業(yè)務創(chuàng)新敏捷落地。
智能營銷
基于抖音集團的用戶增長方法論,火山引擎從業(yè)務視角出發(fā),持續(xù)串聯(lián)內(nèi)容生產(chǎn)、內(nèi)容管理、公私域運營等環(huán)節(jié),提供覆蓋營銷全鏈路的完整解決方案。
汽車行業(yè)
基于抖音集團在智能與數(shù)據(jù)領域的沉淀,火山引擎以“智能駕駛云”、“智能座艙云”、“體驗運營云”為核心,打造個性化的互動智能座艙,提升全生命周期用戶體驗,構(gòu)建精細化用戶運營和業(yè)務增長能力。
金融行業(yè)
基于字節(jié)跳動的技術積累,火山引擎為金融機構(gòu)提供從底層技術架構(gòu)到技術中臺,再到各類智能應用的全方位技術支持,構(gòu)建數(shù)字敏捷,激發(fā)金融活力。
文娛行業(yè)
基于抖音集團穩(wěn)定的基礎產(chǎn)品能力、數(shù)據(jù)驅(qū)動的營銷增長套件、AI加持的智能互動產(chǎn)品與多媒體技術,火山引擎為企業(yè)構(gòu)建穩(wěn)定業(yè)務、擴大用戶觸點、驅(qū)動交互創(chuàng)新、實現(xiàn)業(yè)務增長。
醫(yī)療
基于對生物醫(yī)學行業(yè)的關注,火山引擎與行業(yè)深度結(jié)合,通過BT+IT技術推動行業(yè)加速,為客戶提供多場景的解決方案,支持客戶業(yè)務創(chuàng)新、敏捷落地。
政府文旅
基于抖音集團的技術底座,火山引擎整合云基礎、數(shù)據(jù)、人工智能、物聯(lián)網(wǎng)等技術能力,全面助力城市實現(xiàn)數(shù)字化轉(zhuǎn)型,在城市治理、文旅營銷等場景中全面實現(xiàn)效率提升。
通信傳媒
基于抖音集團在泛資訊、短視頻等領域的前沿能力,火山引擎提供了覆蓋內(nèi)容引入、生產(chǎn)、運營、分發(fā)、消費的端到端服務能力,打造完善的媒體數(shù)智化運營體系。
大消費
基于抖音集團的場景化實踐,火山引擎圍繞人貨場關系,整合云基礎、數(shù)據(jù)、算法、AI、內(nèi)容等能力,實現(xiàn)從投放到交易的數(shù)據(jù)化閉環(huán),幫助企業(yè)數(shù)字化運營效率提升。
優(yōu)質(zhì)的服務,全方位的支持 火山引擎堅定進入云市場 我們將始終堅持三個關鍵的理念 |
||
定制化服務方案 |
全方位業(yè)務響應 |
專業(yè)化技術支持 |