国产精品福利视频手机免费观看,久久综合精品视频,国产一级特黄a大片99

了解 OpenAI 實時 API 的事件類型

在將實時 API 集成到應用程序之前，了解 API 支持的事件類型至關重要。以下是與本文示例相關的主要事件類型，完整列表可以參考 OpenAI API 文檔。

會話事件

會話事件表示客戶端與服務器的整個交互過程，允許設置和更新對話中的參數。以下是一個會話對象的示例：

{
  "session_id": "example_session",
  "parameters": {
    "voice": "en-US",
    "input_format": "audio",
    "output_format": "text",
    "instructions": "Translate to English",
    "tools": []
  }
}

通過 session.update 事件將上述 JSON 對象發送到實時 API，可以設置默認參數，例如語音類型、輸入輸出格式和可用工具等。然而，在使用過程中，我發現以下兩個屬性會導致調用失敗：

input_audio_transcription
max_output_tokens

建議在調用前移除這些屬性，以避免會話調用失敗。

對話事件

對話事件用于管理客戶端與服務器之間的通信。最常用的事件是 conversation.item.create，它可以向對話中添加新項目。例如：

用戶消息
助理消息
系統提示
模擬函數調用的 function_call 項目
通知工具調用結果的 function_call_output 項目

服務器會通過 conversation.item.created 或 conventions.created 響應這些事件。

響應事件

服務器通過語音活動檢測（VAD）處理傳入的音頻，并在語音結束時生成響應。如果通過客戶端 API 手動創建會話項，則需要通過 response.create 事件觸發服務器響應。

以下是常見的響應事件類型：

response.created：通知響應開始生成。
response.text.delta：文本響應的一部分。
response.text.done：完整文本響應已生成。
response.audio.delta：音頻響應的一部分，包含 Base64 編碼的音頻數據。
response.audio.done：音頻生成完成。

構建支持語音的 WebSocket 應用

為了實現實時語音交互，我將應用程序分為兩部分：

WebSocket 連接代碼：用于與 OpenAI WebSocket 建立連接并發送、接收請求。
輔助函數：用于發送會話更新和處理消息。

WebSocket 連接代碼

以下是 WebSocket 連接的主要邏輯：

定義 OpenAI 實時 API 的 WebSocket URL（支持 Azure 和 OpenAI 端點）。
在開始對話前發送會話更新，包含 API 所需的工具配置。
監聽客戶端事件，并將其轉發到 OpenAI 服務器。

輔助函數

輔助函數的核心功能包括：

定義工具：工具的 JSON 結構與聊天完成 API 略有不同，需要插入到 session.update 對象的 tools 屬性中。
發送用戶消息：創建 conversation.item.create 對象，并通過 response.create 事件觸發響應。
解析 OpenAI 輸出：根據響應事件類型執行相應操作，例如解碼音頻增量或處理函數調用。

以下是一個解析響應事件的示例代碼：

async def _send_to_client(self, websocket: WebSocket, openai_ws: WebSocketClientProtocol) -> None:
    ...
    audio_payload = base64.b64encode(base64.b64decode(response['delta'])).decode('utf-8')
    audio_delta = {
        "event": "media",
        "media": {
            "payload": audio_payload
        }
    }
    # 將音頻增量發送到客戶端
    await websocket.send_json(audio_delta)
    ...

集成到 FastAPI 應用

在完成上述功能后，可以將其集成到 FastAPI 應用中。我在 WebSocket 服務器中設置了一個路由，允許用戶連接以發送和接收語音消息。

FastAPI 的 WebSocket API 非常適合此場景，因為其對象（如 WebSocket）是 JSON 可序列化的，并且可以直接用于路由。

以下是實現的關鍵步驟：

從終端錄制音頻，并以 _receive_from_client 函數期望的格式發送。
播放從 OpenAI 接收到的音頻。
確保以非阻塞方式處理音頻，以避免中斷其他 WebSocket 連接。

總結

通過以上步驟，您可以構建一個支持語音的 Python FastAPI 應用程序，并實現與 OpenAI 實時 API 的交互。雖然目前實時 API 的成本較高，但其強大的功能為語音應用開發提供了無限可能。

如果您對本文介紹的功能感興趣，可以訪問 mahilo 項目 GitHub 倉庫查看完整代碼。希望本文能為您的開發提供幫助，祝您編碼愉快！

原文鏈接: https://medium.com/thedeephub/building-a-voice-enabled-python-fastapi-app-using-openais-realtime-api-bfdf2947c3e4

如何獲取 SerpApi 開放平臺密鑰（分步指南）

旅游平臺的無縫API集成

#你可能也喜歡這些API文章!

2025旅行api集成指南：頂級技巧與api推薦

視頻流API的詳細介紹

使用ASP.NET Core創建RESTful API：全面指南

如何通過MCP+魔搭免費API搭建本地數據助手

api如何重塑在線教育與教育科技領域

米游社查詢 API：原神玩家數據獲取與應用

10 個保障 API 安全的認證最佳實踐

支付寶財富黑卡權益是什么？如何充分利用這些權益？

DeepSpeed-Chat 代碼分析

我們有何不同？

API服務商零注冊

多API并行試用

數據驅動選型，提升決策效率

查看全部API→

#AI文本生成大模型API

對比大模型API的內容創意新穎性、情感共鳴力、商業轉化潛力

25個渠道

一鍵對比試用API 限時免費

#AI深度推理大模型API

對比大模型API的邏輯推理準確性、分析深度、可視化建議合理性

10個渠道