辦公文檔識別
專用API
【更新時間: 2024.04.12】
可對辦公類文檔的版面進行分析,輸出圖、表、標題、文本、目錄、印章、欄、頁眉、頁腳、頁碼和腳注的位置,并輸出分版塊內容的OCR識別結果,支持表格識別和印章識別,支持中、英兩種語言,手寫、印刷體混排多種場景。
0.16/次
去服務商官網采購>
|
瀏覽次數
37
采購人數
1
試用次數
0
試用
收藏
×
完成
取消
×
書簽名稱
確定
|
相似API
明星圖像識別-天行數據
142
該 服務名為“明星圖像識別”,其主要功能是進行明星人物圖像的識別與查詢。它能夠快速且準確地對輸入的明星圖像進行分析,幫助用戶便捷地獲取相關明星的具體信息,為用戶提供高效的明星圖像識別服務體驗。
手寫文字識別
275
手寫文字識別,可檢測識別圖片中的手寫中文以及手寫數字。其針對不規則手寫字體專門進行了優化,有著出色的表現,識別準確率能夠達到 90%以上,能精準地對手寫文字進行分析和識別,為相關需求提供高效可靠的服務。
文檔審核
26
文檔審核(Document Auditing Service,DAS)是數據萬象推出的文檔內容安全智能識別服務,能夠有效識別文檔中出現的可能令人反感、不安全或不適宜內容,協助用戶建設綠色健康的社交網絡環境。
- API詳情
- 使用指南
- 常見 FAQ
- 關于我們
- 相關推薦

產品介紹

什么是辦公文檔識別?
服務詳情
百度智能云辦公文檔識別服務能夠對辦公類文檔的版面進行詳細分析,輸出文檔中的圖像、表格、標題、文本、目錄、印章、欄、頁眉、頁腳、頁碼和腳注的位置信息,并提供分版塊內客的OCR識別結果。該服務支持表格識別和印章識別,適配中英文兩種語言,適用于手寫、印刷體混合等多種場景。
核心功能
- 文檔版面分析:識別文檔中的各個元素,如圖像、表格、標題等,并定位其在文檔中的位置。
- 文檔混排識別:支持中文、英文兩種語言,適配純手寫、純印刷和手寫印刷混排等場景。
- 表格文字識別:識別文檔中的表格內容,返回單元格文字內容及其行列位置信息,支持各種表格樣式。
- 印章檢測識別:檢測并識別文檔中的印章,輸出印章內文字內容和印章位置信息,支持多種常見印章形狀。
使用場景
辦公場景文檔識別
合同和報告分析
數據錄入和歸檔
教育和研究
什么是辦公文檔識別接口?
由服務使用方的應用程序發起,以Restful風格為主、通過公網HTTP協議調用辦公文檔識別,從而實現程序的自動化交互,提高服務效率。

使用指南

辦公文檔識別服務Python示例代碼:
# encoding:utf-8
import requests
import base64
'''
辦公文檔識別
'''
request_url = "https://aip.baidubce.com/rest/2.0/ocr/v1/doc_analysis_office"
# 二進制方式打開圖片文件
f = open('[本地文件]', 'rb')
img = base64.b64encode(f.read())
params = {"image":img}
access_token = '[調用鑒權接口獲取的token]'
request_url = request_url + "?access_token=" + access_token
headers = {'content-type': 'application/x-www-form-urlencoded'}
response = requests.post(request_url, data=params, headers=headers)
if response:
print (response.json())
辦公文檔識別服務JAVA示例代碼:
package com.baidu.ai.aip;
import com.baidu.ai.aip.utils.Base64Util;
import com.baidu.ai.aip.utils.FileUtil;
import com.baidu.ai.aip.utils.HttpUtil;
import java.net.URLEncoder;
/**
* 辦公文檔識別
*/
public class AnalysisOffice {
/**
* 重要提示代碼中所需工具類
* FileUtil,Base64Util,HttpUtil,GsonUtils請從
* https://ai.baidu.com/file/658A35ABAB2D404FBF903F64D47C1F72
* https://ai.baidu.com/file/C8D81F3301E24D2892968F09AE1AD6E2
* https://ai.baidu.com/file/544D677F5D4E4F17B4122FBD60DB82B3
* https://ai.baidu.com/file/470B3ACCA3FE43788B5A963BF0B625F3
* 下載
*/
public static String analysisOffice() {
// 請求url
String url = "https://aip.baidubce.com/rest/2.0/ocr/v1/doc_analysis_office";
try {
// 本地文件路徑
String filePath = "[本地文件路徑]";
byte[] imgData = FileUtil.readFileByBytes(filePath);
String imgStr = Base64Util.encode(imgData);
String imgParam = URLEncoder.encode(imgStr, "UTF-8");
String param = "image=" + imgParam;
// 注意這里僅為了簡化編碼每一次請求都去獲取access_token,線上環境access_token有過期時間, 客戶端可自行緩存,過期后重新獲取。
String accessToken = "[調用鑒權接口獲取的token]";
String result = HttpUtil.post(url, accessToken, param);
System.out.println(result);
return result;
} catch (Exception e) {
e.printStackTrace();
}
return null;
}
public static void main(String[] args) {
AnalysisOffice.analysisOffice();
}
}
辦公文檔識別服務JAVA示例代碼:
#include <iostream>
#include <curl/curl.h>
// libcurl庫下載鏈接:https://curl.haxx.se/download.html
// jsoncpp庫下載鏈接:https://github.com/open-source-parsers/jsoncpp/
const static std::string request_url = "https://aip.baidubce.com/rest/2.0/ocr/v1/doc_analysis_office";
static std::string analysisOffice_result;
/**
* curl發送http請求調用的回調函數,回調函數中對返回的json格式的body進行了解析,解析結果儲存在全局的靜態變量當中
* @param 參數定義見libcurl文檔
* @return 返回值定義見libcurl文檔
*/
static size_t callback(void *ptr, size_t size, size_t nmemb, void *stream) {
// 獲取到的body存放在ptr中,先將其轉換為string格式
analysisOffice_result = std::string((char *) ptr, size * nmemb);
return size * nmemb;
}
/**
* 辦公文檔識別
* @return 調用成功返回0,發生錯誤返回其他錯誤碼
*/
int analysisOffice(std::string &json_result, const std::string &access_token) {
std::string url = request_url + "?access_token=" + access_token;
CURL *curl = NULL;
CURLcode result_code;
int is_success;
curl = curl_easy_init();
if (curl) {
curl_easy_setopt(curl, CURLOPT_URL, url.data());
curl_easy_setopt(curl, CURLOPT_POST, 1);
curl_httppost *post = NULL;
curl_httppost *last = NULL;
curl_formadd(&post, &last, CURLFORM_COPYNAME, "image", CURLFORM_COPYCONTENTS, "【base64_img】", CURLFORM_END);
curl_easy_setopt(curl, CURLOPT_HTTPPOST, post);
curl_easy_setopt(curl, CURLOPT_WRITEFUNCTION, callback);
result_code = curl_easy_perform(curl);
if (result_code != CURLE_OK) {
fprintf(stderr, "curl_easy_perform() failed: %s
",
curl_easy_strerror(result_code));
is_success = 1;
return is_success;
}
json_result = analysisOffice_result;
curl_easy_cleanup(curl);
is_success = 0;
} else {
fprintf(stderr, "curl_easy_init() failed.");
is_success = 1;
}
return is_success;
}
辦公文檔識別服務PHP示例代碼:
<?php
/**
* 發起http post請求(REST API), 并獲取REST請求的結果
* @param string $url
* @param string $param
* @return - http response body if succeeds, else false.
*/
function request_post($url = '', $param = '')
{
if (empty($url) || empty($param)) {
return false;
}
$postUrl = $url;
$curlPost = $param;
// 初始化curl
$curl = curl_init();
curl_setopt($curl, CURLOPT_URL, $postUrl);
curl_setopt($curl, CURLOPT_HEADER, 0);
// 要求結果為字符串且輸出到屏幕上
curl_setopt($curl, CURLOPT_RETURNTRANSFER, 1);
curl_setopt($curl, CURLOPT_SSL_VERIFYPEER, false);
// post提交方式
curl_setopt($curl, CURLOPT_POST, 1);
curl_setopt($curl, CURLOPT_POSTFIELDS, $curlPost);
// 運行curl
$data = curl_exec($curl);
curl_close($curl);
return $data;
}
$token = '[調用鑒權接口獲取的token]';
$url = 'https://aip.baidubce.com/rest/2.0/ocr/v1/doc_analysis_office?access_token=' . $token;
$img = file_get_contents('[本地文件路徑]');
$img = base64_encode($img);
$bodys = array(
'image' => $img
);
$res = request_post($url, $bodys);
var_dump($res);
辦公文檔識別服務C#示例代碼:
using System;
using System.IO;
using System.Net;
using System.Text;
using System.Web;
namespace com.baidu.ai
{
public class AnalysisOffice
{
// 辦公文檔識別
public static string analysisOffice()
{
string token = "[調用鑒權接口獲取的token]";
string host = "https://aip.baidubce.com/rest/2.0/ocr/v1/doc_analysis_office?access_token=" + token;
Encoding encoding = Encoding.Default;
HttpWebRequest request = (HttpWebRequest)WebRequest.Create(host);
request.Method = "post";
request.KeepAlive = true;
// 圖片的base64編碼
string base64 = getFileBase64("[本地圖片文件]");
String str = "image=" + HttpUtility.UrlEncode(base64);
byte[] buffer = encoding.GetBytes(str);
request.ContentLength = buffer.Length;
request.GetRequestStream().Write(buffer, 0, buffer.Length);
HttpWebResponse response = (HttpWebResponse)request.GetResponse();
StreamReader reader = new StreamReader(response.GetResponseStream(), Encoding.Default);
string result = reader.ReadToEnd();
Console.WriteLine("辦公文檔識別:");
Console.WriteLine(result);
return result;
}
public static String getFileBase64(String fileName) {
FileStream filestream = new FileStream(fileName, FileMode.Open);
byte[] arr = new byte[filestream.Length];
filestream.Read(arr, 0, (int)filestream.Length);
string baser64 = Convert.ToBase64String(arr);
filestream.Close();
return baser64;
}
}
}

產品問答

?
需要使用什么賬號登錄?
您需要擁有一個百度賬號,用來登錄百度云,可以點擊此處注冊百度賬戶。如您以前擁有百度推廣賬戶,同樣可以登錄百度云。
?
注冊百度賬戶時收不到驗證碼怎么辦?
由于欠費停機、存儲信息已滿、信號網絡延遲等原因沒有及時收到驗證碼,這時請檢查您的手機及話費余額,保證手機可正常接收短信后,請嘗試重新獲取驗證碼。
?
AI服務支持推廣賬號使用么?
支持推廣賬戶使用。
?
百度大腦目前開放了哪些能力?
百度大腦是百度 AI 核心技術引擎,包括視覺、語音、自然語言處理、知識圖譜、深度學習等AI核心技術和AI開放平臺。百度大腦對內支持百度所有業務,對外全方位開放,助力合作伙伴和開發者,加速AI技術落地應用,賦能各行各業轉型升級,并賦能行業客戶。
?
每個服務的請求配額都是免費的么?
目前我們為每個賬戶下的每項API服務,都設置了固定的免費請求配額,便于您體驗服務及應用調試。在免費試用階段,成功調用或失敗調用都算做一次有效調用,會消耗免費測試資源。
?
QPS超限怎么辦?
QPS超限可以根據您的需求,進行購買。百度AI技術服務的詳細價目表: https://ai.baidu.com/ai-doc/REFERENCE/hk3dwjfzo 價目表包含:免費測試資源、計費簡介、計費價目表、費用列舉等。
?
怎么提高識別的準確率和識別速度?
文字識別的準確率跟拍攝光照、背景、清晰度等因素有關。推薦上傳JPG圖片格式,圖片大小建議1M以內。可在圖片采集端盡量擴大要識別文字的區域,并保證圖片內文字清晰人眼可辨認、傾斜度不得小于30%。同時,適當壓縮圖片大小,可大幅縮短圖片識別時間。

關于我們

北京百度網訊科技有限公司
企業
北京百度網訊科技有限公司是一家領先的人工智能平臺型公司,提供全面的云服務和解決方案。公司依托強大的云計算能力,結合百度大腦和大數據技術,為企業和開發者提供包括云服務器、對象存儲、內容分發網絡、人工智能、企業服務等在內的多樣化產品和服務。通過智能化解決方案,百度智能云助力各行業實現數字化轉型和智能化升級,推動產業創新和社會進步。
聯系信息
安全合規可信的云服務 |
||||
API接口列表

使用指南

辦公文檔識別服務Python示例代碼:
# encoding:utf-8
import requests
import base64
'''
辦公文檔識別
'''
request_url = "https://aip.baidubce.com/rest/2.0/ocr/v1/doc_analysis_office"
# 二進制方式打開圖片文件
f = open('[本地文件]', 'rb')
img = base64.b64encode(f.read())
params = {"image":img}
access_token = '[調用鑒權接口獲取的token]'
request_url = request_url + "?access_token=" + access_token
headers = {'content-type': 'application/x-www-form-urlencoded'}
response = requests.post(request_url, data=params, headers=headers)
if response:
print (response.json())
辦公文檔識別服務JAVA示例代碼:
package com.baidu.ai.aip;
import com.baidu.ai.aip.utils.Base64Util;
import com.baidu.ai.aip.utils.FileUtil;
import com.baidu.ai.aip.utils.HttpUtil;
import java.net.URLEncoder;
/**
* 辦公文檔識別
*/
public class AnalysisOffice {
/**
* 重要提示代碼中所需工具類
* FileUtil,Base64Util,HttpUtil,GsonUtils請從
* https://ai.baidu.com/file/658A35ABAB2D404FBF903F64D47C1F72
* https://ai.baidu.com/file/C8D81F3301E24D2892968F09AE1AD6E2
* https://ai.baidu.com/file/544D677F5D4E4F17B4122FBD60DB82B3
* https://ai.baidu.com/file/470B3ACCA3FE43788B5A963BF0B625F3
* 下載
*/
public static String analysisOffice() {
// 請求url
String url = "https://aip.baidubce.com/rest/2.0/ocr/v1/doc_analysis_office";
try {
// 本地文件路徑
String filePath = "[本地文件路徑]";
byte[] imgData = FileUtil.readFileByBytes(filePath);
String imgStr = Base64Util.encode(imgData);
String imgParam = URLEncoder.encode(imgStr, "UTF-8");
String param = "image=" + imgParam;
// 注意這里僅為了簡化編碼每一次請求都去獲取access_token,線上環境access_token有過期時間, 客戶端可自行緩存,過期后重新獲取。
String accessToken = "[調用鑒權接口獲取的token]";
String result = HttpUtil.post(url, accessToken, param);
System.out.println(result);
return result;
} catch (Exception e) {
e.printStackTrace();
}
return null;
}
public static void main(String[] args) {
AnalysisOffice.analysisOffice();
}
}
辦公文檔識別服務JAVA示例代碼:
#include <iostream>
#include <curl/curl.h>
// libcurl庫下載鏈接:https://curl.haxx.se/download.html
// jsoncpp庫下載鏈接:https://github.com/open-source-parsers/jsoncpp/
const static std::string request_url = "https://aip.baidubce.com/rest/2.0/ocr/v1/doc_analysis_office";
static std::string analysisOffice_result;
/**
* curl發送http請求調用的回調函數,回調函數中對返回的json格式的body進行了解析,解析結果儲存在全局的靜態變量當中
* @param 參數定義見libcurl文檔
* @return 返回值定義見libcurl文檔
*/
static size_t callback(void *ptr, size_t size, size_t nmemb, void *stream) {
// 獲取到的body存放在ptr中,先將其轉換為string格式
analysisOffice_result = std::string((char *) ptr, size * nmemb);
return size * nmemb;
}
/**
* 辦公文檔識別
* @return 調用成功返回0,發生錯誤返回其他錯誤碼
*/
int analysisOffice(std::string &json_result, const std::string &access_token) {
std::string url = request_url + "?access_token=" + access_token;
CURL *curl = NULL;
CURLcode result_code;
int is_success;
curl = curl_easy_init();
if (curl) {
curl_easy_setopt(curl, CURLOPT_URL, url.data());
curl_easy_setopt(curl, CURLOPT_POST, 1);
curl_httppost *post = NULL;
curl_httppost *last = NULL;
curl_formadd(&post, &last, CURLFORM_COPYNAME, "image", CURLFORM_COPYCONTENTS, "【base64_img】", CURLFORM_END);
curl_easy_setopt(curl, CURLOPT_HTTPPOST, post);
curl_easy_setopt(curl, CURLOPT_WRITEFUNCTION, callback);
result_code = curl_easy_perform(curl);
if (result_code != CURLE_OK) {
fprintf(stderr, "curl_easy_perform() failed: %s
",
curl_easy_strerror(result_code));
is_success = 1;
return is_success;
}
json_result = analysisOffice_result;
curl_easy_cleanup(curl);
is_success = 0;
} else {
fprintf(stderr, "curl_easy_init() failed.");
is_success = 1;
}
return is_success;
}
辦公文檔識別服務PHP示例代碼:
<?php
/**
* 發起http post請求(REST API), 并獲取REST請求的結果
* @param string $url
* @param string $param
* @return - http response body if succeeds, else false.
*/
function request_post($url = '', $param = '')
{
if (empty($url) || empty($param)) {
return false;
}
$postUrl = $url;
$curlPost = $param;
// 初始化curl
$curl = curl_init();
curl_setopt($curl, CURLOPT_URL, $postUrl);
curl_setopt($curl, CURLOPT_HEADER, 0);
// 要求結果為字符串且輸出到屏幕上
curl_setopt($curl, CURLOPT_RETURNTRANSFER, 1);
curl_setopt($curl, CURLOPT_SSL_VERIFYPEER, false);
// post提交方式
curl_setopt($curl, CURLOPT_POST, 1);
curl_setopt($curl, CURLOPT_POSTFIELDS, $curlPost);
// 運行curl
$data = curl_exec($curl);
curl_close($curl);
return $data;
}
$token = '[調用鑒權接口獲取的token]';
$url = 'https://aip.baidubce.com/rest/2.0/ocr/v1/doc_analysis_office?access_token=' . $token;
$img = file_get_contents('[本地文件路徑]');
$img = base64_encode($img);
$bodys = array(
'image' => $img
);
$res = request_post($url, $bodys);
var_dump($res);
辦公文檔識別服務C#示例代碼:
using System;
using System.IO;
using System.Net;
using System.Text;
using System.Web;
namespace com.baidu.ai
{
public class AnalysisOffice
{
// 辦公文檔識別
public static string analysisOffice()
{
string token = "[調用鑒權接口獲取的token]";
string host = "https://aip.baidubce.com/rest/2.0/ocr/v1/doc_analysis_office?access_token=" + token;
Encoding encoding = Encoding.Default;
HttpWebRequest request = (HttpWebRequest)WebRequest.Create(host);
request.Method = "post";
request.KeepAlive = true;
// 圖片的base64編碼
string base64 = getFileBase64("[本地圖片文件]");
String str = "image=" + HttpUtility.UrlEncode(base64);
byte[] buffer = encoding.GetBytes(str);
request.ContentLength = buffer.Length;
request.GetRequestStream().Write(buffer, 0, buffer.Length);
HttpWebResponse response = (HttpWebResponse)request.GetResponse();
StreamReader reader = new StreamReader(response.GetResponseStream(), Encoding.Default);
string result = reader.ReadToEnd();
Console.WriteLine("辦公文檔識別:");
Console.WriteLine(result);
return result;
}
public static String getFileBase64(String fileName) {
FileStream filestream = new FileStream(fileName, FileMode.Open);
byte[] arr = new byte[filestream.Length];
filestream.Read(arr, 0, (int)filestream.Length);
string baser64 = Convert.ToBase64String(arr);
filestream.Close();
return baser64;
}
}
}

依賴服務


產品問答

?
需要使用什么賬號登錄?
您需要擁有一個百度賬號,用來登錄百度云,可以點擊此處注冊百度賬戶。如您以前擁有百度推廣賬戶,同樣可以登錄百度云。
?
注冊百度賬戶時收不到驗證碼怎么辦?
由于欠費停機、存儲信息已滿、信號網絡延遲等原因沒有及時收到驗證碼,這時請檢查您的手機及話費余額,保證手機可正常接收短信后,請嘗試重新獲取驗證碼。
?
AI服務支持推廣賬號使用么?
支持推廣賬戶使用。
?
百度大腦目前開放了哪些能力?
百度大腦是百度 AI 核心技術引擎,包括視覺、語音、自然語言處理、知識圖譜、深度學習等AI核心技術和AI開放平臺。百度大腦對內支持百度所有業務,對外全方位開放,助力合作伙伴和開發者,加速AI技術落地應用,賦能各行各業轉型升級,并賦能行業客戶。
?
每個服務的請求配額都是免費的么?
目前我們為每個賬戶下的每項API服務,都設置了固定的免費請求配額,便于您體驗服務及應用調試。在免費試用階段,成功調用或失敗調用都算做一次有效調用,會消耗免費測試資源。
?
QPS超限怎么辦?
QPS超限可以根據您的需求,進行購買。百度AI技術服務的詳細價目表: https://ai.baidu.com/ai-doc/REFERENCE/hk3dwjfzo 價目表包含:免費測試資源、計費簡介、計費價目表、費用列舉等。
?
怎么提高識別的準確率和識別速度?
文字識別的準確率跟拍攝光照、背景、清晰度等因素有關。推薦上傳JPG圖片格式,圖片大小建議1M以內。可在圖片采集端盡量擴大要識別文字的區域,并保證圖片內文字清晰人眼可辨認、傾斜度不得小于30%。同時,適當壓縮圖片大小,可大幅縮短圖片識別時間。

關于我們

北京百度網訊科技有限公司
企業
北京百度網訊科技有限公司是一家領先的人工智能平臺型公司,提供全面的云服務和解決方案。公司依托強大的云計算能力,結合百度大腦和大數據技術,為企業和開發者提供包括云服務器、對象存儲、內容分發網絡、人工智能、企業服務等在內的多樣化產品和服務。通過智能化解決方案,百度智能云助力各行業實現數字化轉型和智能化升級,推動產業創新和社會進步。
聯系信息
安全合規可信的云服務 |
||||

合作案例

|
|
|
|
|
|
|
|
|
|
|
|