
GraphRAG:基于PolarDB+通義千問api+LangChain的知識圖譜定制實踐
為了防止API接口中的數據被篡改,很多時候我們需要對API接口做簽名
。
接口請求方將請求參數
+ 時間戳
+ 密鑰
拼接成一個字符串,然后通過md5
等hash算法,生成一個前面sign。
然后在請求參數或者請求頭中,增加sign參數,傳遞給API接口。
API接口的網關服務,獲取到該sign值,然后用相同的請求參數 + 時間戳 + 密鑰拼接成一個字符串,用相同的m5算法生成另外一個sign,對比兩個sign值是否相等。
如果兩個sign相等,則認為是有效請求,API接口的網關服務會將給請求轉發給相應的業務系統。
如果兩個sign不相等,則API接口的網關服務會直接返回簽名錯誤。
問題來了:簽名中為什么要加時間戳?
答:為了安全性考慮,防止同一次請求被反復利用,增加了密鑰沒破解的可能性,我們必須要對每次請求都設置一個合理的過期時間,比如:15分鐘。
這樣一次請求,在15分鐘之內是有效的,超過15分鐘,API接口的網關服務會返回超過有效期的異常提示。
目前生成簽名中的密鑰有兩種形式:
一種是雙方約定一個固定值privateKey。
另一種是API接口提供方給出AK/SK兩個值,雙方約定用SK作為簽名中的密鑰。AK接口調用方作為header中的accessKey傳遞給API接口提供方,這樣API接口提供方可以根據AK獲取到SK,而生成新的sgin。
有些時候,我們的API接口直接傳遞的非常重要的數據,比如:用戶的登錄密碼、銀行卡號、轉賬金額、用戶身份證等,如果將這些參數,直接明文,暴露到公網上是非常危險的事情。
由此,我們需要對數據進行加密
。
比如:用戶注冊接口,用戶輸入了用戶名和密碼之后,需要將密碼加密。
我們可以使用AES
對稱加密算法。
在前端使用公鑰
對用戶密碼加密。
然后注冊接口中,可以使用密鑰
解密,做一些業務需求校驗。然后再換成其他的加密方式加密,保存到數據庫當中。
為了進一步加強API接口的安全性,防止接口的簽名或者加密被破解了,攻擊者可以在自己的服務器上請求該接口。
需求限制請求ip
,增加ip白名單
。
只有在白名單中的ip地址,才能成功請求API接口,否則直接返回無訪問權限。
ip白名單也可以加在API網關服務上。
但也要防止公司的內部應用服務器被攻破,這種情況也可以從內部服務器上發起API接口的請求。
這時候就需要增加web防火墻了,比如:ModSecurity等。
如果你的API接口被第三方平臺調用了,這就意味著著,調用頻率是沒法控制的。
第三方平臺調用你的API接口時,如果并發量一下子太高,可能會導致你的API服務不可用,接口直接掛掉。
由此,必須要對API接口做限流
。
API接口總的請求次數
,不能超過10000次。指定的API接口
,請求次數不能超過2000次。AK/SK用戶
,在一分鐘內,對API接口總的請求次數,不能超過10000次。我們在實際工作中,可以通過nginx
,redis
或者gateway
實現限流的功能。
我們需要對API接口做參數校驗
,比如:校驗必填字段是否為空,校驗字段類型,校驗字段長度,校驗枚舉值等等。
這樣做可以攔截一些無效的請求。
比如在新增數據時,字段長度超過了數據字段的最大長度,數據庫會直接報錯。
但這種異常的請求,我們完全可以在API接口的前期進行識別,沒有必要走到數據庫保存數據那一步,浪費系統資源。
有些金額字段,本來是正數,但如果用戶傳入了負數,萬一接口沒做校驗,可能會導致一些沒必要的損失。
還有些狀態字段,如果不做校驗,用戶如果傳入了系統中不存在的枚舉值,就會導致保存的數據異常。
由此可見,做參數校驗是非常有必要的。
在Java中校驗數據使用最多的是hiberate
的Validator
框架,它里面包含了@Null、@NotEmpty、@Size、@Max、@Min等注解。
用它們校驗數據非常方便。
當然有些日期字段和枚舉字段,可能需要通過自定義注解的方式實現參數校驗。
我之前調用過別人的API接口,比如:
{
"code":0,
"message":null,
"data":[{"id":123,"name":"abc"}]
},
{
"code":1001,
"message":"簽名錯誤",
"data":null
}
{
"rt":10,
"errorMgt":"沒有權限",
"result":null
}
這種是比較坑的做法,返回值中有多種不同格式的返回數據,這樣會導致對接方很難理解。
出現這種情況,可能是API網關定義了一直返回值結構,業務系統定義了另外一種返回值結構。如果是網關異常,則返回網關定義的返回值結構,如果是業務系統異常,則返回業務系統的返回值結構。
但這樣會導致API接口出現不同的異常時,返回不同的返回值結構,非常不利于接口的維護。
其實這個問題我們可以在設計API網關
時解決。
業務系統在出現異常時,拋出業務異常的RuntimeException,其中有個message字段定義異常信息。
所有的API接口都必須經過API網關,API網關捕獲該業務異常,然后轉換成統一的異常結構返回,這樣能統一返回值結構。
我們的API接口需要對異常
進行統一處理。
不知道你有沒有遇到過這種場景:有時候在API接口中,需要訪問數據庫,但表不存在,或者sql語句異常,就會直接把sql信息在API接口中直接返回。
返回值中包含了異常堆棧信息
、數據庫信息
、錯誤代碼和行數
等信息。
如果直接把這些內容暴露給第三方平臺,是很危險的事情。
有些不法分子,利用接口返回值中的這些信息,有可能會進行sql注入或者直接脫庫,而對我們系統造成一定的損失。
因此非常有必要對API接口中的異常做統一處理,把異常轉換成這樣:
{
"code":500,
"message":"服務器內部錯誤",
"data":null
}
返回碼code
是500
,返回信息message
是服務器內部異常
。
這樣第三方平臺就知道是API接口出現了內部問題,但不知道具體原因,他們可以找我們排查問題。
我們可以在內部的日志文件中,把堆棧信息、數據庫信息、錯誤代碼行數等信息,打印出來。
我們可以在gateway
中對異常進行攔截,做統一封裝,然后給第三方平臺的是處理后沒有敏感信息的錯誤信息。
在第三方平臺請求你的API接口時,接口的請求日志非常重要,通過它可以快速的分析和定位問題。
我們需要把API接口的請求url、請求參數、請求頭、請求方式、響應數據和響應時間等,記錄到日志文件中。
最好有traceId
,可以通過它串聯整個請求的日志,過濾多余的日志。
當然有些時候,請求日志不光是你們公司開發人員需要查看,第三方平臺的用戶也需要能查看接口的請求日志。
這時就需要把日志落地到數據庫,比如:mongodb
或者elastic search
,然后做一個UI頁面,給第三方平臺的用戶開通查看權限。這樣他們就能在外網查看請求日志了,他們自己也能定位一部分問題。
第三方平臺極有可能在極短的時間內,請求我們接口多次,比如:在1秒內請求兩次。有可能是他們業務系統有bug,或者在做接口調用失敗重試,因此我們的API接口需要做冪等設計
。
也就是說要支持在極短的時間內,第三方平臺用相同的參數請求API接口多次,第一次請求數據庫會新增數據,但第二次請求以后就不會新增數據,但也會返回成功。
這樣做的目的是不會產生錯誤數據。
我們在日常工作中,可以通過在數據庫
中增加唯一索引
,或者在redis
保存requestId
和請求參來保證接口冪等性。
對于對我提供的批量接口,一定要限制請求的記錄條數
。
如果請求的數據太多,很容易造成API接口超時
等問題,讓API接口變得不穩定。
通常情況下,建議一次請求中的參數,最多支持傳入500條記錄。
如果用戶傳入多余500條記錄,則接口直接給出提示。
建議這個參數做成可配置的,并且要事先跟第三方平臺協商好,避免上線后產生不必要的問題。
對于一次性查詢的數據太多的情況,我們需要將接口設計成分頁查詢返回的。
上線前我們務必要對API接口做一下壓力測試
,知道各個接口的qps
情況。
以便于我們能夠更好的預估,需要部署多少服務器節點,對于API接口的穩定性至關重要。
之前雖說對API接口做了限流,但是實際上API接口是否能夠達到限制的閥值,這是一個問號,如果不做壓力測試,是有很大風險的。
比如:你API接口限流1秒只允許50次請求,但實際API接口只能處理30次請求,這樣你的API接口也會處理不過來。
我們在工作中可以用jmeter
或者apache benc
對API接口做壓力測試。
一般的API接口的邏輯都是同步處理的,請求完之后立刻返回結果。
但有時候,我們的API接口里面的業務邏輯非常復雜,特別是有些批量接口,如果同步處理業務,耗時會非常長。
這種情況下,為了提升API接口的性能,我們可以改成異步處理
。
在API接口中可以發送一條mq消息
,然后直接返回成功。之后,有個專門的mq消費者
去異步消費該消息,做業務邏輯處理。
直接異步處理的接口,第三方平臺有兩種方式獲取到。
我們回調
第三方平臺的接口,告知他們API接口的處理結果,很多支付接口就是這么玩的。
第三方平臺通過輪詢
調用我們另外一個查詢狀態的API接口,每隔一段時間查詢一次狀態,傳入的參數是之前的那個API接口中的id集合。
有時候第三方平臺調用我們API接口時,獲取的數據中有一部分是敏感數據,比如:用戶手機號、銀行卡號等等。
這樣信息如果通過API接口直接保留到外網,是非常不安全的,很容易造成用戶隱私數據泄露的問題。
這就需要對部分數據做數據脫敏
了。
我們可以在返回的數據中,部分內容用星號
代替。
已用戶手機號為例:182****887
。
這樣即使數據被泄露了,也只泄露了一部分,不法分子拿到這份數據也沒啥用。
說實話,一份完整的API接口文檔,在雙方做接口對接時,可以減少很多溝通成本,讓對方少走很多彎路。
接口文檔中需要包含如下信息:
接口文檔中最好能夠統一接口和字段名稱的命名風格,比如都用駝峰標識
命名。
統一字段的類型和長度,比如:id字段用Long類型,長度規定20。status字段用int類型,長度固定2等。
統一時間格式字段,比如:time用String類型,格式為:yyyy-MM-dd HH:mm:ss。
接口文檔中寫明AK/SK和域名,找某某單獨提供等。
接口支持的請求方式有很多,比如:GET、POST、PUT、DELETE等等。
我們在設計接口的時候,要根據實際情況選擇使用哪種請求方式。
實際工作中使用最多的是:GET
和POST
,這兩種請求方式。
如果沒有輸入參數的接口,可以使用GET請求方式,問題不大。
如果有輸入參數的接口,推薦使用POST請求方式,坑更少。
主要原因有下面兩點:
對于一些公共的功能,比如:接口的權限驗證,或者接口的traceId參數。
我們在設計接口的時候,不用把所有的參數,都放入接口的請求參數中。
有些參數可以放到Header
請求頭中。
比如:我們需求記錄每個請求的traceId,不用在所有接口中都加traceId字段。
而改成讓用戶在header中傳入traceId,在服務端使用統一的攔截器解析header,即可獲取該traceId了。
我們在設計接口的時候,無論是查詢數據、添加數據、修改數據,還是刪除的場景,都應該考慮一下能否設計成批量
的。
很多時候,需要通過id查詢數據詳情,比如:通過訂單id,查詢訂單詳情。
如果你的接口只支持,通過一個id,查詢一個訂單的詳情。
那么,后面需要通過多個id,查詢多個訂單詳情的時候,就需要額外增加接口了。
如果你添加數據的接口,只支持一條數據一條數據的添加。
后面,有個job需要一次性添加1000條數據的時候,這時在代碼中循環1000次,一個個添加,這種做法效率比較低。
為了讓你的接口設計的更加通用,滿足更多的業務場景,能設計成批量的,盡量別設計成單個的。
我之前見過有些小伙伴設計的接口,在入參中各種條件都支持,在Service層有N多的if…else判斷。
而且返回的實體類中,包含了各種場景下的返回值字段,字段很多很全。
接口上線一年之后,自己可能都忘了,在哪些業務場景下,要傳入哪些字段,返回值是哪些字段。
這類接口的維護成本非常高,而且又不敢輕易重構,怕改了A業務場景,影響B業務場景的功能,這種接口讓人非常痛苦的。
好的接口設計原則是:職責單一
。
比如用戶下單的場景,有web端和移動端。
而每個端都有普通下單和快速下單,兩種不同的業務場景。
我們在設計接口的時候,可以將web端和移動端的接口在controller層完全分開。
/web/v1/order
/mobile/v1/order
并且將普通下單和快速下單也分開:
/web/v1/order/create
/web/v1/order/fastCreate
/mobile/v1/order/create
/mobile/v1/order/fastCreate
這樣可以設計成4個接口。
業務邏輯更清晰一些,方便后面維護。
文章轉自微信公眾號@架構師