項目地址:https://github.com/xionghonglin/DoctorGLM
論文地址:https://arxiv.org/abs/2304.010972

2. BenTsao (本草)

該項目集大成者,開源了多款經過中文醫學指令微調的大語言模型,涵蓋LLaMA、Alpaca-Chinese、Bloom等,皆以醫學知識圖譜和醫學文獻為基礎,結合ChatGPT API精心打造,實現了中文醫學指令微調數據集的精準訓練,極大提升了醫療領域問答的準確性與實用性。
項目地址:https://github.com/SCIR-HI/Huatuo-Llama-Med-Chinese
論文地址:https://arxiv.org/abs/2304.069753

3. Med-ChatGLM

該項目同樣基于中文醫學指令微調,對ChatGLM-6B模型進行了深度優化,微調數據與BenTsao項目一脈相承,確保了模型在醫療領域的卓越表現。
項目地址:https://github.com/SCIR-HI/Med-ChatGLM

4. BianQue (扁鵲)

該項目開創性地推出了生活空間健康大模型,深度整合了當前開源的中文醫療問答數據集,結合自建的生活空間健康對話大數據,構建了千萬級別的扁鵲健康大數據BianQueCorpus,基于此精心打造了ChatGLM-6B為初始化的BianQue模型,全面提升了模型在醫療與健康領域的應用價值。
項目地址:https://github.com/scutcyr/BianQue

5. HuatuoGPT (華佗)

該項目鼎力推出醫療大模型HuatuoGPT,其中包括了基于Baichuan-7B訓練的HuatuoGPT-7B與基于Ziya-LLaMA-13B-Pretrain-v1的HuatuoGPT-13B,旨在提供全方位、高標準的醫療智能服務。
項目地址:https://github.com/FreedomIntelligence/HuatuoGPT
論文地址:https://arxiv.org/abs/2305.150756

6. QiZhenGPT

該項目通過啟真醫學知識庫的精妙運用,構建了獨具匠心的中文醫學指令數據集,進一步在Chinese-LLaMA-Plus-7B、CaMA-13B、ChatGLM-6B等尖端模型上精心調整指令,顯著提升了模型在中文醫療環境中的實用效果。
項目地址:https://github.com/CMKRG/QiZhenGPT

7. ChatMed

該項目創新性地發布了中文醫療大模型ChatMed-Consult,以ChatMed_Consult_Dataset中超過50萬的中文醫療在線問診數據及ChatGPT的精準回復作為訓練基石,基于LlaMA-7b并通過LoRA技術進行了細致微調。
項目地址:https://github.com/michael-wzhu/ChatMed

8. ShenNong-TCM-LLM(神農)

該項目推出了中文中醫藥領域的杰出模型ShenNong-TCM-LLM,以中醫藥知識圖譜為基礎,運用實體為核心的自指令方法,通過ChatGPT生成了豐富的2.6萬+中醫藥指令數據集ChatMed_TCM_Dataset,再基于LlaMA底座,借助LoRA技術進行了精準微調。
項目地址:https://github.com/michael-wzhu/ShenNong-TCM-LLM

9. XrayGLM

該項目開創了中文多模態醫學數據集與模型的先河,尤其在醫學影像診斷與多輪交互對話中展現出卓越的潛能。
項目地址:https://github.com/WangRongsheng/XrayGLM

10. MedicalGPT

該項目隆重推出了醫療大模型MedicalGPT,集成了增量預訓練、有監督微調、RLHF(獎勵建模、強化學習訓練)和DPO(直接偏好優化)等前沿技術。
項目地址:https://github.com/shibing624/MedicalGPT

11. Sunsimiao(孫思邈)

該項目推出了中文醫療大模型Sunsimiao,該模型以baichuan-7B和ChatGLM-6B為堅實底座,在數十萬條高質量的中文醫療數據中進行了精心微調。
項目地址:https://github.com/thomas-yanxin/Sunsimiao

12. CareLlama(關懷羊駝)

項目地址:https://github.com/itsharex/CareLlama
該項目推出了醫療大模型CareLlama,并匯集了數十個公開可用的醫療微調數據集和開放可用的醫療大語言模型,旨在為醫療LLM的快速發展注入強勁動力。

13. DISC-MedLLM

該項目由復旦大學發布,針對醫療健康對話式場景精心設計了醫療領域大模型與數據集。模型通過DISC-Med-SFT數據集在Baichuan-13B-Base基礎上進行指令微調,有效匹配了醫療場景下的人類偏好,縮小了通用語言模型輸出與真實世界醫療對話之間的差距。
項目地址:https://github.com/FudanDISC/DISC-MedLLM
論文地址:https://arxiv.org/abs/2308.1434614

14. PMC-LLaMA

本項目公開了前沿的醫療大模型PMC-LLaMA,其中包含MedLLaMA_13B預訓練版本與PMC_LLaMA_13B指令微調版本,為醫療領域帶來了革新的技術突破。
項目地址:https://github.com/chaoyi-wu/PMC-LLaMA
論文地址:https://arxiv.org/abs/2304.14454

15. ChatDoctor

ChatDoctor,一款基于LLaMA訓練的醫療大模型,其開源特性讓更多人能夠領略醫療科技的魅力。
項目地址:https://github.com/Kent0n-Li/ChatDoctor
論文地址:https://arxiv.org/abs/2303.14070

16. MING (明醫)

項目地址:https://github.com/189569400/MedicalGPT-zhMING,一個基于bloomz-7b指令微調而成的醫療大模型,其卓越的性能在醫療問答、智能問診等方面得到了充分體現。

17. IvyGPT

IvyGPT,一款醫療大模型,經過高質量的醫學問答數據監督微調和人類反饋強化學習訓練,展現了出色的智能醫療處理能力。
項目地址:https://github.com/WangRongsheng/IvyGPT

18. PULSE

本項目開源了中文醫療大模型PULSE,該模型采用約4,000,000個中文醫學與通用領域指令微調數據進行優化,支持廣泛的醫療領域自然語言處理任務,包括健康教育、醫師考試問題解答、報告解讀、醫療記錄結構化以及模擬診斷和治療等。
項目地址:https://github.com/openmedlab/PULSE

19. HuangDI (皇帝)

HuangDI,一款中醫大模型,其獨特之處在于融合了中醫教材、網站數據與Ziya-LLaMA-13B-V1基座模型,打造出具有深厚中醫知識理解力的預訓練模型,并通過海量中醫古籍指令對話數據與通用指令數據進行微調,實現中醫古籍知識問答的精準能力。
項目地址:https://github.com/Zlasejd/HuangDI

20. ZhongJing (仲景)

ZhongJing,一個旨在傳承中醫精髓與現代技術相結合的中醫大模型。該項目不僅弘揚了中醫的博大精深,還通過現代技術創新,為醫學領域提供了可信賴和專業的工具,是中醫與AI融合的杰出代表。
項目地址:https://github.com/pariskang/CMLM-ZhongJing

21. TCMLLM

該項目旨在通過大型模型技術,實現中醫臨床輔助診療(包括病證診斷、處方推薦等)以及中醫藥知識問答等多項任務,引領中醫知識問答與臨床輔助診療等領域的飛躍性進步。當前,我們已針對中醫臨床智能診療中的處方推薦問題,發布了TCMLLM-PR這一中醫處方推薦大模型。該模型通過整合真實世界的臨床病歷、醫學典籍與中醫教科書等海量數據,精心構建了包含68k數據條目的處方推薦指令微調數據集,并在ChatGLM大模型上進行深度優化與微調。
項目地址:https://github.com/2020MEAI/TCMLLM

22. OpenBioMed

該項目致力于開源多模態生物醫學大模型,涵蓋了BioMedGPT這一多模態生物醫藥大模型、DrugFM和MolFM等多模態小分子基礎模型,以及CellLM等細胞表示學習模型。
項目地址:https://github.com/PharMolix/OpenBioMed
論文地址:https://arxiv.org/abs/2308.09442

附:大模型數據集&評測基準匯總

C-Eval

image

[paper]

image

C-Eval是一個由上海交通大學發布的中文基礎模型評測基準,包含了13948個多項選擇題,涵蓋了人文,社科,理工,其他專業四個大方向,52個學科,從中學到大學研究生以及職業考試。

AGIEval

image

[paper]

image

AGIEval是一個由微軟發布的評測基準,用于評估大模型在人類認知任務中的表現,包含了20個面向普通考生的官方、公開、高標準入學和資格考試,包括普通大學入學考試 (中國高考和美國SAT考試)、法學院入學考試、數學競賽和律師資格考試、國家公務員考試等。

Xiezhi (獬豸)

image

[paper]

image

Xiezhi是一個由復旦大學發布的綜合的、多學科的、能夠自動更新的領域知識評測基準,包含了哲學、經濟學、法學、教育學、文學、歷史學、自然科學、工學、農學、醫學、軍事學、管理學、藝術學這13個學科門類,516個具體學科,249587道題目。

CMMLU

image

[paper]

image

CMMLU是一個綜合性的中文評測基準,專門用于評估語言模型在中文語境下的知識和推理能力。CMMLU涵蓋了從基礎學科到高級專業水平的67個主題。它包括:需要計算和推理的自然科學,需要知識的人文科學和社會科學,以及需要生活常識的中國駕駛規則等。此外,CMMLU中的許多任務具有中國特定的答案,可能在其他地區或語言中并不普遍適用。因此是一個完全中國化的中文測試基準。

MMCU

image

[paper]

image

MMCU是一個綜合性的中文評測基準,包括來自醫學、法律、心理學和教育等四大領域的測試。

CG-Eval

image

[paper]

image

CG-Eval是一個由甲骨易AI研究院與LanguageX AI Lab聯合發布的針對中文大模型生成能力的評測基準。包含了科技與工程、人文與社會科學、數學計算、醫師資格考試、司法考試、注冊會計師考試等六個大科目類別下的55個子科目的11000道不同類型問題。CG-Eval包含一套復合的打分系統:對于非計算題,每一道名詞解釋題和簡答題都有標準參考答案,采用多個標準打分然后加權求和;對于計算題目,會提取最終計算結果和解題過程,然后綜合打分。

CBLUE

image

[paper]

image

CBLUE是一個中文醫學語言理解評測基準,包含8個中文醫療語言理解任務。

PromptCBLUE

image

[paper]

image

PromptCBLUE是一個面向中文醫療場景的評測基準,通過對CBLUE基準進行二次開發,將16種不同的醫療場景NLP任務全部轉化為基于提示的語言生成任務。

LAiW

image

[paper]

image

LAiW 是一個中文法律大模型評測基準,針對3大能力設計13個基礎任務:1)法律 NLP 基礎能力:評測法律基礎任務、 NLP 基礎任務和法律信息抽取的能力,包括法條推送、要素識別、命名實體識別、司法要點摘要和案件識別 5 個基礎任務;2)法律基礎應用能力:評測大模型對法律領域知識的基礎應用能力,包括爭議焦點挖掘、類案匹配、刑事裁判預測、民事裁判預測和法律問答 5 個基礎任務;3)法律復雜應用能力:評測大模型對法律領域知識的復雜應用能力,包括司法說理生成、案情理解和法律咨詢 3 個基礎任務。

LawBench

image

[paper]

image

LawBench 是一個面向中國法律體系的法律評測基準。LawBench 模擬了司法認知的三個維度,并選擇了20個任務來評估大模型的能力。與一些僅有多項選擇題的現有基準相比,LawBench 包含了更多與現實世界應用密切相關的任務類型,如法律實體識別、閱讀理解、犯罪金額計算和咨詢等。

LegalBench

image

[paper]

image

LegalBench 是一個面向美國法律體系的法律評測基準,包含162個法律推理任務。

LEXTREME

image

[paper]

image

LEXTREME是一個多語言的法律評測基準,包含了24種語言11個評測數據集。

LexGLUE

image

[paper]

image

LexGLUE是一個英文法律評測基準。

CFBenchmark

image

[paper]

image

CFBenchmark是一個旨在評估大語言模型在中文金融場景下輔助工作的評測基準。CFBenchmark的基礎版本包括3917個金融文本涵蓋三個方面和八個任務,從金融識別、金融分類、金融生成三個方面進行組織。

FinanceBench

image

[paper]

image

FinanceBench是一個用于評估開放式金融問題問答的評測基準,包含 10,231 個有關上市公司的問題,以及相應的答案。

FinEval

image

[paper]

image

FinEval是一個金融知識評測基準,包含了4,661個高質量的多項選擇題,涵蓋金融、經濟、會計和證書等領域,34個不同的學術科目。

FLARE

image

[paper]

image

FLARE是一個金融評測基準,包含了金融知識理解和預測等任務。

CFLEB

image

[paper]

image

CFLEB是一個中文金融評測基準,包含兩項語言生成任務和四項語言理解任務。

FLUE

image

[paper]

image

FLUE是一個金融評測基準,包含5個金融領域數據集。

GeoGLUE [paper]

image

GeoGLUE是一個由阿里巴巴達摩院與高德聯合發布的地理語義理解能力評測基準,旨在推動地理相關文本處理技術和社區的發展。本榜單提煉了其中多個典型場景:地圖搜索、電商物流、政府登記、金融交通,并設計了六個核心任務:門址地址要素解析、地理實體對齊、Query-POI庫召回、Query-POI相關性排序、地址Query成分分析、WhereWhat切分。

OWL-Bench

image

[paper]

image

OWL-Bench 是一個面向運維領域的雙語評測基準。它包含 317 個問答題和 1000 個多選題,涵蓋了該領域的眾多現實工業場景,包括信息安全、應用、系統架構、軟件架構、中間件、網絡、操作系統、基礎設施和數據庫這九個不同的子領域。以確保 OWL-Bench 能夠展現出多樣性。

DevOps-Eval

image

image

DevOps-Eval是由螞蟻集團聯合北京大學發布的面向DevOps領域的大語言模型評測基準。

總結本文全面概述了當前垂直領域模型與評測基準,涵蓋了12個領域,57個領域微調模型,并配備了豐富的評測數據集,以供各界參考與借鑒。

image

參考文獻
1、https://github.com/luban-agi/Awesome-Domain-LLM

原文轉載自:https://mp.weixin.qq.com/s/dTcOYY09CgDFvpCviiDnQw

上一篇:

在Sealos 平臺的幫助下一個人維護著 6000 個數據庫

下一篇:

6個大模型的核心技術介紹
#你可能也喜歡這些API文章!

我們有何不同?

API服務商零注冊

多API并行試用

數據驅動選型,提升決策效率

查看全部API→
??

熱門場景實測,選對API

#AI文本生成大模型API

對比大模型API的內容創意新穎性、情感共鳴力、商業轉化潛力

25個渠道
一鍵對比試用API 限時免費

#AI深度推理大模型API

對比大模型API的邏輯推理準確性、分析深度、可視化建議合理性

10個渠道
一鍵對比試用API 限時免費