
一文講透 AI Agent 與 AI Workflow 的區(qū)別和深度解析:從自動(dòng)化到智能化的演進(jìn)
項(xiàng)目地址:https://github.com/xionghonglin/DoctorGLM
論文地址:https://arxiv.org/abs/2304.010972
該項(xiàng)目集大成者,開源了多款經(jīng)過中文醫(yī)學(xué)指令微調(diào)的大語言模型,涵蓋LLaMA、Alpaca-Chinese、Bloom等,皆以醫(yī)學(xué)知識(shí)圖譜和醫(yī)學(xué)文獻(xiàn)為基礎(chǔ),結(jié)合ChatGPT API精心打造,實(shí)現(xiàn)了中文醫(yī)學(xué)指令微調(diào)數(shù)據(jù)集的精準(zhǔn)訓(xùn)練,極大提升了醫(yī)療領(lǐng)域問答的準(zhǔn)確性與實(shí)用性。
項(xiàng)目地址:https://github.com/SCIR-HI/Huatuo-Llama-Med-Chinese
論文地址:https://arxiv.org/abs/2304.069753
該項(xiàng)目同樣基于中文醫(yī)學(xué)指令微調(diào),對(duì)ChatGLM-6B模型進(jìn)行了深度優(yōu)化,微調(diào)數(shù)據(jù)與BenTsao項(xiàng)目一脈相承,確保了模型在醫(yī)療領(lǐng)域的卓越表現(xiàn)。
項(xiàng)目地址:https://github.com/SCIR-HI/Med-ChatGLM
該項(xiàng)目開創(chuàng)性地推出了生活空間健康大模型,深度整合了當(dāng)前開源的中文醫(yī)療問答數(shù)據(jù)集,結(jié)合自建的生活空間健康對(duì)話大數(shù)據(jù),構(gòu)建了千萬級(jí)別的扁鵲健康大數(shù)據(jù)BianQueCorpus,基于此精心打造了ChatGLM-6B為初始化的BianQue模型,全面提升了模型在醫(yī)療與健康領(lǐng)域的應(yīng)用價(jià)值。
項(xiàng)目地址:https://github.com/scutcyr/BianQue
該項(xiàng)目鼎力推出醫(yī)療大模型HuatuoGPT,其中包括了基于Baichuan-7B訓(xùn)練的HuatuoGPT-7B與基于Ziya-LLaMA-13B-Pretrain-v1的HuatuoGPT-13B,旨在提供全方位、高標(biāo)準(zhǔn)的醫(yī)療智能服務(wù)。
項(xiàng)目地址:https://github.com/FreedomIntelligence/HuatuoGPT
論文地址:https://arxiv.org/abs/2305.150756
該項(xiàng)目通過啟真醫(yī)學(xué)知識(shí)庫的精妙運(yùn)用,構(gòu)建了獨(dú)具匠心的中文醫(yī)學(xué)指令數(shù)據(jù)集,進(jìn)一步在Chinese-LLaMA-Plus-7B、CaMA-13B、ChatGLM-6B等尖端模型上精心調(diào)整指令,顯著提升了模型在中文醫(yī)療環(huán)境中的實(shí)用效果。
項(xiàng)目地址:https://github.com/CMKRG/QiZhenGPT
該項(xiàng)目創(chuàng)新性地發(fā)布了中文醫(yī)療大模型ChatMed-Consult,以ChatMed_Consult_Dataset中超過50萬的中文醫(yī)療在線問診數(shù)據(jù)及ChatGPT的精準(zhǔn)回復(fù)作為訓(xùn)練基石,基于LlaMA-7b并通過LoRA技術(shù)進(jìn)行了細(xì)致微調(diào)。
項(xiàng)目地址:https://github.com/michael-wzhu/ChatMed
該項(xiàng)目推出了中文中醫(yī)藥領(lǐng)域的杰出模型ShenNong-TCM-LLM,以中醫(yī)藥知識(shí)圖譜為基礎(chǔ),運(yùn)用實(shí)體為核心的自指令方法,通過ChatGPT生成了豐富的2.6萬+中醫(yī)藥指令數(shù)據(jù)集ChatMed_TCM_Dataset,再基于LlaMA底座,借助LoRA技術(shù)進(jìn)行了精準(zhǔn)微調(diào)。
項(xiàng)目地址:https://github.com/michael-wzhu/ShenNong-TCM-LLM
該項(xiàng)目開創(chuàng)了中文多模態(tài)醫(yī)學(xué)數(shù)據(jù)集與模型的先河,尤其在醫(yī)學(xué)影像診斷與多輪交互對(duì)話中展現(xiàn)出卓越的潛能。
項(xiàng)目地址:https://github.com/WangRongsheng/XrayGLM
該項(xiàng)目隆重推出了醫(yī)療大模型MedicalGPT,集成了增量預(yù)訓(xùn)練、有監(jiān)督微調(diào)、RLHF(獎(jiǎng)勵(lì)建模、強(qiáng)化學(xué)習(xí)訓(xùn)練)和DPO(直接偏好優(yōu)化)等前沿技術(shù)。
項(xiàng)目地址:https://github.com/shibing624/MedicalGPT
該項(xiàng)目推出了中文醫(yī)療大模型Sunsimiao,該模型以baichuan-7B和ChatGLM-6B為堅(jiān)實(shí)底座,在數(shù)十萬條高質(zhì)量的中文醫(yī)療數(shù)據(jù)中進(jìn)行了精心微調(diào)。
項(xiàng)目地址:https://github.com/thomas-yanxin/Sunsimiao
項(xiàng)目地址:https://github.com/itsharex/CareLlama
該項(xiàng)目推出了醫(yī)療大模型CareLlama,并匯集了數(shù)十個(gè)公開可用的醫(yī)療微調(diào)數(shù)據(jù)集和開放可用的醫(yī)療大語言模型,旨在為醫(yī)療LLM的快速發(fā)展注入強(qiáng)勁動(dòng)力。
該項(xiàng)目由復(fù)旦大學(xué)發(fā)布,針對(duì)醫(yī)療健康對(duì)話式場(chǎng)景精心設(shè)計(jì)了醫(yī)療領(lǐng)域大模型與數(shù)據(jù)集。模型通過DISC-Med-SFT數(shù)據(jù)集在Baichuan-13B-Base基礎(chǔ)上進(jìn)行指令微調(diào),有效匹配了醫(yī)療場(chǎng)景下的人類偏好,縮小了通用語言模型輸出與真實(shí)世界醫(yī)療對(duì)話之間的差距。
項(xiàng)目地址:https://github.com/FudanDISC/DISC-MedLLM
論文地址:https://arxiv.org/abs/2308.1434614
本項(xiàng)目公開了前沿的醫(yī)療大模型PMC-LLaMA,其中包含MedLLaMA_13B預(yù)訓(xùn)練版本與PMC_LLaMA_13B指令微調(diào)版本,為醫(yī)療領(lǐng)域帶來了革新的技術(shù)突破。
項(xiàng)目地址:https://github.com/chaoyi-wu/PMC-LLaMA
論文地址:https://arxiv.org/abs/2304.14454
ChatDoctor,一款基于LLaMA訓(xùn)練的醫(yī)療大模型,其開源特性讓更多人能夠領(lǐng)略醫(yī)療科技的魅力。
項(xiàng)目地址:https://github.com/Kent0n-Li/ChatDoctor
論文地址:https://arxiv.org/abs/2303.14070
項(xiàng)目地址:https://github.com/189569400/MedicalGPT-zhMING,一個(gè)基于bloomz-7b指令微調(diào)而成的醫(yī)療大模型,其卓越的性能在醫(yī)療問答、智能問診等方面得到了充分體現(xiàn)。
IvyGPT,一款醫(yī)療大模型,經(jīng)過高質(zhì)量的醫(yī)學(xué)問答數(shù)據(jù)監(jiān)督微調(diào)和人類反饋強(qiáng)化學(xué)習(xí)訓(xùn)練,展現(xiàn)了出色的智能醫(yī)療處理能力。
項(xiàng)目地址:https://github.com/WangRongsheng/IvyGPT
本項(xiàng)目開源了中文醫(yī)療大模型PULSE,該模型采用約4,000,000個(gè)中文醫(yī)學(xué)與通用領(lǐng)域指令微調(diào)數(shù)據(jù)進(jìn)行優(yōu)化,支持廣泛的醫(yī)療領(lǐng)域自然語言處理任務(wù),包括健康教育、醫(yī)師考試問題解答、報(bào)告解讀、醫(yī)療記錄結(jié)構(gòu)化以及模擬診斷和治療等。
項(xiàng)目地址:https://github.com/openmedlab/PULSE
HuangDI,一款中醫(yī)大模型,其獨(dú)特之處在于融合了中醫(yī)教材、網(wǎng)站數(shù)據(jù)與Ziya-LLaMA-13B-V1基座模型,打造出具有深厚中醫(yī)知識(shí)理解力的預(yù)訓(xùn)練模型,并通過海量中醫(yī)古籍指令對(duì)話數(shù)據(jù)與通用指令數(shù)據(jù)進(jìn)行微調(diào),實(shí)現(xiàn)中醫(yī)古籍知識(shí)問答的精準(zhǔn)能力。
項(xiàng)目地址:https://github.com/Zlasejd/HuangDI
ZhongJing,一個(gè)旨在傳承中醫(yī)精髓與現(xiàn)代技術(shù)相結(jié)合的中醫(yī)大模型。該項(xiàng)目不僅弘揚(yáng)了中醫(yī)的博大精深,還通過現(xiàn)代技術(shù)創(chuàng)新,為醫(yī)學(xué)領(lǐng)域提供了可信賴和專業(yè)的工具,是中醫(yī)與AI融合的杰出代表。
項(xiàng)目地址:https://github.com/pariskang/CMLM-ZhongJing
該項(xiàng)目旨在通過大型模型技術(shù),實(shí)現(xiàn)中醫(yī)臨床輔助診療(包括病證診斷、處方推薦等)以及中醫(yī)藥知識(shí)問答等多項(xiàng)任務(wù),引領(lǐng)中醫(yī)知識(shí)問答與臨床輔助診療等領(lǐng)域的飛躍性進(jìn)步。當(dāng)前,我們已針對(duì)中醫(yī)臨床智能診療中的處方推薦問題,發(fā)布了TCMLLM-PR這一中醫(yī)處方推薦大模型。該模型通過整合真實(shí)世界的臨床病歷、醫(yī)學(xué)典籍與中醫(yī)教科書等海量數(shù)據(jù),精心構(gòu)建了包含68k數(shù)據(jù)條目的處方推薦指令微調(diào)數(shù)據(jù)集,并在ChatGLM大模型上進(jìn)行深度優(yōu)化與微調(diào)。
項(xiàng)目地址:https://github.com/2020MEAI/TCMLLM
該項(xiàng)目致力于開源多模態(tài)生物醫(yī)學(xué)大模型,涵蓋了BioMedGPT這一多模態(tài)生物醫(yī)藥大模型、DrugFM和MolFM等多模態(tài)小分子基礎(chǔ)模型,以及CellLM等細(xì)胞表示學(xué)習(xí)模型。
項(xiàng)目地址:https://github.com/PharMolix/OpenBioMed
論文地址:https://arxiv.org/abs/2308.09442
[paper]
C-Eval是一個(gè)由上海交通大學(xué)發(fā)布的中文基礎(chǔ)模型評(píng)測(cè)基準(zhǔn),包含了13948個(gè)多項(xiàng)選擇題,涵蓋了人文,社科,理工,其他專業(yè)四個(gè)大方向,52個(gè)學(xué)科,從中學(xué)到大學(xué)研究生以及職業(yè)考試。
[paper]
AGIEval是一個(gè)由微軟發(fā)布的評(píng)測(cè)基準(zhǔn),用于評(píng)估大模型在人類認(rèn)知任務(wù)中的表現(xiàn),包含了20個(gè)面向普通考生的官方、公開、高標(biāo)準(zhǔn)入學(xué)和資格考試,包括普通大學(xué)入學(xué)考試 (中國高考和美國SAT考試)、法學(xué)院入學(xué)考試、數(shù)學(xué)競(jìng)賽和律師資格考試、國家公務(wù)員考試等。
[paper]
Xiezhi是一個(gè)由復(fù)旦大學(xué)發(fā)布的綜合的、多學(xué)科的、能夠自動(dòng)更新的領(lǐng)域知識(shí)評(píng)測(cè)基準(zhǔn),包含了哲學(xué)、經(jīng)濟(jì)學(xué)、法學(xué)、教育學(xué)、文學(xué)、歷史學(xué)、自然科學(xué)、工學(xué)、農(nóng)學(xué)、醫(yī)學(xué)、軍事學(xué)、管理學(xué)、藝術(shù)學(xué)這13個(gè)學(xué)科門類,516個(gè)具體學(xué)科,249587道題目。
[paper]
CMMLU是一個(gè)綜合性的中文評(píng)測(cè)基準(zhǔn),專門用于評(píng)估語言模型在中文語境下的知識(shí)和推理能力。CMMLU涵蓋了從基礎(chǔ)學(xué)科到高級(jí)專業(yè)水平的67個(gè)主題。它包括:需要計(jì)算和推理的自然科學(xué),需要知識(shí)的人文科學(xué)和社會(huì)科學(xué),以及需要生活常識(shí)的中國駕駛規(guī)則等。此外,CMMLU中的許多任務(wù)具有中國特定的答案,可能在其他地區(qū)或語言中并不普遍適用。因此是一個(gè)完全中國化的中文測(cè)試基準(zhǔn)。
[paper]
MMCU是一個(gè)綜合性的中文評(píng)測(cè)基準(zhǔn),包括來自醫(yī)學(xué)、法律、心理學(xué)和教育等四大領(lǐng)域的測(cè)試。
[paper]
CG-Eval是一個(gè)由甲骨易AI研究院與LanguageX AI Lab聯(lián)合發(fā)布的針對(duì)中文大模型生成能力的評(píng)測(cè)基準(zhǔn)。包含了科技與工程、人文與社會(huì)科學(xué)、數(shù)學(xué)計(jì)算、醫(yī)師資格考試、司法考試、注冊(cè)會(huì)計(jì)師考試等六個(gè)大科目類別下的55個(gè)子科目的11000道不同類型問題。CG-Eval包含一套復(fù)合的打分系統(tǒng):對(duì)于非計(jì)算題,每一道名詞解釋題和簡(jiǎn)答題都有標(biāo)準(zhǔn)參考答案,采用多個(gè)標(biāo)準(zhǔn)打分然后加權(quán)求和;對(duì)于計(jì)算題目,會(huì)提取最終計(jì)算結(jié)果和解題過程,然后綜合打分。
[paper]
CBLUE是一個(gè)中文醫(yī)學(xué)語言理解評(píng)測(cè)基準(zhǔn),包含8個(gè)中文醫(yī)療語言理解任務(wù)。
[paper]
PromptCBLUE是一個(gè)面向中文醫(yī)療場(chǎng)景的評(píng)測(cè)基準(zhǔn),通過對(duì)CBLUE基準(zhǔn)進(jìn)行二次開發(fā),將16種不同的醫(yī)療場(chǎng)景NLP任務(wù)全部轉(zhuǎn)化為基于提示的語言生成任務(wù)。
[paper]
LAiW 是一個(gè)中文法律大模型評(píng)測(cè)基準(zhǔn),針對(duì)3大能力設(shè)計(jì)13個(gè)基礎(chǔ)任務(wù):1)法律 NLP 基礎(chǔ)能力:評(píng)測(cè)法律基礎(chǔ)任務(wù)、 NLP 基礎(chǔ)任務(wù)和法律信息抽取的能力,包括法條推送、要素識(shí)別、命名實(shí)體識(shí)別、司法要點(diǎn)摘要和案件識(shí)別 5 個(gè)基礎(chǔ)任務(wù);2)法律基礎(chǔ)應(yīng)用能力:評(píng)測(cè)大模型對(duì)法律領(lǐng)域知識(shí)的基礎(chǔ)應(yīng)用能力,包括爭(zhēng)議焦點(diǎn)挖掘、類案匹配、刑事裁判預(yù)測(cè)、民事裁判預(yù)測(cè)和法律問答 5 個(gè)基礎(chǔ)任務(wù);3)法律復(fù)雜應(yīng)用能力:評(píng)測(cè)大模型對(duì)法律領(lǐng)域知識(shí)的復(fù)雜應(yīng)用能力,包括司法說理生成、案情理解和法律咨詢 3 個(gè)基礎(chǔ)任務(wù)。
[paper]
LawBench 是一個(gè)面向中國法律體系的法律評(píng)測(cè)基準(zhǔn)。LawBench 模擬了司法認(rèn)知的三個(gè)維度,并選擇了20個(gè)任務(wù)來評(píng)估大模型的能力。與一些僅有多項(xiàng)選擇題的現(xiàn)有基準(zhǔn)相比,LawBench 包含了更多與現(xiàn)實(shí)世界應(yīng)用密切相關(guān)的任務(wù)類型,如法律實(shí)體識(shí)別、閱讀理解、犯罪金額計(jì)算和咨詢等。
[paper]
LegalBench 是一個(gè)面向美國法律體系的法律評(píng)測(cè)基準(zhǔn),包含162個(gè)法律推理任務(wù)。
[paper]
LEXTREME是一個(gè)多語言的法律評(píng)測(cè)基準(zhǔn),包含了24種語言11個(gè)評(píng)測(cè)數(shù)據(jù)集。
[paper]
LexGLUE是一個(gè)英文法律評(píng)測(cè)基準(zhǔn)。
[paper]
CFBenchmark是一個(gè)旨在評(píng)估大語言模型在中文金融場(chǎng)景下輔助工作的評(píng)測(cè)基準(zhǔn)。CFBenchmark的基礎(chǔ)版本包括3917個(gè)金融文本涵蓋三個(gè)方面和八個(gè)任務(wù),從金融識(shí)別、金融分類、金融生成三個(gè)方面進(jìn)行組織。
[paper]
FinanceBench是一個(gè)用于評(píng)估開放式金融問題問答的評(píng)測(cè)基準(zhǔn),包含 10,231 個(gè)有關(guān)上市公司的問題,以及相應(yīng)的答案。
[paper]
FinEval是一個(gè)金融知識(shí)評(píng)測(cè)基準(zhǔn),包含了4,661個(gè)高質(zhì)量的多項(xiàng)選擇題,涵蓋金融、經(jīng)濟(jì)、會(huì)計(jì)和證書等領(lǐng)域,34個(gè)不同的學(xué)術(shù)科目。
[paper]
FLARE是一個(gè)金融評(píng)測(cè)基準(zhǔn),包含了金融知識(shí)理解和預(yù)測(cè)等任務(wù)。
[paper]
CFLEB是一個(gè)中文金融評(píng)測(cè)基準(zhǔn),包含兩項(xiàng)語言生成任務(wù)和四項(xiàng)語言理解任務(wù)。
[paper]
FLUE是一個(gè)金融評(píng)測(cè)基準(zhǔn),包含5個(gè)金融領(lǐng)域數(shù)據(jù)集。
GeoGLUE是一個(gè)由阿里巴巴達(dá)摩院與高德聯(lián)合發(fā)布的地理語義理解能力評(píng)測(cè)基準(zhǔn),旨在推動(dòng)地理相關(guān)文本處理技術(shù)和社區(qū)的發(fā)展。本榜單提煉了其中多個(gè)典型場(chǎng)景:地圖搜索、電商物流、政府登記、金融交通,并設(shè)計(jì)了六個(gè)核心任務(wù):門址地址要素解析、地理實(shí)體對(duì)齊、Query-POI庫召回、Query-POI相關(guān)性排序、地址Query成分分析、WhereWhat切分。
[paper]
OWL-Bench 是一個(gè)面向運(yùn)維領(lǐng)域的雙語評(píng)測(cè)基準(zhǔn)。它包含 317 個(gè)問答題和 1000 個(gè)多選題,涵蓋了該領(lǐng)域的眾多現(xiàn)實(shí)工業(yè)場(chǎng)景,包括信息安全、應(yīng)用、系統(tǒng)架構(gòu)、軟件架構(gòu)、中間件、網(wǎng)絡(luò)、操作系統(tǒng)、基礎(chǔ)設(shè)施和數(shù)據(jù)庫這九個(gè)不同的子領(lǐng)域。以確保 OWL-Bench 能夠展現(xiàn)出多樣性。
DevOps-Eval是由螞蟻集團(tuán)聯(lián)合北京大學(xué)發(fā)布的面向DevOps領(lǐng)域的大語言模型評(píng)測(cè)基準(zhǔn)。
總結(jié)本文全面概述了當(dāng)前垂直領(lǐng)域模型與評(píng)測(cè)基準(zhǔn),涵蓋了12個(gè)領(lǐng)域,57個(gè)領(lǐng)域微調(diào)模型,并配備了豐富的評(píng)測(cè)數(shù)據(jù)集,以供各界參考與借鑒。
參考文獻(xiàn)
1、https://github.com/luban-agi/Awesome-Domain-LLM
原文轉(zhuǎn)載自:https://mp.weixin.qq.com/s/dTcOYY09CgDFvpCviiDnQw
一文講透 AI Agent 與 AI Workflow 的區(qū)別和深度解析:從自動(dòng)化到智能化的演進(jìn)
實(shí)測(cè)告訴你:DeepSeek-R1 7B、32B、671B差距有多大
6個(gè)大模型的核心技術(shù)介紹
在Sealos 平臺(tái)的幫助下一個(gè)人維護(hù)著 6000 個(gè)數(shù)據(jù)庫
通義萬相,開源!
使用Cursor 和 Devbox 一鍵搞定開發(fā)環(huán)境
DeepSeekMath:挑戰(zhàn)大語言模型的數(shù)學(xué)推理極限
新型脈沖神經(jīng)網(wǎng)絡(luò)+大模型研究進(jìn)展!
時(shí)間序列表示學(xué)習(xí),全面介紹!
對(duì)比大模型API的內(nèi)容創(chuàng)意新穎性、情感共鳴力、商業(yè)轉(zhuǎn)化潛力
一鍵對(duì)比試用API 限時(shí)免費(fèi)