AI出現在診室,像醫生一樣問病史、做診斷、開檢查單。這個曾出現在科幻電影中的場景,正逐漸走進現實。
今年上半年,“天樞”“觀心”“瑞智病理”等醫療領域大規模預訓練語言模型(以下簡稱“醫療大模型”)在全國三甲醫院密集落地。億歐智庫數據顯示,截至2025年5月,國內累計發布醫療大模型達288個,其中今年新增133個。
這些被臨床寄予厚望的技術產物,離成為真正的AI醫生還有多遠?
醫療模型價值初顯
今年夏天,北京市房山區竇店鎮一家基層醫院的內科門診來了一名患兒,半邊臉腫大,久不消退。醫生建議家長帶孩子去口腔科檢查。但檢查結果顯示,口腔無異常。
焦急的患兒家長再次找到醫生。醫生想起醫院不久前引入的AI兒科醫生。這款兒科醫療大模型整合了300多位知名兒科專家的臨床經驗及大量脫敏的病歷數據,學習了3000多種兒童常見病、疑難病相關診療知識。
醫生與這名“博學”的AI兒科醫生展開了多輪“對話”。AI提示,患兒可能是腮腺炎。基于AI提醒,診斷最終被明確,患兒也得到及時治療。
2024年11月以來,多部門密集出臺AI醫療相關政策:《衛生健康行業人工智能應用場景參考指引》梳理84個細分應用場景;國家醫保局將AI輔助診斷納入醫療服務價格立項指南;《醫藥工業數智化轉型實施方案(2025—2030年)》明確要拓展AI在輔助診療等場景的應用。
一家研發醫療大模型的企業負責人表示,DeepSeek-R1等開源模型的技術突破,降低了醫療大模型的研發和應用門檻,加速了AI醫療領域“百模大戰”的到來。
在政策支持、技術突破等多重因素下,醫療大模型迎來爆發期。億歐智庫預測,2025年醫療大模型市場規模近20億元,預計以140%年均增速增長,2028年將突破百億元。
目前,除了少數醫院具備完全自主研發和部署醫療大模型的技術能力和算力條件,大部分醫院選擇與企業、高校、科研院所聯合研發。
作為醫生“助手”,醫療大模型可有效提升診斷效率。截至今年6月,AI系統“智醫助理”已落地全國超7.5萬家基層醫療機構,累計提供超10億次輔診建議,緩解了基層醫生壓力。數據顯示,華中科技大學同濟醫學院附屬協和醫院用AI輔助預問診,醫患有效溝通時長增加50%。
在基層醫療機構,醫療大模型的應用已顯現價值。有公司研發的AI助診儀,已經在北京市海淀區20家社區衛生服務中心試點應用。該AI助診儀能為醫生提供問診方向建議,鑒別診斷合理率達96%。
從給醫生減負的“神器”,到基層醫療機構的“外腦”,從居民的健康管理助手,再到專科門診的溝通工具,醫療大模型已從技術探索階段走向臨床應用階段。
進階之路關卡重重
密集涌現的醫療大模型,讓公眾對AI醫生有了更多期待。但專家指出,醫療大模型從實驗室走進診療室,到最終成為真正的AI醫生,還需要一場“職場拉練”。
這場“職場拉練”的難點,首先在于AI醫生的概念模糊,其次在于落地應用時的多重障礙。
當前,業內對AI醫生的定義尚未統一。但可以明確的是,它并不等于醫療大模型。
有專家認為,醫療大模型偏技術,AI醫生偏應用。“醫療大模型好比醫學院畢業生,缺乏臨床經驗。AI醫生既懂理論又懂實踐,可以上崗執業。”該專家說。
還有醫生提出,“自主治療”才是AI醫生的核心標準。清華大學北京清華長庚醫院(以下簡稱“北京清華長庚醫院”)泌尿外科主任李建興則比喻,“醫療大模型好比醫院,AI醫生好比科室大夫”。
記者梳理發現,目前自稱AI醫生的產品多種多樣:有的是智能問答系統,有的主攻影像分析,有的是醫生智能體,還有的是人類醫生的數字分身。
一位業內人士總結道,現在主流的AI醫生分為輔助診斷、知識問答、健康管理三類系統。她坦言,“全知全能的AI醫生,對行業和患者價值更大,但距離臨床還較遠”。
從醫療大模型到AI醫生,這條路并非坦途。
其面臨的一重困境是模型技術本身還存在不足。今年3月,一名“95后”新手家長面對孩子反復咳嗽發熱,在手機上用AI問診。AI判定孩子為“普通呼吸道感染”,家長參考建議居家用藥,卻導致病情延誤。最終,孩子在醫院確診為病毒感染肺炎。這一案例暴露了AI診療可能存在的風險。
“大模型的‘黑箱’‘幻覺’、引用錯誤信息等問題,會誤導治療,后果不堪設想。”北京清華長庚醫院泌尿外科主治醫師劉宇保說。一家專注醫療大模型研發的企業已將其醫療大模型的“幻覺”發生率控制在1%左右,但該企業負責人仍強調:“AI醫生大規模應用于臨床的風險防控體系尚未成熟。”
今年5月,李建興團隊僅用兩個多月就研發出結石領域大模型“石說AI”的內測版本。李建興說:“其實,在基座模型、大數據的基礎上研發醫療模型并不難,難的是后期運維。后期需持續投入算力、人力、數據等資源,并承擔設備維護、模型迭代等成本。”
數據是大模型的“養料”。數據不足或流動不暢,是阻礙醫療大模型“進化”的又一個桎梏。
參與“石說AI”研發的清華大學博士生徐錚表示,使用多中心的數據能提升醫療大模型的“泛化性”,但醫療數據“煙囪林立”的現狀還難以打破。
李建興補充道:“基層醫療數據不夠規范,很多有價值的病例信息沒有被記錄,更別提資源共享。而靠單中心數據訓練的大模型,到了基層或其他醫療機構又可能‘水土不服’。”
在罕見病領域,訓練醫療大模型則普遍面臨病例數據不足的難題。國外有研究發現,當AI用于診斷罕見病時,其準確率不足60%。
多模態數據處理,對醫療大模型來說也是難關。徐錚告訴記者,醫學大模型應用需先解決多模態醫療數據融合難題,實現影像、病理、基因組、電子病歷等多源數據的高效融合與安全共享。
另一重困境則源于社會認知。
一名患者說,雖然有的醫療大模型和知名專家的水平不相上下,但他更希望坐在對面的是那個知名專家。李建興也表示,越來越多的患者看到了“AI+醫療”的潛力,但對AI診療持懷疑態度的人也不在少數。
“對AI醫生接受度低,原因很復雜。比如患者擔心技術不夠可靠或更喜歡真實世界的交流,醫療機構擔心技術應用成本高,醫生擔憂技術對現實形成沖擊。”劉宇保解釋道。
多方探索加速破局
面對多重難關,業內已開始探索如何培養更多更強的AI。
在這條賽道上,中國醫學科學院血液病醫院(中國醫學科學院血液學研究所)信息與資源中心首席技術專家陳俊仁走了極具挑戰性的路。
當前,多數AI僅為輔助決策工具,而自主治療能力是AI醫生落地的重要突破點。陳俊仁正致力于打造能自主開展治療的AI醫生。他將AI醫生分為兩類:一是輔助型,AI提供參考信息,而醫生判斷如何運用該信息做出決策;二是條件式自主型,AI提供默認治療方案,但醫生有否決權。
2022年,陳俊仁和合作團隊用數學建模解決了真實世界中血液病患者臨床數據“多參數、小樣本”的問題,并建立daGOAT模型,用于預測移植后重度急性移植物抗宿主病,研究發表于《自然·計算科學》。
模型方法經國際同行認可后,研究團隊依照嚴格流程推動AI走向臨床:完成倫理審查、把模型嵌入醫院信息系統……拿到倫理批件后,開始招募患者志愿者。“不是拿著模型找場景,而是根據場景需求研發模型。”陳俊仁說。
讓陳俊仁欣慰的是,從2024年第一個患者入組至今,daGOAT已具備條件式自主開展診療的能力——能定時自主追蹤患者的100多個動態指標,提醒醫生針對高風險患者提前采取藥物干預措施。
“尋找醫療場景—開展科學驗證—獲得倫理委員會批準—搭建醫療模型—招募患者志愿者—多方交叉驗證,這條AI醫生培育之路很漫長,但能讓醫生和患者都感到踏實。”陳俊仁強調,“不管是什么形態的AI醫生,核心在于能否真正解決臨床問題。”
針對模型技術的“幻覺”等問題,國內諸多團隊探索出不同路徑:陳俊仁團隊通過真實世界病例探索驗證;北京清華長庚醫院泌尿外科要求模型引用最新的權威醫學文獻;還有的醫院則采取模型在循證醫學數據庫“自檢+雙醫”模式。
中國科學院院士陳潤生曾表示,破除AI“幻覺”需應對技術難題、倫理問題等諸多挑戰。從技術層面來說,AI的表現很大程度上依賴于訓練數據的質量和多樣性,如果訓練數據存在偏差,模型可能會產生錯誤輸出。從倫理層面看,算法可能因訓練數據的不完善或設計者的主觀偏見出現歧視性的決策結果。
針對醫療數據“煙囪林立”問題,李建興建議,可借鑒“醫療數據中臺”模式,在數據加密脫敏基礎上建立跨機構數據聯盟,讓數據可用不可見,降低數據泄露濫用風險。針對數據稀缺難題,陳俊仁團隊通過“對小樣本抽絲剝繭分析+用真實病例反復驗證”的方式,讓模型更精準。
如何讓AI醫生成為讀懂多種數據的“多面手”?專家表示,這需要整合影像識別、自然語言處理等多領域技術,需要全球科研力量聯合攻關。
談及提升業界對AI醫生的認可度,劉宇保表示,要通過診療效果對比、發表研究文章、建立AI醫生評測榜等客觀方式,提升醫生對AI的認可度。中國科學院香港創新研究院人工智能與機器人創新中心主任劉宏斌在接受媒體采訪時稱,醫學是循證學科,模型的每一個診斷結論都應標注依據、具備可解釋性,這樣才能獲得醫生信任。
針對AI醫生監管和倫理問題,李建興提出,可參考自動駕駛分級模式,依據AI醫生能力劃定診斷治療權限,隨著模型變強逐步放開權限,同時,動態調整醫療大模型開發者、使用者、監管方的責任邊界。
陳俊仁認為,應盡早建立AI醫療的治理機制和規則框架,加強相關倫理審查,既要引導AI醫療按正確路線發展,又要防范AI醫療安全風險。
多位專家表示,為加快AI醫生落地應用,政策方面現階段需要“多松土”。
李建興建議,簡化院級AI產品的注冊備案流程,鼓勵醫療機構與技術公司深度合作。還有專家提到,推動AI醫生服務納入醫保支付體系,完善AI醫生的商業模式。
陳俊仁表示,政策可按照風險層次適當放寬,讓業界有更多發揮的空間。“但無論如何,每一次實踐探索都不能違背醫學倫理。”他說。