语料库 AI诊疗的基石

【byb.cn 】(来源:生命时报)语料库,AI诊疗的基石 亟需解决碎片化和标准不统一问题
什么是医疗健康语料库?深圳大学附属华南医院院长吴松告诉《生命时报》记者,笼统来说,这是汇集了电子病历、医学影像、临床诊疗路径,以及基因组学、药物研发、公共卫生监测等各类信息的一个数据库。但这些数据不是简单地堆在一起,而是进行系统性采集、清洗、脱敏(指把能定位到“某个人”的信息,处理成“看不出是谁”)和结构化整理后,形成的领域专用数据资产体系。
“如果把医疗AI比作一名学习型医生,医疗健康语料库就是它的‘学校’和‘临床经验积累库’。没有高质量的语料,AI无从学习,更谈不上精准应用。”吴松说。
在AI辅助诊疗方面,高质量的临床语料库可以支撑AI系统对多种影像资料进行秒级分析,展现出较高准确性。以眼底病变识别为例,部分研究显示,其表现可与专科医生相当;但在肺结节鉴别等复杂任务上,现阶段仍主要作为辅助工具。
新药研发方面,基于真实世界数据构建的AI模型,可以将化合物筛选、毒性预测等基础科研的工作周期从数年压缩至数天,大幅降低研发成本。
健康管理方面,深圳大学附属华南医院信息部助理主任杨凯介绍,在个人基因组、电子健康档案、可穿戴设备等数据的基础上,可以构建起真正意义上的“数字孪生体”,无差别反映一个人的生理状况,从而实现慢病风险的提前预警,推动医疗模式从“有病治病”向“未病先防”转变。
医疗健康语料库建设,已在部分地区有所实践。2024年11月,上海发布了全市首个卫生健康行业语料库;2025年6月,深圳市罗湖区启动“罗湖医疗语料中心”建设项目,将整合市区两级医疗机构的病理诊断、超声影像、放射影像等7类场景数据,整合好的语料库会面向罗湖区内AI企业开放,最终形成产学研综合应用的闭环生态。
“我们目前正依托数据库架构,建立覆盖全院30余个科室、200余类核心数据字段的统一语义标准体系。这个过程既是为了在院内完善AI应用,也为将来参与区域性,甚至全国性语料库共建打下基础。”深圳大学附属华南医院信息部主任欧阳杰说。
当医疗健康语料库真正走向成熟,医患体验将会获得质的提升。对患者而言,个性化的AI健康助手可以提前预警慢病风险,提供针对性管理方案;偏远地区居民通过部署到本地的AI辅助工具,有望获得三甲医院级别的诊断建议;罕见病患者的确诊等待时间,也可能从数年缩短至数月甚至数周。
对医生而言,临床决策支持系统将成为可靠的“智囊团”,不仅有数百万份高质量病历支撑,还能自动校验诊断逻辑、提示遗漏检查、推荐最优方案。尤其是处在经验积累期的年轻医生,能大幅缩短成长周期,误诊漏诊率有望显著降低。
但在吴松看来,整个行业还处于早期发展阶段,各地语料库的建设基本是初期版本,碎片化、标准不统一的问题突出,能真正形成大规模产业化应用的案例尚不多见。主攻AI医疗的企业普遍反映“有模型、缺数据”,拿不到高质量、合规、有标注的基础数据,成为阻碍行业突破的核心瓶颈之一。
统一入库标准,规范数据质量。语料库仅有海量数据还不够,标注是否一致、准确才是关键。当前医疗大模型常出现“幻觉”问题,给出的诊断看起来像模像样,实际却经不起推敲,甚至出现错误。这主要是因为现有评估体系中,医疗大模型只盯着词汇匹配度,对医学逻辑是否严密判断不准。这就需要在早期构建语料库时,增强检索内容与知识图谱的关联,给大模型配上可查证的“知识字典”,形成可靠推理,从源头抑制“幻觉”。
解决数据共享共用矛盾。医疗数据涉及核心隐私,法规要求严格,但AI训练又需要大量数据,二者之间的矛盾若不能妥善解决,AI医疗的发展将举步维艰。据介绍,当前的技术探索主要围绕三个方向:一是联邦学习,让模型“移动”而非数据集中,实现数据“可用不可见”;二是在数据脱敏基础上强化加密保护;三是实行数据信托机制,支持患者授权管理,实现全生命周期安全防护。
培养医学、信息学交叉人才。语料库建设需要兼具临床知识和数据工程能力的复合型人才,其匮乏可谓当前最难突破的瓶颈。吴松认为,教育主管部门应与卫生健康系统进一步协同,将医工交叉人才培养纳入国家医学教育改革的整体布局,形成政策层面的制度性支撑。
“数据是新时代医学研究的基础。让优质医疗经验成为可复制的数字资产,正是语料库建设的核心价值所在。”吴松说,“我们期待在政策层面打通制度通道,让更多医院有动力、有能力、有保障地投身这场数据驱动的医疗革命,共同推动医疗健康产业进入更有质量的新阶段。”
受访专家:
深圳大学附属华南医院院长 吴 松 □信息部主任 欧阳杰 □信息部助理主任 杨 凯
本报记者 乔 芮《生命时报》 2026-04-03 第01981期 第5版
什么是医疗健康语料库?深圳大学附属华南医院院长吴松告诉《生命时报》记者,笼统来说,这是汇集了电子病历、医学影像、临床诊疗路径,以及基因组学、药物研发、公共卫生监测等各类信息的一个数据库。但这些数据不是简单地堆在一起,而是进行系统性采集、清洗、脱敏(指把能定位到“某个人”的信息,处理成“看不出是谁”)和结构化整理后,形成的领域专用数据资产体系。
“如果把医疗AI比作一名学习型医生,医疗健康语料库就是它的‘学校’和‘临床经验积累库’。没有高质量的语料,AI无从学习,更谈不上精准应用。”吴松说。
在AI辅助诊疗方面,高质量的临床语料库可以支撑AI系统对多种影像资料进行秒级分析,展现出较高准确性。以眼底病变识别为例,部分研究显示,其表现可与专科医生相当;但在肺结节鉴别等复杂任务上,现阶段仍主要作为辅助工具。
新药研发方面,基于真实世界数据构建的AI模型,可以将化合物筛选、毒性预测等基础科研的工作周期从数年压缩至数天,大幅降低研发成本。
健康管理方面,深圳大学附属华南医院信息部助理主任杨凯介绍,在个人基因组、电子健康档案、可穿戴设备等数据的基础上,可以构建起真正意义上的“数字孪生体”,无差别反映一个人的生理状况,从而实现慢病风险的提前预警,推动医疗模式从“有病治病”向“未病先防”转变。
医疗健康语料库建设,已在部分地区有所实践。2024年11月,上海发布了全市首个卫生健康行业语料库;2025年6月,深圳市罗湖区启动“罗湖医疗语料中心”建设项目,将整合市区两级医疗机构的病理诊断、超声影像、放射影像等7类场景数据,整合好的语料库会面向罗湖区内AI企业开放,最终形成产学研综合应用的闭环生态。
“我们目前正依托数据库架构,建立覆盖全院30余个科室、200余类核心数据字段的统一语义标准体系。这个过程既是为了在院内完善AI应用,也为将来参与区域性,甚至全国性语料库共建打下基础。”深圳大学附属华南医院信息部主任欧阳杰说。
当医疗健康语料库真正走向成熟,医患体验将会获得质的提升。对患者而言,个性化的AI健康助手可以提前预警慢病风险,提供针对性管理方案;偏远地区居民通过部署到本地的AI辅助工具,有望获得三甲医院级别的诊断建议;罕见病患者的确诊等待时间,也可能从数年缩短至数月甚至数周。
对医生而言,临床决策支持系统将成为可靠的“智囊团”,不仅有数百万份高质量病历支撑,还能自动校验诊断逻辑、提示遗漏检查、推荐最优方案。尤其是处在经验积累期的年轻医生,能大幅缩短成长周期,误诊漏诊率有望显著降低。
但在吴松看来,整个行业还处于早期发展阶段,各地语料库的建设基本是初期版本,碎片化、标准不统一的问题突出,能真正形成大规模产业化应用的案例尚不多见。主攻AI医疗的企业普遍反映“有模型、缺数据”,拿不到高质量、合规、有标注的基础数据,成为阻碍行业突破的核心瓶颈之一。
统一入库标准,规范数据质量。语料库仅有海量数据还不够,标注是否一致、准确才是关键。当前医疗大模型常出现“幻觉”问题,给出的诊断看起来像模像样,实际却经不起推敲,甚至出现错误。这主要是因为现有评估体系中,医疗大模型只盯着词汇匹配度,对医学逻辑是否严密判断不准。这就需要在早期构建语料库时,增强检索内容与知识图谱的关联,给大模型配上可查证的“知识字典”,形成可靠推理,从源头抑制“幻觉”。
解决数据共享共用矛盾。医疗数据涉及核心隐私,法规要求严格,但AI训练又需要大量数据,二者之间的矛盾若不能妥善解决,AI医疗的发展将举步维艰。据介绍,当前的技术探索主要围绕三个方向:一是联邦学习,让模型“移动”而非数据集中,实现数据“可用不可见”;二是在数据脱敏基础上强化加密保护;三是实行数据信托机制,支持患者授权管理,实现全生命周期安全防护。
培养医学、信息学交叉人才。语料库建设需要兼具临床知识和数据工程能力的复合型人才,其匮乏可谓当前最难突破的瓶颈。吴松认为,教育主管部门应与卫生健康系统进一步协同,将医工交叉人才培养纳入国家医学教育改革的整体布局,形成政策层面的制度性支撑。
“数据是新时代医学研究的基础。让优质医疗经验成为可复制的数字资产,正是语料库建设的核心价值所在。”吴松说,“我们期待在政策层面打通制度通道,让更多医院有动力、有能力、有保障地投身这场数据驱动的医疗革命,共同推动医疗健康产业进入更有质量的新阶段。”
相关文章 浏览更多相关文章>>
- [事件]语料库 AI诊疗的基石05-08
- [事件]基因对寿命的影响可能占一半05-08
- [事件]丧偶 男性创伤大05-08
- [事件]多吃酸奶减少贫血05-07
- [事件]男性做家务死亡风险降四成05-07
- [事件]老人最该练的是深蹲05-07
- [事件]生命通道不能人为掐断05-06
- [事件]存多少钱才够养老05-06
最新文章
- [事件]语料库 AI诊疗的基石05-08
- [事件]基因对寿命的影响可能占一半05-08
- [事件]丧偶 男性创伤大05-08
- [事件]多吃酸奶减少贫血05-07
- [事件]男性做家务死亡风险降四成05-07
- [事件]老人最该练的是深蹲05-07
- [事件]生命通道不能人为掐断05-06
- [事件]存多少钱才够养老05-06

