三. 一体化医学语言系统(Unified Medical Language System, UMLS)
1 概述
背景:美国国立医学图书馆(NLM)1986年开始组织研究和开发的一项长期项目。
宗旨:帮助医务人员从大量的信息源中检索和合成电子化的生物医学信息,使用户能够方便地把分离的信息系统中的信息集中起来,所谓的分离的信息系统包括计算机病案系统、书目文献数据库、事实数据库和专家系统等。
具体手段:UMLS项目开发了机读型的“知识库”,到1999年已发行第10版。可以将其广泛应用于应用程序之中,以克服因词表不同和相关文献分散于不同数据库等问题造成的检索困难。
开发策略:人员包括多学科的指导小组,NLM的职员,全美各地通过投标获取经费的医学信息学研究小组。此外,NLM还极力推广UMLS的使用,只要承担NLM提出的要求并在许可书上签字就可以获得当年免费的知识源。NLM通过对各版使用反馈的情况不断对“知识源”进行精雕细刻。
知识源:包括四种,即超级词表、语义网络、信息源图谱和专家词典。相互联系,结合使用的一个整体。其中超级词表是生物医学的概念、术语、词汇及其涵义、等级范畴的集成。语义网络是为建立概念、术语间相互关系而设计的,它为超级词表中的所有概念标明了类别和语义类型。信息源图谱是一个有关各种生物医学数据库的范围、位置、词表、语法及获取条件的信息。专家词典则包括英语词汇数据库及其配套程序。
应用:建立病人数据库、自然语言处理、信息检索。NLM自己则将其应用到网上检索软件Internet Grateful Med上。
2 超级词表
收录范围:第10版包括了50多种的生物医学词表和分类表。
包括如下类型:
病历管理系统词表:如哥伦比亚大学长老会医学中心的医学用语词典(MED of CPMC),系统化医学和兽医学术语表(SNOMED)等。
疾病和疾病过程的分类表:如ICD-9。
专业词表:包括与精神病学、护理、医疗器械、药物副作用等数据有关的词表。
专家系统或联机数据库中的疾病术语:如麻省总医院的专家系统Dxplain,孟德尔人类遗传学联机数据库、临床癌症事实型数据库等。
信息检索系统使用的词表,如MeSH及其各种译本、美国国会图书馆标题表。
医学词典,如多兰氏医学词典、医生现行工作术语。
工具性词表:如校对词表等。
收录上的特点:
量大:1999年收录626,893个概念,1,358,891个词。数量在医学信息检索语言发展史上是空前的 。
有侧重:对来源词表的收录有完整收录和部分收录之分。有的词表如ICD-9,MeSH等收词多,而对《人类流行病学研究方法学专业词表》则仅收录43个。
动态:收词量动态增长,1997年约有8万个概念和13。5万个词同时有删除。
超级词表系统的组织结构:
“概念”是超级词表的组织系统的核心。超级词表是依据概念(concept)或涵义(Meaning)为中心组织起来的,从根本上说,其目的是要将同一概念的各种名称(同义词)和形式(单复数、形容词等)联系在一起,并标识不同概念之间的关系。
超级词表中采用了三级模式来表达概念及相关形式:
概念(Concept):共626,893个(1999),其唯一标识符为CUI。
术语(Term):表达同一概念的不同术语,如同义词。其唯一标识符为LUI。
串(String):同一术语的多种变异形式,如复数及其他变形。其唯一标识符为SUI
如图1, 串Atrial Fibrillation 和及其复数形式Atriallations 具有不同的串唯一标识符(SUI=S0016668和SUI=S0016669),但是它们都连接到同一个术语标识符(LUI=L0004238)。由于术语Atrial Fibrillaion 和术语Auricular Fibrillation 是同义词,因此其不同的LUI都连接到同一个CUI。
应当注意的问题:
优先采用形式:词表中每个概念指定一个优先形式(Preferred),表示同一概念的术语或同一术语的多个词串分别指定一个优先形式。如上图。但这种指定只是在建词表时指定的默认形式。实际上,用户可以根据自己的习惯爱好和具体情况自由选择概念的交替术语以及术语的不同形式。
多义串:在某些情况下,一个词串能表达两个或多个概念,称为多义词串。如COLD,在一个来源词表中是一个有关温度的名称,而在另一个词表中却是感冒的交替名称。超级词表目前对它的处理是分别标以Cold(1) 和 cold(2)作为两个不同的词串,规入两个不同的概念,因而分别具有不同的词串标识符。今后的版本中可能采取其他方式,如"Cold(temperature)","Cold(disease)"。
3 语义网络
定义:
语义网络是建立概念间相互关系的权威规则。通过134种语义类型,为在超级词表中的所有概念提供一种目录组织结构。语义类型之间通过54种语义关系为这种组织结构提供框架,以代表生物学领域重要的关系。
语义网络为超级词表中的每个概念至少提供一种语义类型;同时也给信息源图谱中的每个数据库标明一种语义类型,以表达信息源之间的内在联系。
语义网络试图建立一种语义类型及其相互关系的权威规则,以标引每一个超级词表中的概念,表达概念之间可能存在的相互关系。
语义类型:
语义类型的结构是等级制的,其顶层分为“物”和“事”两大类,由此层层展开。每一个语义类型有一个等级号。如“诊断过程”的等级号是B1•3•1•2。此外,每一个语义类型还赋予一个语义类型代码,这些码并无实质意义。其结构如图2。
语义关系:
语义关系链将语义类型连接成为语义网络。在语义网络中,语义类型可以看成有层次结构的节点,而将这些节点连成网的就是语义关系“链”。这种关系链共有54种,可以分成两类:
等级关系链(H):仅一种,为isa。它是语义网络中的基本等级链,表达语义类型间的等级关系。如果语义类型(A)与语义类型(B)之间是isa关系,则表示A语义类型在定义上比B更为专指。如图3。
相关关系链(R):除isa外,其余的语义关系都是相关关系。它们反映了语义类型间的多样性。包括物理上的相关、空间上相关、功能上相关、时间上相关和概念上相关。如图4。
思想或概念
发现物
生物体属性
智力产品
概念性物 语言
职业或科学 专业或职业人群
物 组织机构 人口群体
人群属性 家庭群体 药用物质
人群 年龄组 生物医学或牙科材料
高层 疾患或残疾人群 生物活性物质 激素
生物体 指示剂或试剂 酶
解剖学结构 化学功能上的物质 危险品或有毒物质 维生素
实质性物 人造物 化学物质 受体
物质 体内物质 化学结构上的物质
食物
社会行为
行为 个体行为
活动 日常或娱乐活动
职业性活动
机器性活动
事
人为现象或过程 疾病或综合征
自然现象或过程 生物学功能 细胞或分子机理不良
现象或过程 损伤或中毒 病理功能 疾病实验模型
图2 语义类型树型结构示例
每一种语义关系都有其定义,并规定它可连接的语义类型。例如,语义关系“影响”的定义是:对...产生一种直接的效果,意为对一种存在的条件、状态、环境或物的改变或影响,包括对...起作用、改变、影响,使易感染、催化、激发、调节、抑制、阻碍、增强、有助于...、致使、修订。可连接的语义类型有:
自然现象或过程 影响 自然现象或过程
解剖学异常 影响 生理功能
生物学功能 影响 生物体
解剖学异常 影响 生物体
卫生保健活动 影响 生物学功能
心理过程 影响 行为
……
A 物 (T107)
1. 实质性物(T072)
1.生物体 (T001)
1. 植物 (T002)
1. 海藻(T003)
2. 真菌(T004)
3. 病毒(T005)
4. 立克次氏体或衣原体(T006)
5. 细菌(T007)
6. 动物(T008)
1.无脊椎动物(T009)
2. 有脊椎动物(T010)
1. 两栖类(T011)
2. 鸟类(T012)
3. 鱼类(T013)
4. 爬行动物(T014)
5. 哺乳动物(T015)
B 事
1. 活动
1. 行为
1. 社会行为
1. 个体行为
2. 日常或娱乐活动
3. 职业性活动
1. 卫生保健活动
1. 实验室过程
2. 诊断过程
3. 治疗或预防过程
2. 研究过程
1. 分子生物学研究技术
3.政府或立法活动
4.教育活动
4.机器性活动
1. 人类(T016)
图3 语义类型的等级结构示例
H.等级关系链 isa
R.相关关系链
1. 物理上相关
1. ...的部分
2. 由...组成
3. 包含
4. 与...相连
5. 相互连接
2. 空间上相关
位于...
与...相邻
包围,周围
穿过
3. 功能上相关
影响
管理
治疗
干扰
并发
与...相互作用
预防
带来、造成
产生
引起
执行
实施
展示
练习
...
4. 时间上相关
与...同时发生
先于...发生
5. 概念上相关
...的评价
...的程度、等级
分析
分析评估的影响
...的测量值
测量
诊断
...的特性
...
图4 UMLS语义网络的语义关系
语义关系的等级继承和继承阻断
等级继承:只高层语义类型间的语义关系,一般可以通过等级结构(ISA链)下传给这些节点的所有子类。等级结构的高层节点之间的语义关系是固定的关系。如上述例子中的“影响”链接的高层语义类型节点,有一对是“解剖学异常 影响 生物体”,表明,语义关系“影响”固定存在于“解剖学异常 ”和“ 生物体”之间,那么这种语义关系也存在于这两种语义类型的所有子类语义类型之间。如“获得性异常”是“解剖学异常”的一个子类语义类型,那么“获得性异常”与“生物体”的所有子类语义类型之间都有“影响”语义关系。如 “获得性异常” 影响 “植物”、“获得性异常”影响“真菌”等等。
继承阻断:不能继承的链称为阻断。在某些情况下,如果按照语义类型的等级结构及链的继承规则,会使语义类型与语义关系之间的连接产生歧义例如,语义关系“...的进程”存在于语义类型“生物体功能”和“生物体”之间,“生物体功能”有一个子类是“心理功能”,而“植物”也是一种“生物体”,按照继承规则,心理过程也是一种“植物的活动、功能或状态”,显然,植物不可能有心理过程。于是这种链接不能继承。称为阻断。其具体作法是只将语义关系界定在直接连接的两种语义关系之间,而使其子类不能继承这种关系。
4 专家词典
概述
专家词典是为满足“专家”自然语言处理系统对词汇信息的需求而开发的,打算作为一个包括大量生物医学术语的普通英语词典。覆盖面即包括常见英语词汇,也包括生物医学词汇。每条词或术语包括专家自然语言处理系统所必须的句法,形态及graphemic信息。
设计语法变形生成程序想要解决的问题是自然语言单词和术语的高度变异性。同一单词经常有多种变形,如"treat" 一词,可以有其单数第三人称形式"treats",过去分词"treated" 和现在分词"treating"。词汇变形生成程序就是帮助用户摆脱这类变化。
词典的范围
从不同来源中选出单词进行词汇编码。从UMLS的MEDLINE文摘收据试验中获得的20,000左右的单词加上UMLS超级词表中和Dorland图解医学词典的单词,形成输入单词的核心。此外,尽量包括一般英语词汇,如在美国Heritage词频词典中列出的10,000最常用单词和在 Longman当代英语词典中定义的2,00单词。由于所选的单词大多数都是名词,通过确认当前MEDLINE记录中的动词,使用计算机化牛津高级学生词典,及挑选Dorland图解医学词典中潜在的形容词,尽量包括动词和形容词。
用法
词典由一系列条目组成,每一条目代表在特定结构里的一种拼写变异或一组拼写变形。还包括一些多词组合词,以及缩写词等。具有共同的基本形式和拼写变化的条目组成一个记录。基本形式拼写变异中的引文形式,而引文形式系指动词的不定式形式、名词的单数形式和形容词副词的原形。
词表的记录是一个由SLOT和FILLER的框架结构。每个记录有一个“base=”slot 其filler指明其基本形式。有些记录还有一组:“spelling_variants=”slot 以标识拼写变异。每一词条由“entry= ”slot分隔开,每一个词条有其EUI号。EUI号是由“E”打头加7位数字组成。每一词条还有“cat=”slot表明其在句子中的成分。记录由花括号分隔。
例如:下面就是联合型的词典中的"anaesthetic"记录:
其基本形式是“anaesthetic”,其拼写变异是anesthetic,该记录还有名词条目和形容词条目两个条目。其“variants=”slot表示该条目的形态变异,如名词条目中的“reg”表明名词是一个可数名词,遵循一般复数规则(anaethetics)。其形容词条目中的“variants=”slot的“int”表明该形容词没有比较级和最高级。其“position=” slot 表明“anaesthetic”形容一个属性并且在正常语序中在色彩形容词之后。
{base=anaesthetic
spelling_variant=anesthetic
entry=E0008769
cat=noun
variants=reg
entry=E0008770
cat=adj
variants=inv
position=attrib(3)
}
5 信息源图谱
NLM不再继续开发ULMS的信息源图谱。但他们将继续开展该图谱一直想解决的问题,即:对一个特定的检索要求,在众多的信息源中,决定哪一个或几个信息源包含有与之相关的信息,并且支持多信息源的检索和检索结果的合成。