引用

dongxi @ 2005-06-19 23:57)
在毕业答辩上曾经谈到过一些关于数据挖掘的问题。
在临床数据的各个术语概念之间存在各种关联。XUYUNXI曾经提到过“术语之间是呈树型关联的”。
挖掘时保留并参照这种树关联是重要的,有利于去除“垃圾规则”。比如先有吸烟再有肺癌。肺癌是吸烟的子节点概念。
这个例子或许并不十分贴切。更为贴切的例子是:腹部触诊结果与腹部有无包块这两个概念。
腹部触诊正常必然意味着腹部无包块,
腹部有包块必然意味着腹部触诊异常。
换句话说,树型的结构化病案概念集合中,子节点与父节点之间存在一定必然的关联,而父节点与子节点之间存在概率关联。
在临床病案数据挖掘过程中参照这种关联有利于有目的地生成关联规则,而不会盲目地进行关联生成的尝试。
先要定义一个“树关系”,“腹部触诊正常”={腹部无包块
and腹部无压痛
and腹部无反跳痛
and腹部无板样腹
and......};再定义另一个"树关系"为“腹部触诊异常”={腹部有包块
or腹部有压痛
or腹部有反跳痛
or腹部有板样腹
or......};再确认"腹部触诊正常"与"腹部触诊异常"和"腹部无压痛"与"腹部有压痛"等为"补关系",即"非此即彼",那么就能自动推断"腹部触诊正常"
隐含"腹部无包块","腹部有包块"
隐含"腹部触诊异常"。