发新话题
打印

大样本多元关系型数据的信息判别及其在医学领域的应用

大样本多元关系型数据的信息判别及其在医学领域的应用

最近想到了这个题目,自已觉得这个课题对医学信息非常重要,是基础性的,也是开创性的,值得花精力去研究的。希望有兴趣的朋友,一起来参与研究。
个人观点,作者原创,版权所有。转载请联系:shenbifei@163.net,sbf2000@gmail.com

TOP

大样本多元关系型数据的信息判别及其在医学领域的应用

基本思路:

1.这是个人工智能方面的题目,统计学中的判别分析是基础。

2.当今,关系型数据库盛行,各行各业都已经积累了大量的关系型二维多元数据。如何合理利用这些数据,成了体现信息系统价值关键问题之一。

3.医学是个复杂科学,所以医学数据很多。利用现有数据,发现规律,判别有用信息,显得更加有可能,更有必要。

个人观点,作者原创,版权所有。转载请联系:shenbifei@163.net,sbf2000@gmail.com

TOP

大样本多元关系型数据的信息判别及其在医学领域的应用

跨库、跨系统、跨机构、跨地区的样本数据的同质性难免让人担忧
LOINC International @ Regenstrief Institute
CLISOL @ CHISS
LOINC Introduction @ OpenClinical
LexGrid Project @ Mayo

TOP

大样本多元关系型数据的信息判别及其在医学领域的应用

  判别分析是一种根据观测变量判断研究样本如何分类的多变量统计方法,它对于需要根据对样本中每个个案的观测来建立一个分组预测模式的情况是非常适用的。分析过程基于对预测变量的线性组合产生一系列判别函数,但是这些预测变量应该能够充分地体现各个类别之间的差异。判别函数是从一个每个个案所属的类别已经确定的样本中拟合出来的,并且生成的函数能够运用于同样进行了预测变量观测的新的样本点,以判断其类别归属。判别分析的基本原理可以表述为:在一个P维空间R中,有K个已知的总体G1,G2,G3,…,GK,同时有样本点X(X1,X2,X3,…,XP),它属于且仅属于这K个总体中的一个,判别分析所要解决的问题是确定这个样本点X具体应该属于那一个G总体。实际上判别分析的过程分为两个部分,首先是依据已知样本及其预测变量建立起一系列分类规则或判别规则,其次是运用这一规则对样本的原有分类进行检验以确定原有分类错判率。同时如果原有分类具有较低的错判率,则建立起来的分类规则可以应用于实际工作中。

  判别分析的方法中较常使用的有Bayes判别和Fisher判别。Bayes判别是一种概率型的判别分析,在分析过程开始时需要获得各个类别的分布密度函数,同时也需要知道样本点属于各个类别的先验概率,以建立一个合适的判别规则;而分析过程结束时则计算每个样本点归属于某个类别的最大概率或最小错判损失,以确定各个样本点的预测类别归属。当某个样本点的判别得分为D时,则它属于第i个类别的概率为:

P(Gi|D)=P(D|Gi)P(Gi)/ΣP(D|Gi)P(Gi)

式中P(Gi)为先验概率,P(D|Gi)为在第i组判别得分D的条件概率,而P(Gi|D)为在第i组判别得分D的后验概率。判断某个样本点是否属于某个类别,则需要判断属于该组的概率是否最大。Fisher判别是依据方差分析原理建立起来的另外一种判别分析方法。Fisher判别的基本思路就是投影,针对P维空间中的某点x=(x1,x2,x3,…,xp)寻找一个能使它降为一维数值的线性函数y(x):

y(x)= ΣCjxj

  然后应用这个线性函数把P维空间中的已知类别总体以及求知类别归属的样本都变换为一维数据,再根据其间的亲疏程度把未知归属的样本点判定其归属。这个线性函数应该能够在把P维空间中的所有点转化为一维数值之后,既能最大限度地缩小同类中各个样本点之间的差异,又能最大限度地扩大不同类别中各个样本点之间的差异,这样才可能获得较高的判别效率。在这里借用了一元方差分析的思想,即依据组间均方差与组内均方差之比最大的原则来进行判别。

  判别分析的结果对应着分析的不同步骤过程,也就包括了分类规则和分类结果两个部分。在分类规则中应该包括典型判别函数(Canonical Discriminant Function)、衡量预测变量与判别函数之间关系的结构矩阵(Structure Matrix)以及Fisher线性分类函数(Fisher Classification Function)。典型判别函数是基于Bayes判别思想建立起来的,主要用途在于对参与分析的各个类别、各个预测变量、各个类别中的各个样本点及其相互关系进行考察。要将典型判别函数应用于大量的实践操作中是不现实的,因为这涉及到对被分类的样本计算各种概率,十分繁琐不利用操作。而Fisher线性分类函数则是针对每个类别分别建立起来的,可以直接应用实践操作中对新的样本进行分类。在分类结果部分则依据已经建立起来的分类规则对参与分析的各个样本点重新进行分类,并通过与原有分类进行比较来确定原有分类的判对率。

个人观点,作者原创,版权所有。转载请联系:shenbifei@163.net,sbf2000@gmail.com

TOP

我支持

我报名参加

TOP

报名迟了点,截止 快两年了,哈哈
以复杂理论之牙,还复杂世界之牙

TOP

在大型多元关系型数据库的基础上按主题构建数据仓库,以关联规则和聚类方法进行数据的挖掘和知识的发现,这是医学信息的一个重要的研究方向。
   有意向清在MSN里加我  zhiyongliu_999@hotmail.com
真诚交流,开阔视野

TOP

不仅仅有判别分析

对具体的问题分析的方法很多,根据目标和具体数据情况,目前用聚类分析的比较多,判别分析似乎风险大一些。

TOP

发新话题