引用

wohenbenben @ 2006-04-26 10:35)
首先就上一页,但是数不清是哪层楼的哥们的关于数据挖掘的一个说法,发表一下评论:基于关系型的数据挖掘,能避免建立“立方体(cube)”吗?凡是用过或者见过基于关系型数据库或者关系型数据存储的工具的人,不管这个工具有多好看或者是多智能,相信都忍受不了重建cube的时间吧。甚至有人complain说,重建cube需要几个月呢。
然后,就刚才两位哥们关于高效查询发表一下评论(个人观点):
1、使用xmltype或者类似xml文档直接存数据的方式,我认为不可取。因为,查询统计的时候很慢。电子病历的主要目的,不是把纸做的病历电子化,而是为了医疗学的各种分析,帮助医生研究或者诊断等等。如果用这类方法存,将大大影响分析的速度和效果,不是一个好的存储方式。甚至,许多病理学分析的查询要求是很难或者不能满足的。
2、我认为,xml类型可以用来数据交互。比如服务器和客户端的信息交互,系统之间的信息交互,打印等设备之间的交互,等等。存储的时候,用一些结构化的(当然是一种点之间有结构化的拓扑结构),在使用或者交互的时候,以XML这种标准的形式。即界面、工具、别的系统等等获得的都是XML,数据内部分析起来也不会影响效率。
3、caché里的高效可以通过多种方式。例如,方法一:把XML导进来直接生成类,操作是直接建立在类上的;方法二:把数据真实的展现在global(多维数组)上。对于方法一,类之间的设计是基于面向对象的,关系很灵活,完全可以建立任意复杂的逻辑拓扑结构;对于方法二,多维数组本身就是高效,而且可以把锁控制在最小到节点上(相当于一个字段),等等特性,都是可以很好利用的。
4、caché里有很多的索引技术。比如,对索引数目没有限制;有动态的事务型位图索引,等等。都是可以让查询高效的技术。
上面是个人理解,大家可以参考或者批评。
你有这方面的实际应用过吗,呵呵,避免建立“立方体(cube)”能挖掘,简直是扯淡,如果过说基于面向对象,就可数据挖掘,那数据挖掘的理论还一直在发展,有必要吗,不要只谈理论.