健康一体机配置可以定制多维模型中虚拟立方体的汇集计算结果,最终为医生和管理者提供健康体检数据多维分析报表服务。
最后,本文探讨了健康风险评估的方法。
通过引入健康一体机数据挖掘技术中的分类技术,探索用户检验指标和检查结论之间的联系并建立相应的预测模型。文中选取决策树、朴素贝叶斯和支持向量机这三种常用的分类模型在真实数据上进行了实验,三种分类器的准确率都达到了80%以上,证明了分类方法用于健康风险评估的可行性。此外,针对实验中健康体检数据集出现的非平衡性问题进行了讨论,最终选用数据预处理中的过采样方法对训练数据进行均衡。
在对比实验中使用
健康一体机算法对训练数据进行预处理之后,三种分类算法在总体分类准确率变化不明显的情况下对少数关注类的分类能力获得了显著提升,最终证明了过采样方法在健康体检数据集的不平衡性问题上应用的可行性。
数据集市
随着数据仓库中逐渐存储了丰富的海量数据,
健康一体机用户开始使用数据仓库中的数据,为了获取分析数据的方便性,用户获取数据仓库中的不同部分的数据用于分析自己感兴趣的主题,于是就形成了数据集市(Data Mart,DM)。数据集市是企业范围内数据的一个子集,一般按照业务的分类来组织,只包含与某一个特定业务领域相关的数据,也有人将数据集市成为部门级的数据仓库。数据集市一般分为独立型和依赖型的,独立于企业及数据仓库,直接从操作型环境获取数据的称为独立型的数据集市,依赖型数据集市的数据则直接来源于数据仓。