购买时请注意选择相应的产品名称
应用多变量概率网络病理数据自动化系统 | |||
---|---|---|---|
      
型的病理实验室每天处理大量的病人数据。 新的免疫学技术,分子生物学和药物基因组学的发展,导致大量的生物标记,诊断化验,小说biotherapeutics增加了实验室信息的数量和质量。 这些发展让治疗决策过程更加复杂。
然而,应用动态统计建模实验室信息可能让医生更有效的使用可用的临床信息。 1、2 本文评估了使用贝叶斯建模方法结合已知的临床和病理信息的数学框架,以计算预处理和后续测试的可能性慢性肾脏疾病(CKD)在医院急诊科。 贝叶斯分析复杂数据集历来是耗时和充满了潜在的错误。 新的机器学习软件可以自动化这个过程和产生一致的结果。 本调查的目的是评估一个这样的软件包,DecisionQ FasterAnalytics DecisionQ集团。 (Kentfield,CA)。 特别是,目标是确定质量、准确性,并产生效用的贝叶斯模型。
调查和方法
慢性肾病的早期阶段很难检测与当前实验室化验。 3、4 如果早期发现疾病迹象,有效治疗可以延缓或者停止对终末期肾病进展。 5 但是研究已经表明,许多病人是后期诊断出来的过程中他们的疾病。 6 虽然许多研究评估使用的新生物标志物检测早期肾脏疾病,这些测试通常受限于分析测量阶段的疾病,和其他病态的存在条件。 7号到9号
图1所示。 (点击放大) 肾脏功能的概率(贝叶斯)模型在医院急诊室的人口。
这里的研究报告,研究人员应用贝叶斯机器学习工具的数据集急诊室病人的目标计算预处理和测验后的肾功能不全的可能性。
数据收集。 2003年6月至2004年8月,在医院急诊部门在圣地亚哥,740个连续的患者常规脑利钠肽(BNP)水平部门下令医生会自动参加这项研究。 该研究使用常规临床和实验室数据;因此,招生并不需要同意和批准的机构审查委员会委员。
BNP水平的订单触发的分析n端激素原法国巴黎(NT-proBNP)和所需的数据计算估计的肾小球滤过率(eGFR)使用饮食在肾脏疾病的修改(MDRD公式)。 MDRD公式是基于血液尿素氮(BUN)、血清肌酐、血清白蛋白、年龄、种族和性别。
当受试者从医院出院的时候,是否直接从急诊或住院治疗后,最终放电ICD-9代码(国际疾病分类,9日启)被调查人员获得医院的医疗记录。 调查人员评估以下疾病诊断:充血性心力衰竭(CHF),肾脏疾病,急性心肌梗塞(AMI),慢性阻塞性肺疾病(COPD)、肺炎、糖尿病和高血压(BP)你好。
表我。 (点击放大) Patient-data变量作为贝叶斯分类通过面元方法分析使用FasterAnalytics软件。
数据收集完成时,调查人员检查最后的数据设置错误,缺失数据的差异和重要模式,发现它是适合建模。 他们分类某些变量进一步之前装箱建模;在这方面,他们遵循建立临床实践和科学文献(见表1)。
统计分析。 数据分析使用贝叶斯信念网络。 一个贝叶斯网络编码中的所有变量的联合概率分布建立一个网络域的条件概率。 它使用易处理的条件独立性假设使表示。 直接网络合并节点之间的父子关系。 在网络中,节点是独立于其nondescendants鉴于其父母。 这里讨论的贝叶斯网络构建了FasterAnalytics软件。
之前的软件生成贝叶斯网络使用机器学习来计算概率和网络的结构。 之前可能性源于要建模的数据通过计算离散分布的状态,等积或使用装箱的连续变量。 软件获取的网络结构通过启发式搜索方法,生成假设模型与不同的条件独立性假设。
两个专有的启发式搜索利用创新。 第一个是数据缓存和查询系统允许一个数量级比以前更多的数据来分析。 这使用户能够在较短的时间内考虑更复杂的问题在廉价的计算硬件。 第二个创新使用高效搜索,增加灵活性,启发式搜索。 除了更大的速度和效率这一特性使贝叶斯建模、模型质量分数产生普遍比1 - 5%,通过一个标准的启发式算法。 12
表二。 (点击放大) 交叉验证数据MDRD表皮生长因子受体研究中的五个训练集。
所有值百分比。
最有可能的软件促进了网络模型的数据可用。 模型是得分根据最小描述长度,一个系统,提供了一个衡量模型的质量。 这个得分技术交易适合降低模型复杂度。 拟合优度的可能性是给定的数据模型,而模型的复杂性需要存储的信息量模型。 最小描述长度得分是渐近等价于贝叶斯评分,也被称为贝叶斯信息准则。
软件评估研究中使用一些算法来处理缺失数据。 的调查,每个记录的选择算法忽略了部分信息缺失。 为了防止过度拟合模型的数据,研究人员使用两种方法。 首先是应用程序复杂性的处罚,要求添加任何新的参数导致同等或更多数量的预测能力。 第二,狄利克雷曾在建模之前建立一个预期误差的先验概率分布数据。
网络验证通过train-and-test交叉验证方法。 这种方法包括随机选择一个独立的测试集和持有它有别于其他的数据训练模型。 使用的测试集代表总数的20%的数据集和训练集代表总数的80%为双重的交叉验证数据集。 研究人员重复这双重验证的5倍。
图2。 (点击放大) 期望概率的计算,当正常的肾功能。
一旦模型训练集的构造,调查人员输入测试集,生成一个特定的预测每个病人记录感兴趣的变量。 然后用测试集预测计算预测值(pv)和receiver-operator-characteristic曲线(ROC)为每个模型。 ROC曲线进行了计算,通过比较每个变量的PV测试集的已知值在一个特定的基础上。 然后用来计算曲线下面积(AUC),总体模型质量的指标,表示程度的敏感性和特异性之间的权衡模型中。 pv计算为每个给定变量的结果。 他们提供给定的概率和给定阈值是一个真正的积极的结果。
|
上一篇:未来微流控手持系统多路复用微流控荧光免疫测 | 下一篇:风险管理路线图临床实验室预测潜在的伤害 |
---|
无法在这个位置找到: xy/left.htm