肿瘤康复网 > MLCDForest:用深度森林对长链非编码RNA进行疾病预测的多标签分类模型

MLCDForest:用深度森林对长链非编码RNA进行疾病预测的多标签分类模型

时间：2020-11-14 15:17:03

相关推荐

1. 摘要

由于长链非编码RNA (lncRNAs)与多种人类疾病相关，近年来倍受关注。利用lncRNAs数据建立基于人工智能的疾病预测模型，这将有助于疾病的诊断和治疗。本研究提出了一种名为MLCDForest(Multi-Label classification with deep Forest)的深度学习模型，用于解决对给定lncRNA进行疾病预测时的多标签分类问题，可以看作是深度森林模型在多标签分类中的一种实现。MLCDForest是一种顺序的多标签粒度扫描方法，该模型考虑了标签间的相关性，与标准的深度森林模型有所区别。

2. 介绍

长链非编码RNA (lncRNAs)在许多生物过程中非常重要，与多种人类疾病有关。了解疾病相关的lncrna将为解读疾病机制、新药物开发和个性化药物[9]提供一个新的视角。

多标签分类作为监督学习算法的一种，用于解决样本与一个或多个标签关联的问题。目前，多标签分类算法主要可以分为两大类:问题转换和算法自适应。问题转换方法将问题转化为一系列单标签单类或单标签多类分类任务。在算法自适应方法中，具有代表性的是多标记k-最近邻(ML-kNN)和反向传播多标记学习(BPMLL)算法。

本文提出的算法MLCDForest，将标签相关性作为先验信息，用于预测lncRNA-tissue 的相关性。在每一层，估计的类分布被用于每个森林的训练。最后利用多个弱分类器的投票结果来确定一个测试样本应该属于哪个类。实验结果表明，该方法在数据集上的性能优于其他机器学习方法。

3. 方法

多标签分类

作为多标签分类数据集(X,Y)的基本信息，n为样本数，X为属性，Y为标签。给定标签空间Y = {Y1,Y2，··，Ym}，一个具有k个lncRNA特征的xi样本由标签空间Y中的一个子集y赋值。

标签相关性和并发性

标签相关性

本文使用克莱姆相关系数来评价两个标签间的相关性。

标签并发性

不同标签之间的不平衡程度可以通过不平衡比来衡量。SCUMBLE是另一种考虑到标签的不平衡比例和稀疏度的测量方法。SCUMBLE的公式如下:

在多标签分类的数据中，这些标签大多是不平衡的。在大多数常见的做法中，不平衡比率用来衡量不平衡。而这些标签的整体不平衡量用MeanIR来衡量，它是根据y中所有标签不平衡比例的平均值来衡量的，标准变异系数CV用来衡量MeanIR的显著性。mean和标准的检验公式如下:

提出方法的框架

深度森林尝试利用多粒度扫描和级联森林的类分布特征来替代深度神经网络 (DNN)。

多粒度扫描

第一步是基于滑动窗口的多粒度扫描，即根据生成的低维特征向量得到类分布。实践证明，该方法是一种有效的局部特征识别方法。多粒度扫描,如图1A和B所示,假设有n个样本，每个样本有100个原始特性，训练数据有4个标签,执行多粒度扫描，扫描窗口大小为50。考虑到不同标签之间的相关性，在输入特征和其他三个标签的基础上对第一个标签进行多粒度扫描，得到54个特征向量。其余三个标签分别生成53个特征向量。将提取的样本分别用完全随机树森林和随机森林进行训练，生成类向量，得到经过变换的特征向量852((54+53+53+53)×2×2)维变换后的特征向量。

如图1B所示，在预测阶段，首先使用传统的随机森林对每个标签进行概率预测，并将其拼接到原始特征上。

级联森林

在分层级联森林中，每一层都集成了强大的随机森林分类器。在对每个标签进行分类时，考虑特征的重要性，区分度大的特征的权重较高。在相关度最高的标签中，这一特征也可能有助于其他标签的分类。Boost类分布向量是由两个随机森林(一个是完全随机森林，另一个是部分随机森林)在多粒度扫描和级联森林期间生成的。通过K折交叉验证来评估每一层的性能，以克服过拟合的风险。在级联森林中，当验证集上整个级联的性能没有显著提高时，传播将终止。

MLCDForest的总体程序

作为gcForest，在MLCDForest框架中有两个主要组件。在多粒度扫描部分，根据不同的森林对对应的变换特征表示进行分类。而在级联森林中，分层随机森林是为了得到更有区别的特征。图2中的第一个标签说明了MLCDForest的示例。两个窗口大小(50,80)用于100维数据的多粒度扫描。得到窗口大小为50和80时的(54+53+53+53)×2×2和(24 + 23 + 23 + 23)×2×2维特征向量。将这些特征向量组合到不同的标签上，再结合相关统计，如果只有4个标签，就得到了经过1224维变换的特征向量。在级联森林中，通过这样的1224维特征向量学习级联随机森林，当验证集的性能没有显著提高时，这个过程将终止。

在任何一个测试实例中，通过多粒度扫描生成的1224维表示向量是级联森林的输入数据，根据最大聚合值取其类，最终对每个标签进行预测。

由于文章在服务器上，全文详见：

http://bbit.vip/service/main.php?version=1&type=article&id=84

原论文名称：MLCDForest: multi-label classification with deep forest in disease prediction for long non-coding RNAs

如果觉得《MLCDForest:用深度森林对长链非编码RNA进行疾病预测的多标签分类模型》对你有帮助，请点赞、收藏，并留下你的观点哦！

本内容不代表本网观点和政治立场，如有侵犯你的权益请联系我们处理。

网友评论

网友评论仅供其表达个人看法，并不表明网站立场。