纯生信为何能轻松拿捏7分+?小样本量+机器学习SVM+双疾病这种套路【文献解读】

最近不知道咋地,研究双疾病联合作用的套路貌似有点火,例如《Exploring the Pathogenesis of Psoriasis Complicated With Atherosclerosis via Microarray Data Analysi》、《Exploration of the Shared Gene Signatures and Molecular Mechanisms Between Systemic Lupus Erythematosus and Pulmonary Arterial Hypertension: Evidence From Transcriptome Data》等,这两篇双疾病研究文章优势在于他们的背景介绍和讨论分析非常有意思,把两种疾病紧密的联系在一起了。

而小编今天分享的这篇文章《Similarity and Potential Relation Between Periimplantitis and Rheumatoid Arthritis on Transcriptomic Level: Results of a Bioinformatics Study》背景不清、讨论不细、数据样本量还不大,这么平平无奇为何能发7分+?这就值得小编去探索一下,对比之后,小编猜测作者可能利用非常火热的机器学习算法SVM来增加了文章的分值。

还记得吗?之前小编在我们的公众号上分享过非常多的机器学习算法(例如:LASSO、SVM-RFE、RF、ANN等),可能大家太忙了都没有去关注,看完今天小编分享的这篇文章后,希望大家可以有所启发。废话不多说,下面小编就带领大家一起阅读一下这篇小样本量+机器学习SVM+双疾病的7分+纯生信文章

分析流程图

背景平平无奇就不多看了,有兴趣的同学可以自己去阅读一下。

数据

GSE33774包括8名对照和7名种植体周围炎患者

GSE106090包括6名对照和6名种植体周围炎患者

结果呈现

01 种植体周围炎的不同表达基因

GSE33774和GSE106090之间的DEGs 比较揭示了 138 个常见的 DEGs,包括 101 个上调基因和 37 个下调基因。

02  功能丰富

在生物学过程中显着富集的 DEGs参 与中性粒细胞活化、B 细胞受体信号通路、B 细胞活化和细胞对细菌来源分子的反应密切相关。

03 蛋白质-蛋白质相互作用网络

构建的种植体周围炎的 PPI 互通包括 1,818 个节点和 2,517 个边缘。根据拓扑特征,MAPT、TGM2、SPP1在生物网络中度数最高,可能影响种植体周围炎的发展。

04  转录因子-基因调控网络

TF-靶基因调控对从 TRRUST、TRANSFAC、cGRNB、ORTI 和 HTRIdb 数据库下载。共提取了 1,067 个 TF-target 相互作用,构建了 TF-target 网络。具有最高程度的潜在串扰基因是DLG2、MMP9和IL6,因此可能在 TF-target 网络中发挥重要作用。

05 风险串扰基因的预测

RA 相关基因从 DisGeNET 数据库 ( https://www.disgenet.org/home/ ) 下载。确定了潜在的串扰基因,它们是 RA 相关基因,并与上调和下调的种植体周围炎相关 DEG 重叠。

06 串扰基因的SVM建模

对GSE33774和GSE106090数据进行整合,基于串扰基因,利用SVM-RFE 方法选择了6个特征(MERTK、CD14、MAPT、CCR1、C3AR1 和 FCGR2B),从合并后的数据中提取6个特征基因的基因表达谱,然后进行样本层次聚类,结果表明疾病组和对照组可以聚类为两组。因此,用这六个基因构建了SVM模型。

07  种植体周围炎与类风湿关节炎的关系预测

从类风湿关节炎(RA) 数据集GSE93272中提取了六个特征基因的基因表达谱,然后输入到由种植体周围炎数据集建立的模型中。Fisher 精确检验显示p值小于 0.05,证实了 6 个串扰基因对种植体周围炎和 RA 的预测。CD14和FCGR2B在种植体周围炎和RA中的表达最高。CD14和FCGR2B在种植体周围(GSE33774和GSE106090)中的曲线下面积(AUC)值超过95%。在 RA 数据集(GSE93272)中,CD14 和 FCGR2B 的 AUC 值分别为 73.77% 和 82.81%。

08 通路-基因功能网络

选择了可能在种植体周围炎发展中起重要作用的 17 条重要途径。为了识别种植体周围炎和RA之间的通路串扰,构建了通路-基因串扰网络。在激活的通路-基因网络中有四个特征基因(CD14、CCR1、C3AR1和FCGR2B )。

本文分析到此就结束了,可以看到整个分析其实是比较简单的,但是该文章很好诠释了纯生信小样本量+机器学习SVM+双疾病这种套路也是可以发7分+的。但是小编认为,结合双疾病的思路来进行研究,至少需要具备如下条件:

  • 需要有相应的背景知识,两种疾病之间的联系是要相应的背景介绍的,不能随便找两种疾病,

  • 做纯生信分析肯定也是需要对应的数据,样本量至少每个分组5个以上,当然是越多越好。

  • 套路也不能应用已发表的文献,说实话,像已发表的双疾病研究文献基本的分析流程就是利用了差异表达分析、功能注释、PPI等最基本的生信手段,继续套用有很大风险会被拒,因此思路上需要创新,在常规生信手段的基础上加一些热门手段(例如:LASSO、RF、SVM、WGCNA等),或者加一些多组学的研究(蛋白组、代谢组等)。

以上就是小编的分享内容,如果您满足双疾病的研究条件而苦于没有思路不知道如何来入手生信分析,或者需要一些热门生信手段的代码,可以扫码找到。生信热点思路设计、SCI热门图表制作、热点方向数据挖掘等,如有需要,可加扫描下方二维码了解详情

资源下载: