Nat Mach Intell|伯晓晨/李昊/陈河兵等提出基于变分图自编码器的转录因子调控网络预测方法DeepTFni

时间:2022-04-29 19:33:00

在各种转录因子的精密控制下,人类细胞中的大量基因在时间和空间上实现了高度有序表达,成为细胞分化、个体发育等正常生理功能的分子基础。转录因子之间相互作用形成的调控网络是复杂转录系统运转的核心子系统,准确构建这一核心网络是系统阐明诸多生命活动规律和复杂疾病机理的重要途径。

通过实验观测数据和计算分析方法重构转录因子调控网络是一项具有挑战的“逆向工程”。传统的转录因子调控网络构建大多基于组学数据的统计关联,忽略了一些具有重要影响的分子生物学因素。随着表观基因组学的飞速发展,染色质结构在基因表达调控中的重要作用不断被揭示。然而,将染色质结构信息融入转录因子调控网络构建涉及大规模复杂系统建模问题,传统计算方法难以实现。

2022年4月11日,中国自动化学会智能健康与生物信息专委会副主任委员、军事科学院军事医学研究院伯晓晨团队在人工智能顶级期刊Nature Machine Intelligence上发表了题为Inferring transcription factor regulatory networks from single-cell ATAC-seq data based on graph neural networks的研究论文,该研究采用图神经网络技术,提出了一种基于染色质结构的转录因子调控网络建模方法DeepTFni。李昊副研究员、博士生孙昱、洪浩助理研究员为该论文的第一作者,伯晓晨研究员、陈河兵副研究员为该论文的通讯作者。

主要研究内容

该方法考虑了基因表达调控过程中染色质结构这一重要约束,从反映单细胞染色质可及性的scATAC-seq数据中识别初步的转录调控关系,进而通过变分图自编码器 (VGAE) 方法重构精确的转录调控网络(图1)。

图1. DeepTFni算法流程图

研究人员首先在人类外周血的相关数据上与传统基于共表达假设的基因调控网络预测算法如GENIE3、GRNBoost2、SCENIC等算法进行了比较。结果表明,DeepTFni在调控关系识别的准确性、鲁棒性、生物可解释性和计算效率等方面均具有显著优势。

研究人员通过降采样实验,测试了DeepTFni在较少细胞数、测序深度不足等常见实际情况下的表现。结果表明,DeepTFni对于细胞数和测序深度的鲁棒性很好。例如,在仅输入超过80个细胞的scATAC-seq数据下,DeepTFni取得的预测结果与输入4,000个细胞的scATAC-seq数据的结果具有高度一致性(图2)。日本蜡烛图与成交量实战图谱

图2. DeepTFni仅使用少量细胞数据即可预测转录因子调控网络

研究人员还将DeepTFni运用在混合表型急性白血病 (Mixed Phenotype Acute Leukemia, MPAL) 的研究上,发现很多关键转录因子在白血病中的已知作用与其转录调控网络的变化具有密切关系(图3)。从健康到患病状态下,这些已知的关键转录因子同时存在mRNA水平的变化(降低、不变或升高)以及调控网络规模的变化(缩小、不变或扩张),根据两种变化是否趋于一致,研究人员提出了转录因子在MPAL中的三种作用模式。

图3. DeepTFni从调控网络的角度揭示关键转录因子在MPAL中的作用

结 语

综上所述,该工作构建了人类多种细胞的转录因子调控网络,并从中鉴定出造血系统分化和肿瘤发生中的“枢纽”转录因子,从而辨识出细胞状态改变的潜在驱动因素。作为一种构建转录因子调控网络的人工智能工具,DeepTFni可以帮助生物医学研究人员透过纷繁复杂的组学观测数据锁定关键的功能分子和通路,从而克服人工推理的局限性,显著提高研究效率。

感谢北京大学李程研究员、清华大学江瑞长聘副教授和中国医学科学院陈阳研究员对于该工作提供的宝贵建议。