简体中文
GeneCompass:解析基因调控密码,打造干湿融合新范式
来源: | 作者:百曜(北京)科技有限公司 | 发布时间 :2025-04-07 | 50 次浏览: | 分享到:

         

GeneCompass是国际上首个融入先验知识的预训练基础大模型,发展了知识与数据联合驱动的新范式。GeneCompass采用gene2vec、DNABert等工具将启动子序列、已知基因调控网络、基因家族信息和基因共表达关系等四种生物学先验知识进行编码,在单细胞转录组的基因ID和表达值基础上加入人类注释信息编码,提高了对生物数据间复杂特征关联关系的理解。通过训练整合了不同物种的数据信息及先验知识,GeneCompass显著提升了多种下游任务的性能,有望进一步提高传统生物学研究的效率和精准性,为尚无法突破的复杂生命科学难题带来新的切入点。

GeneCompass采用基于Transformer的深度学习架构,通过扩展传统的掩码语言模型Masked Auto Encoder(MAE)方式进行预训练,根据单细胞转录组的上下文同时预测掩码的基因ID及其表达值,捕获不同基因之间在不同细胞背景下的长程动态关联,通过多任务联合预训练形成更加细粒度的生命基础大模型。预训练完成后,GeneCompass进一步应用于多种下游任务,对单细胞转录组数据进行编码,支撑细胞类型标注、基因扰动预测、药物反应预测和基因调控关系预测等多种任务。

作为迄今为止最大规模的、具有知识嵌入的跨物种预训练生命基础大模型,GeneCompass可实现多个跨物种下游任务的迁移学习,并在细胞类型注释、定量基因扰动预测、药物敏感性分析等多个任务中取得比现有方法更优的性能。这充分展示了基于多物种无标注大数据预训练,再利用不同子任务数据进行模型微调的策略优势,有望成为实现基因-细胞特征相关联的各种生物问题分析预测的通用解决方案。

论文链接:

GeneCompass: deciphering universal gene regulatory mechanisms with a knowledge-informed cross-species foundation model | Cell Research