世界首个知识与数据联合驱动的多物种生命基础大模型GeneCompass,同时处理了人类和小鼠两个物种的转录组数据,包含了超过1.26亿个单细胞并覆盖3.6万个基因,融合了启动子序列、基因共表达关系、基因家族标注和基因调控关系等四种先验知识,基础大模型参数量达到1.3亿,实现了对基因表达调控规律的全景式学习理解,同时支持细胞状态变化预测及多种生命过程的精准分析,展示了人工智能赋能生命科学研究的巨大潜力。
GeneCompass是国际上首个融入先验知识的预训练基础大模型,发展了知识与数据联合驱动的新范式。GeneCompass采用gene2vec、DNABert等工具将启动子序列、已知基因调控网络、基因家族信息和基因共表达关系等四种生物学先验知识进行编码,在单细胞转录组的基因ID和表达值基础上加入人类注释信息编码,提高了对生物数据间复杂特征关联关系的理解。通过训练整合了不同物种的数据信息及先验知识,GeneCompass显著提升了多种下游任务的性能,有望进一步提高传统生物学研究的效率和精准性,为尚无法突破的复杂生命科学难题带来新的切入点。
GeneCompass采用基于Transformer的深度学习架构,通过扩展传统的掩码语言模型Masked Auto Encoder(MAE)方式进行预训练,根据单细胞转录组的上下文同时预测掩码的基因ID及其表达值,捕获不同基因之间在不同细胞背景下的长程动态关联,通过多任务联合预训练形成更加细粒度的生命基础大模型。预训练完成后,GeneCompass进一步应用于多种下游任务,对单细胞转录组数据进行编码,支撑细胞类型标注、基因扰动预测、药物反应预测和基因调控关系预测等多种任务。
作为迄今为止最大规模的、具有知识嵌入的跨物种预训练生命基础大模型,GeneCompass可实现多个跨物种下游任务的迁移学习,并在细胞类型注释、定量基因扰动预测、药物敏感性分析等多个任务中取得比现有方法更优的性能。这充分展示了基于多物种无标注大数据预训练,再利用不同子任务数据进行模型微调的策略优势,有望成为实现基因-细胞特征相关联的各种生物问题分析预测的通用解决方案。
论文链接:
GeneCompass: deciphering universal gene regulatory mechanisms with a knowledge-informed cross-species foundation model | Cell Research