批次效应的修正和细胞类型的聚类是单细胞分析流程中的关键步骤。不同测序批次所使用的实验平台、实验仪器和数据处理流程等不同,实验结果会产生与生物信号无关的技术差异,使得测量的细胞表达量在分布上存在着显著差异,严重的批次效应会掩盖真实的生物学差异,进而影响后续的分析。批次效应修正就是为了减少批次间的差异,尽可能使批次间的数据分布相一致,这样下游分析就可以只考虑生物学差异因素。同时,集成不同来源的数据集,使得他们在模型中学到的表征倾向于按细胞类型聚类而无视测序批次。
转录因子、辅因子和靶基因之间的相互作用构成了基因调控网络(GRN)。现有的GRN推断方法通常依赖于基因表达的静态相关性或伪时间估计。我们通过生成式训练基因tokens进行优化后,从而在基因嵌入中隐式地编码了这些关系。因此,可以将基因嵌入应用于构建包含基因-基因相互作用的相似性网络(similarity networks)。
通过将单细胞多组学数据中每种组学类型(例如基因表达,染色质可及性和蛋白质丰度)进行融合,并保留生物学信息(singal),使得数据可以从多视角呈现遗传调控,包括遗传学、转录组学和翻译活动(epigenetic, transcriptomic, and translation activities),从而增强特征和细胞表示学习。
本任务旨在通过敲除基因来研究细胞的命运,使用机器学习模型对细胞命运进行预测。敲除基因是通过特定的实验方法来抑制或缺失目标基因在细胞中的表达,从而观察其对细胞功能、表型和命运的影响。细胞命运预测是利用敲除基因后的细胞特征和表达数据,通过建立预测模型来推断细胞的发育轨迹、分化状态或其他与命运相关的信息。通过敲除基因并预测细胞命运,揭示基因与细胞功能之间的关系,为细胞生物学和疾病研究提供有价值的信息和洞察。
在单细胞转录组学研究中,轨迹(Trajectory)是指从干细胞起源到不同功能特化的细胞类型,这些细胞在不同时间点、状态和分化分支上的变化路径。轨迹推断是一种计算方法,通过使用大量高维度的单细胞数据,重建和分析生物过程,如细胞分化、发育和状态转换等过程中的动态变化。
潜在基因扰动的庞大组合超过了实验可行性的实际限制。为了克服这一局限,使用模型充分利用已知实验中获得的细胞响应知识,并预测未知情景中的响应。在基因维度上应用自注意力机制使得能够对受扰基因与其他基因的响应之间的复杂相互作用进行编码。从而使模型有效地从现有实验数据中学习,并准确预测扰动后的基因表达。
细胞类型注释是指根据生物学知识和已标注的数据对未知的细胞类型进行标注的过程。目前主要有自动注释和手动注释两种方式。自动注释依靠算法和先验生物学知识,但存在注释结果置信度低、标注的细胞标签冲突等问题;专业的手动注释通常被认为是细胞注释的金标准,但存在着效率低和主观性强等问题。
目标:对于输入的细胞,准确预测其类型。
单细胞RNA测序(scRNA-seq)彻底改变了我们对组成组织的丰富异质细胞群体、发育过程的动力学以及控制细胞功能的潜在调节机制的理解。然而,要理解单细胞如何协调多细胞功能,还要了解它们的空间信息,通过计算框架(novoSpaRc),在不依赖空间图像信息的条件下,从头重构细胞在空间的位置。
对单细胞RNA测序数据的跨物种比较分析使我们能够以单细胞分辨率探索细胞多样性的起源和细胞形态功能的进化机制。通过跨物种分析,我们可以将对某一物种特定器官的主要细胞类型的认识迁移到另一物种中,进行准确的跨物种细胞类型分配,并发现同源基因模块中共有的细胞类型特定功能,揭示两个物种之间的共有特征和差异特征。例如可以对比人类和猕猴的精子发生轨迹,揭示这两物种间的保守表达动态。