西湖大学郭天南研究员提出,人工智能虚拟细胞(AIVC)的演进和发展依赖于三个关键的数据支柱——先验知识(priori knowledge)、静态架构(static architecture)和动态状态(dynamic states),这些数据支柱与深度学习算法(deep learning algorithms)相结合,构成了 AIVC 发展的基础。
1、先验知识:海量文献的“智能熔炉”
整合百年生物医学研究成果,包括 2.4 亿篇论文,以及 3D 分子结构数据库,这些人类已有的知识如同“细胞百科全书”,为 AI 提供基础细胞生物学规律,就像 ChatGPT 学习了人类的所有文本,让 AIVC 吸收所有细胞知识。
2、静态架构:纳米级细胞“全景地图”
融合冷冻电镜、超分辨显微镜、空间组学技术,绘制细胞器、蛋白网络的精确三维结构,分辨率达 5-10 纳米。
3、动态状态:捕捉生命的每一帧变化
追踪细胞发育、癌变等过程的分子动态;利用扰动技术(例如基因编辑、药物刺激)生成大量数据,训练 AI 预测细胞行为。
郭天南团队进一步提出了“闭环学习”框架:
数据融合:Transformer 模型整合文本、影像、蛋白质组数据;
动态推演:Diffusion 模型模拟细胞状态变迁,预测药物干预效果;
自我进化:每次虚拟实验结果反哺模型优化,形成迭代升级。
未来应用:从精准医疗到合成生物学
药物开发:虚拟筛选抗癌药组合,缩短研发周期;
疾病解密:模拟阿尔茨海默病蛋白异常聚集过程;
细胞工厂:设计高效生产胰岛素的人工细胞。
参考资料:
https://www.nature.com/articles/s41422-025-01101-y