关于生物学的一个长期笑话是,如果你喜欢科学但数学不好,那它是一个很棒的专业。
分子生物学不像物理学。生命系统的复杂性和非线性,要求以蛮力方式创造和传播知识。生物学教科书充满了事实,而不是方程式。
人工智能正在以重大方式改变这一状况。经过数十年研究,深度学习有效地解决了三维蛋白质结构预测的问题,许多现实问题通过收集数据更容易解决。
这一突破——以及蛋白质设计的进展——让David Baker,、Demis Hassabis和John Jumper 获得了2024年诺贝尔化学奖。
这背后的逻辑并不难理解:很少有大分子像蛋白质一样重要,在解决和设计其结构的能力上实现突破,意义很重大。
但整个分子复合物,以及这些复合物之间的相互作用呢?
我们已经拥有特定部件的强大模型。现在我们正在学习将部分组成整体的模型——让我们更接近整体细胞的预测模型。
这似乎正是研究工作目前的发展方向。生物学中一个长期以来的圣杯——有效模拟细胞行为——的关注明显上升。
全球顶 尖实验室和公司正竞相建设“虚拟细胞”,这一概念自世纪之交以来就存在。有了新工具,这个愿景现在似乎触手可及。
一个特别重要的例子是最近的论文How to build the virtual cell with artificial intelligence: Priorities and opportunities(《如何用人工智能构建虚拟细胞:优先事项与机遇》)。
我们正看到第 一波架构创新浪潮——更重要的是,基准测试——以及大规模生成多类数据的努力。
但在我们开始揭开AI虚拟细胞的真相之前,先来看看以前虚拟细胞是什么样子?
早期探索
Markus Covert成长于1980年代的硅谷,在大学期间,他决定学习化学工程,部分原因是他长期以来对科学的兴趣,部分原因是这被认为是校园里最难的专业。
它名副其实:真的很难。但回报并不完全值得。
对化学工程感到失望,Covert开始寻找当时还非常少见的生物工程研究生项目。他最终来到了加州大学圣地亚哥分校,该校在1994年才成立了整个加州大学系统中第 一个生物工程系。事实证明这是明智的选择。
当时,基因组学领域刚刚开始合并。圣地亚哥是一个圣地—— Craig Venter成立了基因组研究所,这是一个私营研究中心,致力于应对看似疯狂的项目。
Venter是一位极 具前瞻性和竞争心的科学家,后来因与人类基因组计划竞速而闻名,他召集了一小群科学家,这些人与他一样,拥有热情和雄心。
在一系列具有里程碑意义的论文中,他们绘制了首 个自由生活生物的基因组图谱、世界上最小生物(生殖支原体)的基因组,以及著名肠道病原体的基因组。
但这一愿景远远超出了基因组测序。Venter和他的团队推动了一个研究议程,旨在在计算机上模拟整个细胞,最终甚至合成其基因组。排序、合成、模拟,这些理念作为一个使命的一部分,旨在以一种根本全新的方式设计生命。
Covert十分欣赏这些成果,他师从Bernhard Palsson,后者是生物学计算机建模的早期先驱之一。Covert痴迷于生成可验证预测的美妙之处,他发表了一篇重要论文,将Palsson的细胞代谢建模技术与基因调控的表示方法联系起来。
之后,David Baltimore成为了Covert的博士后,随便一提,David Baltimore在37岁时获得诺贝尔奖,后来还成为了洛克菲勒大学校长,以及加州理工学院校长。
在加州理工学院,Covert爱上了实验。他学会了将建模技术与细致实验结合起来,追踪实际细胞中的单个转录因子。
关键是,他接触到了活细胞成像技术的早期原型。为了学习,科弗特自愿在夜间监视显微镜,他用鸡卵孵化器、纸板和胶带搭建了一个临时设备,确保温度稳定在37度,以保证细胞存活。
最终,Covert有机会回到湾区,在斯坦福创办自己的实验室,继续从事计算机建模和活细胞成像的研究
模拟一个细胞需要什么?
1984年,耶鲁大学的生物物理学家Harold Morowitz在一篇题为The completeness of molecular biology的文章中提出了一个计划。
首先,测序最小的生物——分枝杆菌。Covert已经做过类似的事,确认了这件事。
接下来,模拟基因组中估计存在的600个基因的行为。Morowitz推理道:“在600步中,计算机模型是可行的,实验室中所有实验也可以在计算机上进行。这些匹配程度衡量了分子生物学范式的完整性。”
但实际上,这一步比预期的要困难得多。早期原型仅代表了M. genitalium基因组中的127个基因,模拟结果几乎不像实验。分子生物学的范式感觉远未完整。
时间到2008年,突然,Covert将整个训练中收集的零散想法开始拼凑起来。
在加州理工学院,他曾用显微镜观察单个细胞。全细胞模拟应当以近似一个细胞为目标,而非对多个细胞群体进行近似。与他的论文工作类似,这需要将不同细胞过程的不同数学表示整合到一个模型中。
他立即开始绘制单个M. genitalium细胞中每个细胞过程的模块,雪球开始滚起来了。Covert招募了两名研究生,Jonathan Karr 和 Jayodita Sanghvi,他们愿意参与这项新项目。
这两位研究生花了两年时间访问多家研究图书馆,实地扫描了近千篇研究论文。他们正在寻找任何关于生殖分枝杆菌的分子信息。所有这些数据点,以及其他物种的理论假设和测量数据,都存储在MySQL数据库中。
随着建模工作的扩展和完善,团队也不断壮大。他们采用了测试驱动开发,并向面向对象编程模型发展。每个离散的细胞过程和分子都被作为独立对象表示,以帮助应对问题的复杂性。
另一个重要的建模假设是,“尽管所有这些生物过程在活细胞中同时发生,但它们的作用在不到一秒的时间内实际上是独立的。”这意味着每个模块——总共有28个——可以独立执行每个一秒间隔。
目进行多年,没有实证证据表明这一关键假设——或许多内置于模型中的假设——能真正产生结果。正如Covert回忆的那样,“这是一次信念的飞跃。”
这款模型一开始性能极差。模拟与现实几乎没有对应关系。但经过一年多的调整和调试,实验和数字成果开始趋于一致。
最终成果发表于2012年Cell上:每一个注释的基因都被记录在内。每个细胞过程都配备了不同的数学工具。
虽然远非完 美,但全细胞模型近似了细胞的生长和分裂,产生的数值在广泛的代谢数据范围内相差一个数量级,并与实验基因表达数据相关联。
这是一大进步。设计核心元素之一是在模拟的每个步骤中引入“传感器”读取细胞状态。借助这台数字测量设备,他们用模型探索了广泛的生物学问题。
这才是真正的“模型驱动的生物学发现”。正如Horowitz所设想的,预测与实验之间的每一次差异,都是接近分子生物学“完整”理解的机会。
而且存在许多矛盾。作者完全承认这一点,并表示:“与人类基因组序列的首次报告类似,这里呈现的模型是'初稿',需要大量努力才能被视为模型完整。”
推进进展的一个主要瓶颈是与其他模式生物相比,生殖单粒菌缺乏实验可处理性。该生物体较小的基因组帮助缩小了首 个全细胞模型的挑战范围。但生殖单胞菌细胞体积小、抗生素耐药性强以及缺乏成熟工具,使得实验室中无法验证某些预测。
自这项工作以来的十三年里,Covert的实验室和其他团队一直在大肠杆菌建模问题上不断推进。虽然大肠杆菌是最简单的模式生物之一,但其基因组几乎比生殖单体单体大一个数量级,包含超过4,000个基因。
Covert认为自那以后已经取得了相当大的进展。他认为我们正接近一个“图灵测试时刻”,即没有任何大肠杆菌生物学家能可靠地检测模拟结果与匹配实验结果之间的差异。
对于研究最详尽的微生物之一来说,模拟与现实可能很快难以区分。
对于拥有数十亿DNA碱基对和数万个基因的人类细胞来说,机制性全细胞模型的时间线则不那么确定。这可能仍然是一种信心的飞跃。
这又回到梯度下降的问题。假如细胞的计算机模型是我们应该从数据中学习的典型程序,而不是试图手动定义和参数化呢?
范式转变
硅谷自20世纪80年代以来发生了变化。虽然建筑环境依然令人沮丧地稳定,但科技却爆发式增长。在全球十大最 大公司中,有七家已成为科技公司。
能力越大,责任越大。
20世纪,安德鲁·卡内基、约翰·D·洛克菲勒和亨利·福特向公共工程项目捐赠了前所未有的资金。全新的大学、研究机构、图书馆和医院相继成立。
这些都是新科技精英们必须承担的重任,他们现在正努力如何最 好地发挥新获得的权力。与他们的前辈类似,硅谷慈善家早期的重点是科学研究。历史不会重演,但常常押韵
一个核心例子是陈·扎克伯格倡议。CZI成立于2015年,马克·扎克伯格和普莉西拉·陈宣布将通过CZI的努力捐赠他们99%的Facebook(现Meta)分享内容。
CZI的第 一个重大项目是建立一个耗资30亿美元的生物中心,为湾区三大生物医学研究机构——加州大学旧金山分校、伯克利大学和斯坦福大学——提供新的资源。
生物中心的创始使命是“在本世纪末治愈、预防和管理所有疾病”,这一观点立即引发了极大分歧。
起初,科学家们——包括CZI首任科学主管Steve Quake——对此嗤之以鼻。Quake开玩笑道:“我可没法正经地说......我不知道你为什么雇我,因为我说不出任务。”
但渐渐地,这个想法被他和其他科学家接受了。在大多数研究依赖于官僚主义且日益保守的NIH,新机构是件好事。更关键的是,更长的资金周期意味着科学家们可以采取更大胆的赌注。将这些项目堆叠起来超过一个世纪,谁知道会发生什么?
据Quake说,CZI的“未来十年的终 极目标是理解细胞的奥秘。”
其理由有两个。
首先,人工智能正在发生。他们认为蛋白质是这些技术在生物学中的首次突破性应用,但不会是最后一个。
其次,AI需要大量数据。AlphaFold及后续蛋白质模型之所以成为可能,正是因为研究人员数十年来贡献的晶体结构数据库。在细胞数据方面,CZI在开发庞大的单细胞基因组测量图谱上投入巨大。
也许这些庞大的单细胞数据集能够推动人工智能模型在预测细胞行为方面的性能发生重大变化。
2024年3月,CZI的AI团队由Theofanis Karaletsos领导。首要任务是在旧金山生物中心举办一个工作坊,开始更详细地勾勒这个论点。他们召集了一群顶 尖的人工智能研究人员和单细胞生物学家,共同探讨可能实现的方案。
最终,研讨会上的对话帮助统一了每个实验室正在发展的想法。经过数月的积累,这些想法被浓缩成一篇题为《如何用人工智能构建虚拟细胞:优先事项与机遇》的文章。
在引言中,作者概述了此前在细胞模拟领域的努力。科弗特2012年的“开创性工作”被认为是一个重要里程碑。
但也指出了自下而上的机械方法面临的挑战。
细胞由一组多样且极其复杂的过程组成。每个过程都跨越从原子到整个身体组织系统的尺度。更糟糕的是,细胞行为往往是非线性的,信号的细微差异可能导致下游发生巨大变化。
我们是否有可能实现对哺乳动物细胞的完整自下而上的数学描述?什么时候?
相反,作者提出了另一种方法:“科学与技术领域的两场激动人心的革命——人工智能和组学——现在使得直接从数据学习的细胞模型能够构建起来。”
或许他们说得对,在几乎所有数据充足的计算机建模领域,学习模型都优于更详细的机制模型。
考虑自然语言处理。数十年研究构建了极其细致的语言学和语义模型,这些模型后来被Transformer取代。Transformer是一种通用方法,可以随数据扩展并计算出丰富的语言表示。
CZI论文中提出的论点是,我们应该对细胞生物学进行同样的测试。但我们没有互联网数据,而是基于组学数据进行构建。测序技术的进步甚至超过了摩尔定律。
自人类基因组计划以来,随着DNA测序技术的指数级进步,我们现在可以制作出极其宏大的单细胞测量图谱。与其费尽心思地基于人类知识开发数学模型,不如直接从这些数据中学习细胞动力学呢?
在AI虚拟细胞(AIVC)方法中,我们应重点利用通用学习方法捕捉每个主要细胞构建模块的通用表征(UR),如DNA、RNA和蛋白质。
再说一次,把它看作是一个大型套娃,由不同生物模型模型组成。DNA模型。RNA模型。蛋白质模型。以及一个模型,将这些信息整合进细胞行为快照中,结合显微镜、蛋白质组学或RNA测序等数据类型。最终,将这些模型连接起来,以表示多细胞相互作用。
这个策略中最反直觉的部分可能是成功应是什么样子。
我们会有一个细胞生物学的模型——只是我们根本无法理解它!
本质上,我们是在用虚拟模拟体替换物理细胞。主要好处是虚拟实验的规模是物理实验无法做到的。理论上,我们可以用这些模型检验数十亿甚至数万亿个假设。如果结果看起来有希望,可以在物理现实中得到验证。
像大多数观点一样,AIVC论文试图整合许多已经在讨论中的观点。许多作者已经花费多年时间测试相关方法。像2023年发布的通用细胞嵌入模型展示了如何将蛋白质模型与RNA数据整合以创建细胞表征。其他架构如GEARS和scGPT已经开发出来,用于模拟细胞扰动。
核心信息是,这一研究方向是最有前景的道路。论文总结道:“我们相信,我们正迈入一个科学探索和理解的新时代。AIVC所体现的人工智能与生物学的融合,标志着生物学领域的范式转变。
挑战仍在
非凡的主张需要非凡的证据。每当新的建模范式出现时,其他科学家都会立即试图对其提出漏洞。通常,主张越宏大,回应越快、越大规模。
随着AI细胞模型的出现,第三方基准和评估开始陆续出现。其中一些结果相当令人惊讶。
2024年9月,一组德国经验丰富的生物统计学家发布了一份预印本,比较了许多最早用于扰动预测的人工智能模型与“刻意简化”的线性模型。
预测对扰动的反应已成为AIVC研究人员的主要关注领域。通过像CRISPR这样的实验工具,特定基因可以被上调或下调,就像打开大型细胞控制面板上的节点一样。
通过RNA测序,可以根据作看到哪些基因被调高或降低。像Perturb-seq这样的方法被发明出来,以大规模实现这一目标。
因此,德国实验室评估了模型在两个基因同时上调时,预测这些反应的准确度。
反直觉的是,简单模型的错误率低于复杂的人工智能模型。
用于这类预测任务的人工智能模型显然很有前景。线性基线的开发者写道:“我们不认为基础模型在预测任务中的负面结果是反对该研究方向的理由......Transformer架构和转移学习范式为许多机器学习任务带来的进展是真实且实质性的。
但最初的实现仍感觉远未达到基准开发者所说的“非凡洞见”。
询问了AIVC观点的主要作者Yanay Rosen和Yusuf Roohani,他们如何解读这些结果。两位研究者都坦率承认这些早期原型模型的局限性。
Rosen还指出,在创建通用细胞嵌入的任务中,AI模型已经产生了无法用更简单方法捕捉的结果。这些方法使得在单一共享坐标空间中表示不同数据集、组织类型甚至物种的细胞成为可能。
最近,CZI的人工智能团队通过发布Transcriptformer模型,进一步拓展了这一研究方向。该模型基于来自12个不同物种的1.12亿多个细胞进行训练,涵盖了15亿年的进化距离,设计用于广泛的预测任务。
CZI团队在新闻稿中写道:“研究人员可以使用TranscriptForformer预测不同类型的细胞,细胞是否病变,以及基因之间的相互作用。”
相对于所有细胞进行定位任务,人工智能模型似乎有足够的数据发挥作用。但在预测细胞在受扰时的变化动态方面,现有数据和模型似乎不足以实现。
但这种情况开始改变,
Roohani目前领导Arc Institute的机器学习研究组,他对与实验者更紧密的融合感到非常兴奋。Arc Institute是另一项大型科技慈善项目,推出了自己的虚拟细胞图谱项目。主要关注点是大规模数据生成。
Arc团队发布了该研究项目的新结果。他们的新模型名为STATE,似乎是扰动预测领域的一大进步。你可以看到基准测试开发者与方法开发者之间的互动:线性基线现在成为了核心。而这一次,模型似乎更有效地捕捉到“非凡洞见”。
性能提升的关键驱动力来自于对数据中生物噪声的更细致表现。细胞本质上是噪声大、异质的系统——与之交互的实验也带来了自身的局限。STATE利用数学来考虑可能掩盖真实信号的生物和实验噪声。
当他们这样做时,会发生一件非常重要的事情:模型的性能似乎随着数据的增加而显著提升。
最近,Tahoe开源了一个庞大的数据集,涵盖了1亿个不同细胞中的6万次药物扰动——远远超过所有其他公开的单细胞数据集。经过如此规模的数据和细胞环境多样性的训练,State模型能够推广到更广泛的扰动预测。
总体而言,State的性能和灵活性为虚拟细胞模型的扩展奠定了基础。
写在最后
那么,什么是虚拟细胞?让我们先从它们不是什么说起。
听到这个词,很难不想象一个细胞在旋转三维光辉中华丽的图形表现。关键是,每一个分子机械的表现都会像在真实细胞内一样。
科学家们还没有在构建这些——至少目前还没有。
对Covert来说,更合适的类比是气象模拟。正如他和他的研究团队在他们最近的观点中所写:“数值天气预报是一项综合性工作,旨在将来自全球和空间、跨越多个时间尺度的观测数据整合到一个数学模型中,该模型既能保持全球系统的初始状态,还能提前几天预测大气变化。”
他和其他人希望建立一个能够模拟微生物系统的等效数学模型。正如Morowitz
在20世纪80年代设想的那样,这些模型中的每一个故障都可以被视为我们分子生物学更广泛地图中的负空间。
人工智能研究人员对这个问题的看法不同。他们让数据自行说明。第 一个目标是预测,而不是理解。
如果这些模型获得了极强的预测能力呢?真正的工作才刚刚开始。借助仪器,生物学家能够以实验室难以想象的控制大规模细胞。
随着时间推移,这些独特的声音可能会融合。自下而上的机械建模工作可能会开始将人工智能方法整合进他们的系统。
同样,随着AIVC的研究工作超越RNA,模型架构将变得越来越复杂。具有不同生物过程不同模块的分层系统将开始类似于全细胞模拟领域的方法。
目前,Arc Institute的目标更简单:让现有模型足够好,让实验者采纳并使用它们。就像“GPT时刻”一样。
未来,细胞生物学将从“90%实验、10%计算”,反过来。
【本文由投资界合作伙伴微信公众号:智药局授权发布,本平台仅提供信息存储服务。】如有任何疑问,请联系(editor@zero2ipo.com.cn)投资界处理。
本文来源:投资界 作者:小编 免责声明:该文章版权归原作者所有,仅代表作者观点,转载目的在于传递更多信息,并不代表“医药行”认同其观点和对其真实性负责。如涉及作品内容、版权和其他问题,请在30日内与我们联系
投资界

我们沟通的很顺畅
电话已拨通,无人接听
这个电话号码是空号