杏彩平台客户端人工智能驱动的生命科学研究新范式丨大力推进科研范式

2024-03-27 09:05:20 来源:杏彩体育官网app 作者:杏彩体育平台登录

  生物技术和信息技术的迅速发展,使生命科学进入了数据爆发的新时代。随着人工智能(AI)在生命科学研究领域持续取得颠覆性突破,AI驱动的生命科学研究新范式呼之欲出。文章通过深入剖析AI驱动的生命科学研究的典型范例,提出了生命科学研究新范式的内涵和关键要素,阐述并讨论了新范式下的生命科学研究前沿和我国面临的挑战。

  2007年,图灵奖得主吉姆·格雷(Jim Gray)提出了科学研究的四类范式:第一范式是实验(经验)科学;第二范式是理论科学;第三范式是计算科学;第四范式是数据科学。科学研究的范式变革体现了人类对宇宙探索的深度、广度、方式和效率的演进。

  生命科学的发展经历了多个阶段,其研究范式的演进也有其独特的学科属性。在生命科学早期发展阶段,生物学家主要通过观察不同生物体的形态和行为模式来探索生物存在的一般形式和演化的共同规律。从20世纪中叶开始,生命科学研究进入了分子生物学时代。随着生命科学的进一步发展和新型生物技术的快速涌现,科学家通过高通量、度组学数据分析与实验科学结合的方式对生物过程进行更加精细的描述和解析,成为现代生命科学研究的常态。

  然而,生命系统具有多层面的复杂性,涵盖了从分子、细胞到个体不同层次,以及个体间的种群关系、机体与环境的互作关系,展现出多层级、高维度、高度互联、动态调控的特点。现有的实验科学研究范式在面对如此复杂的生命系统时,往往只能从特定尺度对有限数量的样本进行观察描述和研究,难以全面理解生物网络的运作机制;并且高度依赖人的经验和先验知识对特定生物关系进行探索,难以从大规模、多样性、高维度数据中高效提取隐匿的关联和机制。面对生命现象中复杂的非线性关系和难以预测的特征,人工智能(AI)技术展现出强大的能力,并且已经在蛋白质结构预测、基因调控网络模拟解析方面表现出颠覆性的应用潜力,将生命科学研究由实验科学为主的第一范式推向以人工智能驱动的生命科学研究新范式——第五范式(图1)。

  本文将从AI驱动的生命科学研究典型范例、生命科学研究新范式的内涵和关键要素、新范式赋能的生命科学研究前沿及我国面临的挑战3个方面进行系统论述。

  AI技术以其优越的模式识别和特征提取能力,能够在庞大的参数堆叠情况下超越人类理性推理能力,从数据中更好地理解复杂生物系统中的规律。当拥有充足且高质量的数据和适配于生命科学的算法时,AI模型就能够在多层次的海量数据中以“低维”数据预测“高维”信息及规律,实现从基因序列和表达等低维数据到细胞、机体等高维复杂生物过程规律揭示的跨越,解析复杂的非线性关系。近年来生命科学领域涌现出了蛋白质结构解析、基因调控规律解析等一批AI驱动生命科学研究发展的典型范例。

  蛋白质作为生物体内关键功能的执行者,其结构直接影响运输、催化、结合和免疫功能等重要的生物过程。捕获蛋白质折叠的底层规律从而实现对蛋白质结构的精准预测,一直是结构生物学领域最重要的挑战之一。

  AlphaFold 2利用基于注意力机制的深度学习算法,对大量蛋白质序列和结构数据进行训练,并结合物理学、化学和生物学的先验知识,构建了包含特征提取、编码、解码模块的蛋白质结构解析模型。在2020年国际蛋白质结构预测竞赛(CASP14)中,其蛋白质三维结构预测准确性甚至可与实验解析的结果相媲美。这一突破为生命科学领域带来了全新的视角和前所未有的机遇,主要体现在3点。

  大多数药物通过与体内蛋白质特殊结构域的结合而引发蛋白质功能的变化,AlphaFold 2能够快速计算出海量目标蛋白质的结构,从而有针对性地设计药物以有效地与这些蛋白质结合。

  一旦AI对蛋白质折叠的底层规律有了深刻理解,就可以利用这一知识设计出折叠成所需结构的蛋白质序列。这使得生物学家可以根据需求自由设计和改造蛋白质或酶的结构,如设计更高活性的基因编辑酶,甚至是自然界中不存在的蛋白质结构。同时也推动了人们对基因编码信息在蛋白质层面结构投射规律的理解,并将大幅提高人类对生命的改造能力。

  从只能通过费时费力的传统实验技术解析蛋白质结构转变为低门槛、高精度、高通量地预测蛋白质三维结构的新范式,证明通过将蛋白质知识和AI技术相结合,可以提取和学习到高维、复杂的知识,促进对蛋白质物理结构和功能的更深入理解。

  人类基因组计划被誉为20世纪人类三大科学计划之一,揭开了生命奥秘的序幕。传统生物信息分析方法只能处理少量数据,对大规模、高维度且缺乏准确标注的生物组大数据难以捕捉数据中复杂的非线性关系。

  近年来,自然语言处理技术的不断突破,特别是大语言模型的迅猛发展,能够通过训练语料数据使模型具有理解人类语言描述知识的能力,为解决这一领域问题带来了新思路。国际多个研究团队借鉴大语言模型的训练思路,相继基于数以千万计的人类单细胞转录组谱数据和庞大的算力资源,利用Transformer等先进算法和多种生物学知识,构建了多个具有理解基因动态关系能力的生命基础大模型,如GeneCompass、scGPT、Geneformer和scFoundation等。这些生命基础大模型以基因表达等底层生命活动信息为训练基础,利用机器来学习理解这些“低维”的生命科学数据与复杂“高维”的基因表达调控网络、细胞命运转变等底层生命机制之间的关联性和对应规律,实现以低维数据对高维信息的有效模拟和预测。这种对基因表达调控网络的模拟可以在广泛的下游任务中表现出卓越性能,为深入理解基因调控规律提供了全新的途径。

  随着生物技术的不断进步、生命科学数据的快速增长、AI技术的飞速发展及其与生命领域的深度交叉融合,AI以对生命科学知识的深入理解和泛化能力进入AI驱动的生命科学研究新范式(第五范式,以下简称“新范式”)。

  通过深入剖析AI驱动生命科学研究的典型范例,笔者认为,生命科学研究的新范式正如一台智能化的新能源汽车,对标新能源汽车的电池系统、电控系统、电机系统、辅助驾驶系统、底盘系统等核心技术,新范式应具备生命科学大数据、智能算法模型、算力平台、专家先验知识和交叉研究团队五大关键要素(图2)。犹如电池系统为车辆提供能量,生命科学大数据为科学研究提供基础资源;算法模型则像智能电控系统,赋能深入理解生物系统的运行机制;算力平台可比喻为电机系统,负责处理海量的科学数据和复杂的计算任务;专家先验知识则像辅助驾驶系统,为科学家提供方向引领和实施经验;交叉研究团队类似于底盘系统,负责整合不同领域的知识和技能,通过跨学科合作提高研究效率,推动生命科学的发展。

  生命科学大数据是新范式“汽车”的“电池”系统。对生命科学大数据进行有效整合并利用创新AI技术充分挖掘数据,能够打破人类科学家的认知局限、促进新发现的产生并拓展生命科学的探索范围。例如医疗视觉大模型,通过整合多来源、多模态、多任务的医疗图像数据,实现了在少样本和零样本条件下的多种应用;跨物种生命基础大模型GeneCompass,通过有效整合全球开源的单细胞数据,在超过1.2亿个单细胞的训练数据集上实现了对基因表达调控规律的全景式学习理解等多个生命科学问题的分析。

  智能算法模型是新范式“汽车”的“电控”系统。Gerstein团队使用贝叶斯网络算法预测蛋白质相互作用的成果发表于Science,为经典机器学习在生物信息领域发展奠定了基础;图卷积神经网络算法被用于分析蛋白质—蛋白质相互作用网络和基因调控网络等生物分子网络,拓展了生命科学领域的研究方向;AlphaFold 2使用Transformer模型,能够在高准确度的基础上快速计算出大量蛋白质的结构,都展示出了AI算法模型在生命科学研究新范式中的重要性。

  算力平台是新范式“汽车”的“电机”系统。面向新范式,未来应构建能够支撑AI赋能生命科学研究的硬件能力平台,包括建设高速大容量存储系统、构建高性能高吞吐量超级计算机、研发专门用于处理生命科学数据的芯片、设计用于加速生物模型推理和训练的专用处理器等,为生命科学研究提供高效、可靠的计算和处理能力,以应对生命科学领域产生的海量数据、满足生命科学领域复杂模型构建的计算需求,保障AI在生命科学领域的应用和创新。

  专家先验知识是新范式“汽车”的“辅助驾驶”系统。新范式下,已有的生命科学知识将为AI算法模型提供宝贵的训练约束条件、重要的背景和特征关系,帮助解释和理解生命科学数据的复杂性、验证和优化AI在生命科学领域的应用;能够在AI算法设计和模型构建时发挥重要的指导作用,促进更加准确、高效地解决生命科学问题,推动生命科学研究向更深入、全面的方向发展。例如,通过嵌入生命科学专家先验知识和人类注释信息编码,新型基因表达预训练大模型提高了对生物数据间复杂特征关联关系的解释,展示出更为优异的模型表现。

  交叉研究团队是新范式“汽车”的“底盘”系统。新范式下,一支由AI专家、数据科学家、生物学家和医学家等组成的多学科交叉研究团队对于实现跨越式的生命科学发现至关重要。多元背景紧密协作的交叉研究团队能够整合AI、生物学、医学等领域的专业知识,提供多元化的视角和方法,为全面理解和解决生命科学中的复杂机制问题提供牢固基础,为创新性解决方案提供更多可能性,从而推动生命科学领域的突破性发现和进展。

  随着新范式的不断发展,生命科学研究将迎来以AI预测、指导、提出假说、验证假设为特点的新型研究模态。然而,在当前条件下加速推进我国生命科学研究新范式的建立和推广,仍面临一系列巨大的挑战。

  目前在结构生物学领域,以AlphaFold为代表的AI应用技术仍停留在“从序列到结构”的蛋白质结构预测和设计阶段,还无法实现复杂生理条件下蛋白质结构和功能的模拟与预测。更高质量、更大规模的蛋白质数据和新型算法的出现,将有望实现蛋白质“从序列到功能”甚至“从序列到多尺度相互作用”的智能化结构解析与精细设计。

  当前的组学数据分析仍局限于较低维度的生物组学观测水平,还未形成从基因水平到细胞水平甚至生物个体乃至群体组学水平的全维度观测。新范式将融通度、多模态的生物大数据和专家先验知识,提取生物表型的关键特征,构建多尺度生物过程解析模型,还原复杂生物系统运行的底层规律,形成基础而广泛适用的系统生物学研究新体系。

  随着多组学数据的积累和新型基因大模型的出现,遗传学研究已进入新范式推动的快速发展阶段,基于基因表达谱数据的自监督预训练大模型有望成为解析基因调控规律、预测疾病靶点的有力工具,拓展遗传学研究的探索边界。

  随着AlphaFold的出现和一批分子动力学模型的发展,AI模型已经被用于预测和筛选药物候选分子。未来新范式将进一步推动该领域的发展,有望出现AI辅助的全流程药物设计开发体系,能够自主完成药物结构和性质的优化设计、实现候选药物的有效性和安全性模拟预测、生成药物的高效合成和生产工艺方案,极大加速药物的开发和生产过程。

  计算机视觉、自然语言处理和机器学习等AI技术已广泛渗透到生物影像、医学影像、疾病智能分析及靶点预测等精准医学子领域。例如,基于AI的诊断系统在准确度上已经可以媲美甚至在某些方面超过资深的临床医生。然而,现有的模型大多受制于数据的偏好性,存在鲁棒性差、通用性低等问题,随着新范式驱动的通用精准医学模型的出现,将有助于更加快速准确地诊断疾病、解析疾病的分子机制、发现新的治疗靶。


杏彩平台客户端


【责任编辑:(Top) 返回页面顶端
Copyright © 2008 - 2020 m.hzdongrun.com All Right Reserved.杏彩平台客户端(中国)体育官网app登录 | 备案许可证: .