首页能源头条推荐资讯详情

人工智能时代的靶点识别与评估

2026-04-23 17:39

发布者：往事随風

来源：往事随風

标签：人工智能药物靶点临床

-01-

引言

人工智能正成为药物发现与开发过程中的变革性工具，影响着从靶点识别到临床试验结果分析的各个环节。靶点识别是发现与开发新药的第一步，其目标是选择一个能够被调节、以产生预期治疗效果且具有足够安全性的生物分子。这一步骤对后续步骤的成功概率及其所需资源至关重要。

传统的靶点发现仍然充满挑战，主要原因在于对许多疾病背后生物复杂性的理解有限，以及从人类基因组学和疾病模型等来源提取必要见解时面临的技术和资源限制。在人类约20,000个蛋白质编码基因中，估计有4,500个被认为是“可成药”的。然而，迄今为止所有获批的药物仅通过716个不同的靶点发挥作用，这仅占可成药靶点空间的一小部分，凸显了未来靶点发现研究的巨大机遇。

治疗性靶点识别涵盖选择疾病领域，随后对与疾病生物学相关的多种现有数据源进行全面挖掘和分析，并扩展至生成、获取和分析新数据以编制潜在靶点列表。这些候选靶点随后需根据可成药性、安全性、可专利性、竞争分析和实验验证等关键标准进行严格评估。许多步骤的效率和效果可以通过合适的人工智能工具得到增强，这些工具能够整合异构的大规模数据集，构建疾病生物学的统一表征，并通过机器学习模型揭示潜在机制。此外，人工智能可以预测与靶点可及性和风险相关的关键特性，并能通过自动化实验室指导实验设计，实现迭代优化。

-02-

一、靶点识别的关键考量因素

1. 治疗假说

识别一个治疗靶点及其调节预期影响疾病生物学、转化为患者有意义的治疗效果并具有足够安全性的机制，是一项复杂且多方面的挑战。历史上，动物疾病模型研究和/或临床观察通常为围绕特定生物靶点制定治疗假说提供了关键信息。随着1980年代以来基因组技术的进步，来自人类遗传学和/或涉及细胞及动物模型中基因扰动研究的知识，已成为靶点识别工作中日益重要的贡献者。

过去15年中，人们日益认识到许多疾病的动物模型预测价值有限，以及支持治疗靶点假说的人类来源证据的重要性。在此基础上，一个显著的趋势是应用因果生物学研究，即在大型人类数据集中采用因果推断技术。研究人员整合全基因组关联研究（GWAS）与定量性状位点分析，并使用孟德尔随机化等方法，来检查基因或蛋白质表达水平对疾病的影响，从而为潜在药物靶点提供有价值的证据。因果生物学研究的另一种策略是利用人类细胞系中的扰动实验数据来推断机制关系并提名治疗靶点。

2. 可成药性与安全性

靶点可成药性这一术语用于描述识别一种药物候选物的潜力，该候选物能够以假设导致特定疾病患者获得预期结果的方式调节靶点的功能。对于小分子疗法，可成药性与配体结合能力密切相关，后者指的是靶点表面存在特征明确、可及的口袋，药物样小分子可以与之结合。了解靶点的三维结构和配体结合能力有助于优先考虑潜在靶点，并指导基于结构的药物设计。

如今，越来越多超越小分子的其他治疗方式已得到临床验证，包括基于抗体的疗法、基于寡核苷酸的疗法以及基因和细胞疗法。这些疗法扩展了潜在可成药的疾病相关靶点领域。新兴的人工智能工具如AlphaFold3可用于促进可成药性评估，为蛋白质-配体、抗体-抗原和寡核苷酸-蛋白质复合物提供准确的结构预测。

虽然可成药性是衡量靶点对治疗药物临床扰动易感性的指标，但安全性本质上与这种相互作用的特异性相关。在靶点识别阶段评估此类效应的风险依赖于预测毒理学和分析靶点相关生物通路，以预测潜在不良效应。然而，大多数副作用是通过脱靶相互作用发生的。尽管全面预测脱靶效应仍然具有挑战性，但基于预期靶点与脱靶点之间的结构相似性，可以在靶点识别/评估阶段预测某些脱靶相互作用的潜在风险。

3. 新颖性、置信度与商业可及性

靶点的战略选择通常涉及新颖性与靶点在疾病中作用的置信度之间的微妙权衡。高置信度靶点得到更多科学证据支持，提供了更清晰的临床转化路径，降低了药物开发的风险。然而，新型靶点为突破性疗法提供了机会，特别是对于未满足医疗需求的疾病。

新颖性与置信度之间的相互作用与靶点的商业可及性相关。新型靶点有潜力彻底改变疾病的治疗并开辟新市场，而已建立的靶点则可提供更可预测和更安全的投资，但面临来自其他药物的更大竞争。通常被称为“首创”与“同类最佳”的这种平衡，影响着市场动态、竞争力、知识产权强度、总体投资和潜在回报。

4. 组合价值

一个靶点提供作为联合疗法一部分给药的药物基础的潜力通常越来越重要，因为药物组合的协同或相加效应已被证明可以降低耐药可能性、增强治疗效果并拓宽治疗应用。

-03-

二、人工智能在治疗性靶点识别中的应用

1. 用于靶点识别的数据

人工智能在识别治疗性靶点中应用的基石是其处理和分析广泛复杂多模态数据的能力。公开可用的数据源包括组学数据、生物图谱、临床与表型数据、文本信息以及知识产权与产业信息。

组学数据：包括遗传、转录组、蛋白质组、代谢组、表观遗传和微生物组数据，提供了全面的生物信息，能够系统性观察疾病的分子层面。机器学习模型有助于整合多样化的多组学数据，以构建更全面的疾病分子图谱。

细胞成像数据：基于人工智能的生物图像分析可以为靶点识别、药物筛选和潜在疗法的优化提供信息。例如，Cell Painting测定与机器学习算法相结合，已被用于识别肠道纤维化的治疗靶点。

生物知识图谱：生物知识图谱以图结构组织和表示生物实体之间复杂的关系和相互作用。各种类型的知识图谱已成为人工智能靶点研究的热门数据源。

临床与表型数据：当与人工智能结合分析时，这些数据可以揭示疾病机制、患者分层和潜在治疗途径的见解。

文本信息：人工智能系统可以解析和分析大量科学文献以提取相关信息，从而生成新的疾病假说、识别治疗靶点和制定治疗策略。

整合异构数据类型：为了最大化异构数据源对靶点识别和评估的价值，有效的整合策略至关重要。一种方法是构建异构知识图谱；另一种策略是使用数据库技术在单一平台或数据仓库中协调异构数据源。

2. 用于靶点识别的人工智能模型

机器学习在分析大量生物医学数据以发现先前未知的疾病相关靶点方面显示出显著潜力。用于靶点识别和评估的机器学习框架包括监督学习、无监督学习和半监督学习。此外，新兴的人工智能技术如表征学习、图神经网络、生成式人工智能、基础模型和大语言模型也被应用于靶点发现。

监督学习：监督学习使用标记数据来训练模型，使其能够对未见数据集进行预测或分类。该框架广泛用于预测药物-靶点相互作用。监督学习方法也被用于通过结合靶点特征来预测特定疾病的靶点。

无监督学习：无监督学习分析未标记数据以识别隐藏的关系和结构，通常使用聚类和降维等技术。另一种形式是自监督学习，它利用未标记数据中的内在信号生成监督信息，使模型能够在没有外部标注的情况下学习有意义的模式。

半监督学习：半监督方法将少量标记数据与大量未标记数据相结合，通常在标记数据稀缺或获取成本高昂的情况下，有助于改进在大型未标记数据集上的学习过程。

表征学习：表征学习支撑着图神经网络、生成式人工智能、基础模型和大语言模型等先进的人工智能技术。它将不同的生物数据实体编码为潜在嵌入向量，这些向量捕获了内在和上下文相关的生物特性，促进了包括靶点识别在内的广泛下游任务。

图神经网络：图神经网络使人工智能系统能够利用生物图谱数据进行靶点发现。

生成式人工智能：生成式人工智能模型通常基于深度神经网络架构构建，旨在生成新数据，并已广泛应用于文本和图像生成等领域。在靶点识别背景下，生成式人工智能可用于生成合成数据集，促进下游分析。

基础模型：基础模型通过在庞大、多样的数据集上进行预训练，在自然语言处理和计算机视觉方面取得了显著成功。经过微调后，这些模型非常通用，并且通常优于特定任务的模型。随着生物医学数据集的不断增长，基础模型有望在未来靶点识别研究中发挥越来越大的作用。

大语言模型：大语言模型已经催生了用于治疗性靶点识别和评估的人工智能代理框架的出现。

3. 人工智能模型验证

治疗性靶点识别人工智能模型的验证是确保其可靠性和适用性的关键步骤。关键的验证方法包括回顾性验证、实验验证和前瞻性验证。

回顾性验证：回溯测试是一种回顾性验证技术，用于评估人工智能模型使用历史数据准确识别已知治疗靶点的能力。

实验验证：人工智能预测靶点功能的实验验证及其与治疗剂的潜在相互作用涉及严格的体外测定。体内动物研究可以进一步阐明靶点在疾病机制中的作用以及干预策略的潜在影响。

前瞻性验证：虽然实验验证旨在通过实验立即评估人工智能识别的药物靶点的生物学相关性和治疗潜力，但前瞻性验证对于确保人工智能模型能够在实际环境中准确预测结果至关重要。治疗靶点的最终验证在于成功的人体临床试验。

-04-三、人工智能在靶点评估中的应用

1. 靶点可成药性评估

对于选择进行药物开发的靶点，评估其结构和功能特征、结合位点以及开发能够以特定、有效和安全的方式与靶点相互作用的小分子或生物制剂的可行性至关重要。在这方面，用于蛋白质结构预测的人工智能工具非常有价值。AlphaFold的引入彻底改变了结构生物学。尽管AlphaFold在多个应用中显示出重要价值，但其在基于结构的药物发现中的应用尚不确定。

人工智能还可以通过识别蛋白质中的隐秘口袋来促进可成药性评估。这些口袋在无配体的实验结构中不存在，可能在构象变化过程中形成，有可能作为先前被认为不可成药的蛋白质的结合位点。

2. 靶点新颖性与商业可及性

最近的一项研究报道了一种人工智能驱动的方法，通过新颖性和商业潜力的双重评估来评估癌症治疗靶点。靶点新颖性是通过对药物开发状态、治疗领域特定文献和科学文件的全面分析来定量确定的。商业可及性是使用一个专门的大语言模型进行评估的，该模型整合了多个参数。

-05-四、人工智能支持的靶点识别实例

新靶点最终只有通过成功的临床试验才能得到验证，这些试验为监管批准提供了基础。目前，尚无源自人工智能驱动靶点识别的药物达到这一阶段，仅有有限数量的靶点使用人工智能工具识别或支持其治疗潜力的候选药物已进入临床试验。

1. TNIK作为特发性肺纤维化的靶点

Insilico Medicine最近的一项研究展示了端到端生成式人工智能在药物发现中的应用，以识别用于治疗特发性肺纤维化的新靶点和潜在候选药物。利用来自IPF和健康肺组织的多组学数据集，他们的人工智能平台将TNIK列为顶级靶点。尽管TNIK的间接功能先前已被研究，但它尚未作为IPF的治疗靶点进行研究，这使其成为该平台选择的新靶点。

2. APLNR作为抗衰老靶点

人工智能驱动的人类数据分析有助于降低有前景的药物靶点临床转化的风险。BioAge开发的一个药物发现平台结合了纵向多模态人类衰老数据集，并应用计算工具来识别与长寿和延迟疾病发作相关的分子特征。

3. PIKfyve作为肌萎缩侧索硬化症的靶点

肌萎缩侧索硬化症是一种罕见的神经肌肉疾病。PIKfyve抑制在多种ALS类型中的治疗潜力得到了ConVERGE的进一步支持，ConVERGE是一个人工智能驱动的药物开发平台，专注于来自人类的数据。

4. DRD2作为抗癌靶点

虽然TNIK、APLNR和PIKfyve等靶点的识别说明了基于靶点的药物发现范式，但另一种方法涉及表型筛选后的靶点去卷积。传统上，靶点去卷积依赖于实验室实验，但这一过程正日益得到人工智能的支持。DRD2作为抗癌药物靶点的识别就是一个显著的例子。

-06-五、挑战与未来方向

将计算预测转化为具有临床意义的结果仍然受到重大技术和操作挑战的限制。

1. 数据质量与可用性

人工智能在靶点识别中的应用在很大程度上依赖于用于训练的大规模、高质量数据。尽管组学数据近几十年来迅速积累，但其在模型训练中的应用面临重大挑战。额外的限制包括罕见疾病、种族和少数民族以及社会弱势群体缺乏组学数据，这可能导致模型泛化能力差。对于科学文献数据，已发表研究结果的可重复性是一个重大挑战。

2. 多模态数据分析的整合

克服单模态数据局限性的一种有前景的策略是整合多模态数据集。越来越多的证据表明，多模态方法在靶点发现相关任务中始终优于单模态方法。

3. 可解释的人工智能模型

机器学习技术，特别是深度学习，通常不提供关于内部计算过程如何导致特定输出的见解，这阻碍了故障排除过程，并使识别和纠正错误变得困难。这种不透明性阻碍了领域专家对这些模型的评估，影响了它们的接受度。作为“黑箱”问题的解决方案，可解释模型阐明了模型预测背后的原理。

4. 标准化指标与基准测试框架

治疗性靶点识别人工智能模型的评估需要标准化的验证指标和基准，以确保科学严谨性并促进方法间的公平比较。标准指标通常用于评估药物-靶点相互作用预测模型。尽管这些指标对于量化预测准确性有效，但它们常常忽略了疾病特异性治疗靶点所必需的生物学相关性和临床可行性。新兴的基准测试系统旨在通过整合多模态数据并强调临床实用性来克服这些局限性。

5. 合成数据与数字孪生

合成数据是指人工生成的、模拟真实世界生物模式和特征的数据，可以由人工智能算法生成以模拟不同的生物场景。合成数据还可以用于创建数字孪生，即个体实体（如患者、器官或细胞）的虚拟模型。

6. 人工智能驱动的闭环实验平台

人工智能驱动的闭环实验平台代表了一种新兴范式，其中人工智能模型提名治疗靶点，自动化实验室测试靶点调节，结果流入人工智能分析工具，分析输出反馈到靶点识别模型中以优化靶点优先排序。闭环设计通过端到端机器人处理化合物、生物样本、成像和多组学数据，并结合人工智能工具实现。

-07-结语

人工智能的整合正在使治疗性靶点识别和评估实现更系统化、数据驱动的方法。人工智能分析跨越高维组学、表型成像和大型知识图谱的多模态数据的能力，解决了长期存在的与生物复杂性和转化失败相关的障碍。机器学习框架、神经架构、生成式人工智能和基础模型的进步进一步赋能研究人员发现新的治疗靶点并评估其可成药性。这一进展反映在若干人工智能识别的靶点已进入临床阶段开发。

然而，要充分发挥这些技术的潜力，需要解决持续存在的挑战。克服数据稀缺和偏见、提高模型可解释性以及建立严格的基准标准，对于将人工智能工具的预测整合到决策过程中仍然至关重要。靶点发现的未来在于通过人工智能驱动的闭环平台实现计算和实验工作流的融合，加速将生物学见解转化为有效、临床可行的疗法。

参考资料：Target identification and assessment in the era of AI. Nat Rev Drug Discov. 2026 Apr 20.

反馈举报

声明：以上信息仅代表发布者自身观点，并不代表本平台赞同其观点，也不代表本平台对其真实性负责。