近年来,机器学习模型在化合物风险评估中越来越受欢迎。然而,由于缺乏透明度,它们通常被认为是“黑匣子”,导致毒理学家和监管机构持怀疑态度。
为了增强对这些模型的信心,维也纳大学的研究人员建议仔细识别这些模型在化学空间中薄弱的领域。他们为此开发了一种创新的软件工具(“MolCompass”),这种研究方法的结果刚刚发表在《化学信息学杂志》上。
多年来,新药品和化妆品都经过动物测试。这些测试成本高昂,引发伦理担忧,而且往往无法准确预测人类的反应。最近,欧盟支持了 RISK-HUNT3R 项目,以开发下一代非动物风险评估方法。
维也纳大学是该项目联盟的成员之一。计算方法现在允许完全通过计算机评估新化学物质的毒理学和环境风险,而无需合成化学化合物。但仍有一个问题:这些计算机模型有多可靠?
一切都取决于可靠的预测
为了解决这个问题,维也纳大学药物信息学研究小组的高级科学家 Sergey Sosnin 专注于二元分类。在这种情况下,机器学习模型提供从 0% 到 100% 的概率分数,表明化合物是否具有活性(例如,有毒还是无毒、生物累积性还是非生物累积性、是否与特定人类蛋白质结合)。这个概率反映了模型对其预测的信心。
参考模型已高度可信地归因于两个簇。左侧较密集的簇代表类固醇衍生物,而右侧定义较不明确的簇包括多氯联苯和多酚。可视化数据为:雌激素结合剂数据集(参见参考模型)
理想情况下,模型应该只对其正确的预测有信心。如果模型不确定,给出的置信度得分约为 51%,则可以忽略这些预测,转而采用其他方法。然而,当模型对错误的预测完全有信心时,就会出现挑战。
“对于计算毒理学家来说,这真是噩梦般的场景,”索斯宁说。“如果一个模型预测某种化合物有 99% 的置信度是无毒的,但实际上这种化合物是有毒的,那么就没有办法知道是不是出了什么问题。”
唯一的解决方案是提前识别“化学空间”区域(包括可能的有机化合物类别),并避开模型存在“盲点”的区域。为此,评估模型的研究人员必须逐一检查数千种化合物的预测结果,这是一项繁琐且容易出错的任务。
克服这一重大障碍
“为了协助这些研究人员,”Sosnin 继续说道。“我们开发了交互式图形工具,将化学化合物显示在 2D 平面上,就像地理地图一样。我们使用颜色突出显示预测错误的化合物,让用户能够将它们识别为红点簇。该地图是交互式的,使用户能够调查化学空间并探索令人担忧的区域。”
该方法已通过雌激素受体结合模型得到验证。通过对化学空间进行视觉分析,可以清楚地看出该模型对类固醇和多氯联苯等化合物效果良好,但对小的非环状化合物则完全无效,因此不应用于这些化合物。
该项目开发的软件可在 GitHub 上免费供社区使用。Sosnin 希望 MolCompass 能帮助化学家和毒理学家更好地理解计算模型的局限性。这项研究是朝着未来迈出的一步,未来不再需要动物试验,毒理学家唯一的工作场所就是电脑桌。