中药保健网站模板-草本保健乳品原料肝脏毒性预测研究

草本保健乳品原料肝脏毒性预测研究

1. 中国西医大学中医药信息研究所, 沉阳 100700; 2. 中国西医大学西医研究所, 沉阳 100700

草本保健乳制品是指中华人民共和国国家卫生健康委员会(以下简称卫健委)在天然食品中实行的既是乳制品又是药品的食用草本植物,并经过适当加工而成的产品。一种能单独调节人体生理功能、有益于健康的保健乳制品。 保健乳制品是一类适合特定人群食用、不以治疗癌症为目的、一般认为对人体无急性、亚急性或慢性危害的乳制品,可以调节身体机能的乳制品。 但中草药作为保健乳制品的原料,其食用时间比抗生素更长,使用人群也更广泛。 如果草本保健乳制品中的原料存在不安全诱因,将对人体健康产生较大影响。 近年来,关于草本保健乳品原料的典型风险物质及其潜在毒性作用的报道较多。 例如,三七富含三七总皂苷,具有肝毒性,450 mg·kg-1组动物体重较高,转氨酶能量指标天冬氨酸甲基转移酶(AST)和谷氨酸羧基转移酶( ALT)明显下降; 当归、决明子、番泻叶、大黄中所含的蒽醌类物质均具有肝毒性,大黄提取物的中毒剂量范围为10~12g·kg–1,大黄总蒽醌的中毒剂量范围为135~4500mg·kg–1; 碱降低了肝细胞滤液中 AST、碱性乙酸盐 (ALP) 和乳酸酯酶 (LDH) 的水平。 如何实现中药肝毒性的初步预测是亟待解决的问题。

利用计算机辅助药物筛选(CADD)建立定量构效关系(QSAR)早已应用于草药保健乳制品的评价。 QSAR利用物理模型来描述分子结构与某些生物活性和毒性作用之间的关系,并用于预测其他已知结构化合物的潜在毒性,有效节省时间、金钱和人力。 然而,目前中草药肝毒性预测模型的准确率普遍不高。 叶莉等人。 建立了三割树算法模型,内部交叉验证的准确率为78%~85%。 他等人。 完善了由 1254 个化合物组成的大规模、多样化的 DILI 数据集,并通过集成得到了最佳模型,准确率(ACC)为 78.3%。 赵等人。 根据已发表的数据和法国乳制品和药物管理局(FDA)肝脏毒性知识库(LTKB)建立了QSAR模型,准确率为80.2%。

本研究充分考虑了草药分子的物理空间。 首先对训练集进行降维分析,然后基于不同的降维建立中草药物理成分的肝毒性QSAR预测模型。 并对国家卫健委公布的113种草本保健乳品原料成分进行了分析。 预测可能的肝毒性,为草本保健乳制品的安全性评价提供参考。 技术路线如图1所示。

材料

1.1 创建训练集

本研究中使用的肝毒性数据基于 He 等人发表的 1254 种化合物数据集。 以构建肝毒性预测模型(该数据集收集了DILIrank、LiverTox、LTKB等14个肝毒性模型的训练集数据并利用机器学习方法进行优化)为基础,减少了赵某使用的31种西药成分等人。 建立并验证肝毒性预测模型。 同时以“中药”和“肝毒性”为检索词检索CNKI、万方、维普数据库2010年以来的文献,收集到43个西药成分的肝毒性数据。 将上述数据合并并删除重复后,总共得到1271个化合物作为训练集,其中有肝毒性的化合物653个,无肝毒性的化合物618个。 从 PubChem() 下载分子二维结构,另存为 .sdf 格式文件。

1.2 建立一组待预测的草药药理成分

中药保健乳品原料目录来自《卫生部关于进一步规范保健乳品原料管理的通知》(卫发监发[2002]51号),共113种中药材。 中药材物理成分数据库来源于中药系统毒理学数据库与分析平台(TCMSP)、中药百科全书数据库(ETCM,http://www.tcmip.cn/ETCM/index.php/Home /)、中医物理数据库TCMD()3个数据库。 收集了113味药材所含的物理成分,合并称重,得到3540种化合物。 还可以从 PubChem 下载分子 2D 结构并将其保存为 .sdf 格式文件。

方式

2.1 训练集分子降维主成分分析及性质

ALogP、Molecular_Weight、Num_H_Donors、Num_H_Acceptors、Num_RotatableBonds、Num_Rings、Num_AromaticRings 和 Molecular_FractionalPolarSurfaceArea 使用 DiscoveryStudio4.5 中的 SmallMoleculesPropertyCalculation-CalculateMolecularProperties 进行估计。 属性,使用 SmallMolecules-Cluster-ClusterLigands 对 1271 种化合物进行降维; 使用SmallMolecules-Analyze -CalculatePrincipalComponent进行主成分分析,并使用Origin2018可视化分类结果。 如果没有特殊说明,则使用系统默认值。

2.2 描述符的过滤

在这项研究中,使用 FDA 发布的 Mold2 软件估算了每种化合物的 2D 结构的 777 个分子描述符。 在构建QSAR模型时,描述符的选择极其重要。 使用Python按照以下步骤进行过滤: 1)去除所有零以及零占80%以上的序列; 2)过滤掉Pearson相关系数>0.8的系列,保留1个系列; 3)估计欧式距离,取距离最大的前60个; 4)估计正弦相似度,取斜率最小的前60个; 5) 取步骤3和步骤4中筛选出的序列的并集。

2.3 QSAR预测模型构建

在预测模型构建阶段,对于2.1中降维得到的每个类别,使用了9种算法,包括朴素贝叶斯(NB)、逻辑回归(LR)、邻域算法(KNN)、随机森林(RF)、支持向量分别采用支持向量机(SVM)、交叉验证支持向量机(SVMCV)、梯度提升迭代决策树(GBDT)、自适应提升(AdaBoost)、套袋法(Bagging)建立模型,模型建立时采用交叉验证方法的帮助 在内部,使用准确度、精确度和召回率来评估模型。

2.4 植物保健品原料物理成分预测

据估算中药保健网站模板,113种草本保健乳品原料含有3540种物理成分的ALogP、Molecular_Weight、Num_H_Donors、Num_H_Acceptors等8个分子特性。 然后根据这些性质,根据式(1)估计每个组分到降维中心化合物的欧氏距离(d)。 )。 根据距离,确定待预测化合物属于哪一类,从而利用该类对应的QSAR模型来预测草药成分的肝脏毒性。

式中,x和y为各物理组件属性投影到多维空间的坐标值。

结果

3.1 QSAR模型的建立与评估

3.1.1 模型训练集的主成分分析和降维分析

对QSAR模型训练集中的1271个化合物进行降维分析,得到3个降维。 有毒成分数、无毒成分数、成分总量、簇中心化合物以及各类别的详细结构信息如表1所示。

对1271个化合物进行主成分分析,得到4个主成分表达式(表2)。 以PC1、PC2、PC3为坐标轴建立物理空间,进一步可视化降维结果(图2)。 第1类和第3类化合物数量分别为1080和181,在物理空间中表现出良好的降维效果,可用于下一步构建QSAR模型。 第二类化合物数量较少且物理空间分散,不利于模型构建。

3.1.2 Type 1训练集和Type 3训练集QSAR模型的建立和评估

Mold2软件用于分别估计1型训练集(1080个成分)和3型训练集(181个成分)的分子描述符。 随后按照2.2中的方法对描述符进行初步筛选,分别得到170个。 , 106 个分子描述符。 使用2.3节中的方法建立了两个QSAR模型。 得到的模型准确率、查准率和召回率如表3所示。从平均值可以看出,类型3的QSAR模型的准确率和正确率均低于类型1的QSAR模型。

3.2 草本保健乳制品原料肝毒性预测

根据2.4下的方法,通过比较每个组件到类中心的欧氏距离,将该组件分类为QSAR模型Class 1(2767个物理组件)和Class 3(783个物理组件)。 类型3的QSAR模型优于类型1的QSAR模型。因此,对使用类型3的QSAR模型预测的783个分量的结果进行了统计分析。

为了更合理地表达预测结果,本研究采用多模型加权预测方法,根据式(2)估计加权平均概率。

在783种成分中中药保健网站模板,肝毒性加权平均概率排名前五位的化合物如表4所示。草本保健乳品成分预测肝毒性的加权平均概率分布如图3所示。

预测结果中肝毒性成分比例较大的10种中药材和预测的非肝毒性成分比例较大的10种中药材如图4所示。可见玄参含有14种预测为肝毒性成分的成分。具有肝毒性和 7 种预计不会具有肝毒性的成分。

3.3 文献验证

为了进一步验证QSAR模型的准确性,采用文献验证的方式,即将预测结果与目前文献报道的结果进行比较,得到一致结果的比例。 研究结果发现,在783种预测化合物中,很少有文献报道过具有药理特性的化合物。 经过一一查找,发现了10种具有保肝作用的成分,包括当归苷、人参皂苷Rg3、人参皂苷Rb2、漆树素、连翘脂苷、二恶英、绞股蓝单宁、木犀草素、芍药苷、芒柄花素,表明该成分均无肝毒性,与预测相符。结果。 本研究预测阿魏酸出现肝毒性的概率为0.5669,表明有肝毒性,与实验结果相反。

113种药材中,肝毒性比例较高的药材有玄参、番泻叶、当归、大黄、丹参、厚朴、川芎、桑枝、桑黄皮、五味子等,其中实验早已证实它们有5种肝毒性药物,其中番泻叶可对胃肠、肝胆、神经、泌尿等系统造成损害。 其中,肝胆系统的损害主要是黄疸,临床表现为头晕不适、发热、尿黄等症状。 大黄蒽醌具有潜在的肾毒性和致畸性。 玄参70%甲醇提取物在剂量≥5g·kg–1时有轻度肝、肾毒性。 柴胡提取物对正常大鼠无明显的急性肝毒性,但不同含量和剂量的提取物可能引起转氨酶活性异常,且在一定范围内存在剂量正相关性。 白术叶、厚朴树皮和白术花对小鼠的食物利用率和肾功能有影响,还影响肝脏、卵巢和睾丸等内脏器官的数量。

推理与讨论

肝毒性是指抗生素经肾脏代谢时,抗生素本身或其代谢产物对肾脏造成的损害。 在抗生素研发和使用过程中,抗生素肝毒性往往是新药研发失败或退出市场的主要原因之一。 草药在我国临床应用已有数千年历史。 随着现代草药的发展,人们逐渐对草药的不良反应更加关注。 中药肝毒性预测将成为辅助以中药为原料的保健乳制品毒性评价的重要途径。 QSAR是预测新化学药物开发阶段毒性的常用方法之一。 它可以在没有实验信息的情况下,借助已知毒性的化合物对未知化合物进行初步预测。 然而,目前建立QSAR模型来预测草药肝毒性的例子还很少。 同时,由于中草药和化学药物分子结构的差异,基于化学药物结构的预测模型的准确性不高。

考虑到QSAR主要是根据分子结构和分子特征与毒性效应之间的关系来构建机器学习模型,本研究首先对训练集的物理空间进行降维分析,得出每种类型的化合物。 比较相似,不同类化合物的物理空间性质却有很大不同。 然后分别对每个类进行建模可以提高模型的准确性。 通过研究发现,本研究将训练集在物理空间上分为三类。 第三类模型的准确率为85%至91%,与之前的报告相比有显着提高。

为了使模型建立时的预测结果更加合理,本研究还提出了多模型加权预测方法,该方法充分考虑了机器学习模型预测的概率,综合考虑多个模型的准确率和预测概率,并加权平均后得到整体值。 最后,本研究估算了113种草本保健乳品原料的成分与第一类中心和第三类中心的欧式距离,选取了与第三类中心较接近的783种物理成分进行预测,并根据加权平均概率。 共获得48个肝毒性化合物和735个非肝毒性化合物,预测肝毒性概率为0.15~0.30。 为了进一步验证预测结果,笔者进行了相关文献调查。 根据文献资料设计的10种西药成分,其肝毒性与预测结果一致。

综上所述,本研究对传统的QSAR建模方法做出了两点改进。 二是对训练集化合物进行降维分析,然后对每个类别使用NB、LR、KNN等9种机器。 采用学习方法建立QSAR模型,并采用交叉验证方法对模型构建方法进行评估,得到准确率85%~91%的最优模型。 一是构建多模型加权预测方法,对113种草本保健乳品原料中所含的783种物理成分的肝毒性进行预测。 当归、川芎、桑枝、桑黄皮、五味子等预测肝毒性成分比例较高。 等待进一步验证。