筛选月桂醇(Lauryl alcohol)在拟南芥(Arabidopsis thaliana (L.) Heynh.)中的靶标蛋白,确定月桂醇可能与拟南芥中的哪些蛋白结合,同时揭示月桂醇在拟南芥中的作用机制。
1.1 获取月桂醇的分子结构:
利用Hdock软件,将Spacing(网格点间距)和Angle(旋转步长角度)参数分别设置为2和60度,进行初步的大规模筛选。这一步骤能够迅速锁定那些具有潜在生物学意义的启动子与转录因子相互作用候选者。Hdock的高效初步筛选功能,使得在庞大的数据集中快速定位目标成为可能。随后,我们选取了Hdock评分高于阳性对照(P53启动子互作的转录因子)的前2523个候选者进入下一阶段的精细筛选。
PubChem CID: 8193(Lauryl alcohol)
1.2 结构优化:
添加所有氢原子,优化几何结构,并转化成PDB格式。用 AutoDock Tools 生成 PDBQT 文件:
确保分子结构完整,特别是化学活性位点(如羟基、氨基)必须具备正确的氢原子。检测所有原子的键合状态并添加缺失的氢原子。确保极性氢原子(如羟基上的 H)被正确添加。
优化分子的空间结构,确保分子处于能量最低的稳定构型。在工具中启用分子力场优化选项,运行几何优化,使原子位置调整到局部最低能量状态,保存优化后的分子结构为 PDB 格式(适用于 AutoDock Vina)。
2.1 获取拟南芥蛋白结构
为了确保筛选实验的准确性和覆盖性,必须获取高质量的蛋白质三维结构信息。从 UniProt 获取拟南芥蛋白的序列。
从 UniProt 获取拟南芥蛋白的序列,筛选目标蛋白,下载对应的 FASTA 格式序列,用于后续分析;记录蛋白注释信息,了解蛋白的功能注释(如分子功能、细胞定位、生物过程),记录数据库的参考编号(如 UniProt ID 和基因名称),方便后续查询和交叉验证;从 PDB 数据库获取解析的晶体结构,输入目标蛋白的 UniProt ID 或序列信息,查询是否有已解析的晶体结构;筛选结构质量,优先选择分辨率较高(<2.5 Å)的晶体结构,注意记录结构中的复合物信息(如是否包含辅因子或配体);下载 PDB 文件,将结构文件保存为 PDB 格式,供后续处理。
2.2 蛋白同源建模
如果目标蛋白没有可用的晶体结构,可以通过同源建模工具预测其三维结构,使用 ESMFold 进行同源建模。
工具简介:ESMFold 是一个基于人工智能的蛋白质结构预测工具,能快速生成高精度的蛋白三维结构。与传统建模方法(如 SWISS-MODEL 或 I-TASSER)相比,ESMFold 效率更高,特别适用于快速构建大量蛋白模型。
准备序列数据:将从 UniProt 下载的目标蛋白序列保存为 FASTA 格式。确保序列无杂质(如非标准氨基酸或标签序列)。
运行建模:提交任务,工具会自动进行序列比对、模板选择和结构预测,根据任务复杂度,建模过程需要数小时。
下载模型:预测完成后,下载生成的三维结构文件(PDB 格式),检查模型的可信度得分并记录。
2.3 蛋白预处理
蛋白预处理是虚拟筛选和分子对接工作流中至关重要的一步,其目的是简化蛋白质结构、优化其化学环境,并使其适配对接工具的要求。
删除水分子、离子等非必要分子:水分子、离子或其他非关键辅因子通常会干扰对接模拟,因此需要去除这些非必要的分子。如果某些辅因子或水分子对蛋白功能有重要意义。
添加氢原子并优化残基构型:蛋白质晶体结构通常缺乏氢原子信息(尤其是非极性氢),需要手动添加以补全原子模型。氢原子的添加可以优化残基构型,特别是对于电荷分布和氢键网络非常关键。
转换为 PDBQT 格式:PDBQT 是 AutoDock Vina 对接工具的专用格式文件,包含蛋白质的原子坐标、电荷信息,以及分子中可旋转部分的定义。
2.4 构建蛋白数据库
将所有拟南芥蛋白的 PDBQT 文件整理到一个目录中,用于批量对接。创建一个专用的工作目录,根据实验需求,可以按功能分类整理蛋白文件,蛋白激酶、膜运输蛋白、转录因子等,将每一类蛋白的 PDBQT 文件存放到相应的子目录中。
逆向虚拟筛选(Reverse Virtual Screening, RVS)旨在通过分子对接预测特定小分子(如月桂醇)可能的靶标蛋白。
AutoDock Vina 是一种高效的分子对接工具,能够快速计算配体和蛋白质之间的结合自由能,并预测结合模式,其计算速度快,对接结果具有较高准确性,支持批量对接,适用于规模化实验。
3.1 对接参数设置
由于靶标蛋白未知,为避免遗漏潜在的结合位点,需将对接范围扩展至整个蛋白表面,而不仅限于已知活性位点。在 AutoDock Tools 中,导入蛋白的 PDBQT 文件,不定义特定的活性位点,让配体探索整个蛋白表面。由于靶标蛋白未知,为避免遗漏潜在的结合位点,需将对接范围扩展至整个蛋白表面,而不仅限于已知活性位点。使用网格大小覆盖整个蛋白区域。
网格参数设置:中心点:定义为蛋白的几何中心。自动计算中心点,或手动输入蛋白的中心坐标(x, y, z)。网格大小:确保网格能够覆盖蛋白的整个表面。具体值视蛋白尺寸而定,通常 x、y、z 三个方向的范围可设置为 30-60 Å 或更大。
3.2 批量对接
批量对接是逆向虚拟筛选的核心步骤,使用脚本自动化对接月桂醇与每个拟南芥蛋白。
收集所有对接结果,提取结合能(binding affinity,单位:kcal/mol)。
按结合能排序,筛选结合能较低(< -7 kcal/mol)的蛋白。
使用 PyMOL 或 Chimera 可视化分析高亲和力结合的蛋白。
评估关键氨基酸残基与月桂醇的相互作用类型(如氢键、疏水作用)。靶标功能注释:
使用 UniProt、GO(Gene Ontology)数据库查询蛋白功能。
重点关注与月桂醇潜在生物学功能相关的靶标(如代谢途径、信号转导)。