你好,欢迎光临南京安杰优科技!
南京安杰优科技
南京安杰优生物科技 > 新闻中心 > 正文

了解点冷知识,蛋白质二级结构预测

南京安杰优生物科技 2019-06-25

上一次小师弟给大家介绍了从蛋白质一级结构预测相关信息的网站——也即ExPASy ProParam的使用,今天我再给大家介绍一下蛋白质二级结构的预测。

在介绍具体的网站和软件使用之前,我想先介绍一下蛋白质二级结构预测的基础知识。

蛋白质二级结构有如下几种模式:α螺旋(当然,也存在其他形式的螺旋),β折叠,转角(turn),以及无规则卷曲(random coil)。其中,无规则卷曲并不是一类真正的二级结构,只是作为一种分类,用来表示此类结构没有规则的二级结构。需要说明的是,无规则卷曲也不是完全随机(random)折叠,其氨基酸分布以及折叠还是有一定规律的,只不过他们的结构非常灵活易变(flexible)。甚至有研究表明,某些无规则卷曲是有明确而稳定的结构的。关于二级结构的分类,更详细的可以参考DSSP(Dictionary of Protein Secondary Structure)分类系统,一共将蛋白质二级结构分为8类,其分类依据是二级结构中的氢键结合模式。

Loop,作为另一个在蛋白质二级结构层面的概念,并不是单指上述某一个类型的二级结构,而是一类多样化的二级结构,可以包括转角、无规则卷曲(long loops也被称作无规则卷曲)以及其它连接二级结构的氨基酸链。Loops多数位于蛋白质分子表面,含有较多亲水氨基酸,具有灵活的构象,可以作为蛋白质的结合位点(比如抗体的抗原结合位点就由6个loop组成)以及酶的催化位点。

1.jpg



二级结构图片

在蛋白质二级结构和三节结构之间,还存在两个概念,超二级结构和结构域。超二级结构在很多教科书中也称作mofitstructural motif: 结构模体/结构基序,或者folding motif:折叠花式)。超二级结构是指相邻二级结构在三维折叠中相互靠近所形成的组合,分为简单超二级结构和复杂超二级结构。简单超二级结构一般只包含3个及3个以下的二级结构,我们熟悉的αα,ββ,以及βαβ结构模体就属于简单超二级结构,锌指结构(αββ)也是一种简单的超二级结构。复杂超二级结构由3个以上的二级结构组成,希腊钥匙模体就是一种复杂的超二级结构。有些复杂超二级结构和结构域是等同的,这也是为什么很多文献中motif和domain不加以区分的原因。超二级结构作为蛋白质折叠过程中的成核中心,往往优先折叠成规则的结构。

1.jpg 


简单和复杂超二级结构

二级结构和结构模体以特定方式组合,在蛋白质分子中形成空间上可以明显区分的三维折叠结构,就成为结构域。结构域是蛋白质三级结构的基本单元,可以独立执行蛋白功能(也就是说,结构域即是结构基本单元,也是功能基本单元)。对于很多简单的蛋白质分子,结构域和三级结构是等同的,因为这些蛋白仅仅包括这一个结构域。

1.jpg



结构域图片

而蛋白质的二级结构预测,很多时候就指通过序列预测最基本的4种二级结构:α螺旋,β折叠,转角和无规则蜷曲。也有很多专门的二级结构预测程序来预测超二级结构:如coiled coil以及跨膜螺旋(transmembrane helices)的预测。二级结构的预测原理,普遍需要通过已经解析的蛋白质结构数据库来发现序列规律并作出预测。最初的Chou-Fasman算法通过统计获得不同二级结构中氨基酸的分布概率,并以此来预测未知结构的二级结构。后来采用贝叶斯推断方法,考虑了每个氨基酸周围残基对其分布概率的影响,提高了准确率。现在的二级结构预测程序普遍采用了机器学习方法,如人工神经网络和支持向量机等算法,让程序通过大量已经解析的结构数据的训练,不断调整参数,并以之预测未知结构的二级结构,使得二级结构预测的准确率超过了80%,对于α螺旋,预测准确率超过90%。

小师弟今天先介绍一个基本的二级结构预测网站PSIPRED(采用了神经网络算法)。

网站地址:http://bioinf.cs.ucl.ac.uk/psipred/

使用权限:免费使用,无需注册,可通过邮箱接收预测结果。

使用目的:根据序列预测二级结构;还可以预测跨膜区、disorder区、结构域以及折叠识别。根据需求勾选不同的算法即可。

打开网址后,我们首选勾选进行二级结构预测的算法PSIPRED v3.3,然后在input sequence中输入想要进行二级结构预测的序列,然后输入我们用于接收预测结果的邮箱地址,最后给我们的任务起一个名字好让我们自己辨认(因为我们很有可能同时打开这个网页进行多个序列的预测)。

 1.jpg



任务提交页面

第三步邮箱地址虽然是可选项,但是小师弟还是推荐大家一定填写上,因为这个网站的预测速度并不是很快,常常需要等待0.5-2小时,我们总不能一直在预测结果页进行等待。填写了邮箱地址提交任务后,我们可以直接将预测结果页关闭。等预测结果出来的时候,服务器会自动给我们发邮件提示,我们根据提示打开网址就可以获得预测结果。或者,我们也可以记住预测结果页的网址(不是直接复制正在预测过程中的那个网址,而是如下图所示的预测结果页网址)。需要注意的一点是,预测结果在服务器只保存一个月时间,不是永久保存的。也就是说,在一个月之后再打开这个页面,结果就不存在了。


1.jpg

 预测结果页(预测过程中)

1.jpg



提醒邮件

还有一点需要说明的是,这个网页允许提交的序列最长为1500aa(aaamino acid),如果我们需要预测的蛋白序列超过了1500aa,我们可以将序列划分为多个片段,进行多次提交。划分蛋白序列有一个技巧,就是不要在结构域中间进行截断。如果还不知道结构域信息,推荐使用UniProt进行查询。还有一个技巧,就是让截断区域重叠。比如我们有一个2500aa的蛋白序列,我们可以将其划分为1-1500,1001-2500两个片段进行预测(前提是1001-1500处没有截断已经存在的结构域)。

预测结果页有三个标签,Summary,PSIPRED以及Downloads。在Summary标签中,我们可以看到氨基酸序列可能属于的二级结构,在PSIPRED标签中,我们看到预测结果的缩略图,点击缩略图可以下载png格式的预测结果图片。在Downloads标签中,我们可以下载预测结果。推荐选择“Download everything”下载所有结果,里面有一个PDF文件(用于查看和做标注),一个ps文件(用于重新编辑画图,用Adobe Illustrator打开后重新编辑,生成自己想要的颜色和格式插入论文中),一个psipass2格式文件,可以用notepad++打开(记事本打开排版会乱掉),属于纯文本格式,但是比起PDF文件,只缺少第二行的Pred图标格式,其他文本内容是一样的。


1.jpg

预测结果摘要页

1.jpg

预测详细结果局部截图

从上面两幅图可以看出来,小师弟用于预测的蛋白序列中只含有α螺旋和无规则卷曲(coil),不含有β折叠以及其它已知的结构域。

此网站还可以用来预测跨膜区以及结构域,大家感兴趣的话,可以自己动手试一试哦!


(编译:aaaa)
相关文章