基因漫游记
当前位置:首页 > 基因那些事 > 基因漫游记
人类的基因到底有多少个? 最新研究1.9万个
时间:2014-07-09 09:36:18 来源:转化医学网 点击:
t01f9def48321d0f86a.jpg
 
构成人类基因组的蛋白质编码基因的实际数目,一直是一个长期讨论的话题。在人类基因组第一稿出来之前,许多研究人员认为,人类蛋白质编码基因的最终数目在40,000到100,000之间。最初的人类基因组测序大幅修改了这个数字,表明最终数字会下降至26,000到30,000之间。随着人类基因组计划的最终草案公布,蛋白质编码基因的数目被再次修改至20,000到25,000之间。最近,Clamp和同事用进化比较表明,蛋白质编码基因最可能的数目更低,只有20500个基因。GENCODE项目最近发布的数据包括20,719个蛋白质编码基因。

目前,由西班牙国家癌症中心(CNIO)基础研究副主任和结构计算生物学团队负责人Alfonso Valencia带领的一项研究,将人类蛋白质编码基因数目更新到了19,000个;比最近注释的基因少1700个,远低于最初估计的100,000个。相关研究结果发表在最近的国际著名学术期刊《人类分子遗传学》(Human Molecular Genetics),得出结论认为,几乎所有这些基因,都有早于5000万年前灵长类动物出现的祖先。

“缩小人类基因组”,这就是Valencia描述多年来他们对人类基因组中蛋白质编码基因数目的不断修正,最终在当前的研究中缩减到大约19,000个人类基因。他补充说:“基因组的编码部分(产生蛋白质)是不断活动的。几年前没有人能想象,这么小数量的基因,能制造出如此复杂的东西。”

科学家们首先分析蛋白质组学实验;蛋白质组学是检测蛋白质分子最有力的工具。为了确定人类蛋白质图,研究人员整合了来自七项大规模质谱研究、50多份人体组织的数据。Valencia说:“这样做,是为了验证哪个基因真正产生蛋白质。”

少于10个基因能区分人和小鼠

研究发现了稍多于12,000个蛋白质,研究人员将这些蛋白质定位到基因组上的相应位置。他们分析了人类基因组中被注释的几千个基因,但是这并未出现在蛋白质组学分析中,Tress得出结论:“其中1,700个我们认为会产生蛋白质的基因,因为各种原因没有产生蛋白质,或者是因为它们没有表现出任何蛋白质编码特征,或者是因为它们阅读框的保守性不支持蛋白质编码功能。”

来自研究的一个假设是,超过90%的人类基因会产生蛋白质,这些蛋白质起源于亿万年前动物王国的后生动物或多细胞生物;对于那些起源早于5000万年前灵长类动物出现的基因来说,这个数字超过了99%。

研究人员称:“我们的数据表明,人类和灵长类动物在基因和蛋白质水平上的差异非常小。”本文共同作者、Valencia 实验室的研究人员David Juan称:“将人和小鼠区分开的基因数目,甚至少于10个。”与500多个具有当前注释中发现的灵长类起源的人类基因相反。研究人员得出结论:“灵长类动物之间的生理和发育差异,很可能是由基因调控引起,而不是问题蛋白质的基本功能差异造成的。”

以少胜多

人类复杂性的来源,更多地在于基因如何使用,而不是基因的数目,在于蛋白质中发生的成千上万的化学变化,或者在于通过基因组非编码区控制这些蛋白质的生产,这包括90%的全基因组,在最近的国际ENCODE项目中已经做出描述。

这项研究使人类基因的数目接近其他物种,如秀丽隐杆线虫——只有1毫米长的蠕虫。但是,Valencia不愿意作比较:“人类基因组是注释最好的,但是我们仍然认为,这1700个基因可能要重新注释。我们的研究表明,我们将不得不重新计算所有的基因组,不仅是人类基因组。”
这些研究结果是GENCODE项目的一部分,GENCODE是合并到ENCODE项目的一个财团,由世界各地的研究小组组成,包括Valencia研究小组,他们的任务是提供人类基因组中所有基因元件的注释。


Valencia称:“GENCODE正在讨论我们的数据,以并入到新的注释中。当这一切发生时,它将重新定义整个人类基因组图,以及它如何用于宏项目,如癌症基因组分析的项目。”
会员登录:
如您忘记密码,请联系我们的客服!
联系电话:400-669-0360
登陆:
  • 新浪微博登录