Science:供研究用的匿名遗传数据可泄露个人信息
导读 | 那些发布在网上用于科研的个人遗传信息(来自1000多人的数十亿DNA信息)看起来是绝对匿名的,但是对一个遗传学研究者来说,他只要在网络上进行一些聪明的搜索,就能确定他随机选出来的5个人的身份。不仅如此,研究人员还可以挖掘出这些人的整个家族,即使这些人的亲属并没有参与到这项研究中来。
该研究人员没有透露他发现对象的姓名,这看上去保护了测序对象的隐私权... |
那些发布在网上用于科研的个人遗传信息(来自1000多人的数十亿DNA信息)看起来是绝对匿名的,但是对一个遗传学研究者来说,他只要在网络上进行一些聪明的搜索,就能确定他随机选出来的5个人的身份。不仅如此,研究人员还可以挖掘出这些人的整个家族,即使这些人的亲属并没有参与到这项研究中来。
该研究人员没有透露他发现对象的姓名,这看上去保护了测序对象的隐私权,但是发表在周四《科学》期刊的研究说明,当志愿者遗传信息为了可供科学家使用而需要对外公开时,他们将无法回避医学研究中保护隐私的困难。
其他报告也识别出那些遗传数据公布在网络上的对象,然而,由于这些研究仅集中在对象家庭住址的课题上,还没有利用有限的遗传信息对其DNA核酸序列和年龄进行研究。
美国旧金山加州大学Barbara Koenig 从事遗传数据研究,他说:“很长一段时间内,我一直担心遗传数据的隐私问题,毕竟我们所进行的研究都是建立在遗传数据可供使用的假设条件下。”
这些数据来自于千人基因组计划这一国际性研究项目,即收集来自世界各地的人体遗传信息并发布在网络上供研究者免费使用。该项目还涉及到参与者的年龄和家庭地址,这些信息联合家谱网站和谷歌搜索一起足以查找完整的家谱分支。现有方法能从原始的遗传序列文件提取相关的遗传数据,其专业性足以超出大多数外行的理解范畴,然而谁都不希望它能如此容易地定位个体。
测序对象或许强烈地意识到,自身DNA序列可能被识别无法保护自己的隐私,这就提醒:更多的遗传数据可能处于安全墙的保护,而那些企图侵犯研究对象隐私信息的人可能要受到严重惩罚。
Green 博士称:“我们从未宣称有解决办法,专家在如何做的方面也分歧巨大,然而,当了解到如何容易地找到个人和他们的家人,美国国立卫生研究院便从公共数据库中删去测序对象的年龄,从而使得对他们的识别过程变得尤其困难。”
犹他大学助理副主席Jeffrey R. Botkin博士收集了一些身份不清的研究对象遗传信息,他警告称: “美国国立卫生研究院的反应有点过度。数千个人的遗传数据在网络上免费提供,然而还没有一个报告称有人被非法识别。”他补充道:“很难想到在现实社会中有什么东西能刺激这类隐私攻击,不过,令我深切关注的是,公开的算法模型会侵犯测序对象的隐私,而让其公开后,研究人员会加大隐私保护的的风险。”
麻省理工学院附属怀特黑德研究所人类遗传学研究员Yaniv Erlich是千人基因组计划的倡导者,他强调完全拥护数据共享并反对基因组数据被封闭,然而,当他的实验室研发出新方法,让他意识到有工具能侦查DNA数据库,这才让他不再抵制隐私保护举措。
Yaniv Erlich利用新工具快速发现人体数十亿遗传密码中的短串联重复序列,后者通过遗传被后代继承。通过使用男性Y染色体上的重复片度,家谱网站识别按祖系划分的同一姓氏的男人。每一个男人递交了Y染色体上的短串联重复序列,就可找到那些同一DNA分型的同姓男人,这一网站让男人找到自己的祖先和亲人。
Erlich博士称:“他能否获取一个男人完整DNA序列,挑选出Y染色体上的短串联重复序列,在家谱网站查找这个男人的姓氏,进而完全识别这个男人?”
他测试了之前将自己DNA序列放在网络的DNA测序先驱Craig Venter的基因组,并知道了Craig Venter博士的年龄和所在州名。检索结果出来了,在数据库中弹出两个男人信息,其中一个就是Venter博士本人。
Erlich博士说:“在3亿美国人之中,我们将检索结果定位到2个人身上。”
现在最大的考验是,千人基因组计划中测序对象的DNA序列放在网络上公开使用,他们的年龄被提到,其中所有的美国人都住在犹他州,因此,研究人员很容易获知他们的隐私。
Erlich博士开始从数据库中获知一个人的遗传信息,定位到Y染色体的短串联重复序列,然后在姓氏数据库中检索相同重复的男人信息,最终得知其父亲和外祖父的姓氏。接下来,他在谷歌上收索了这个人,发现了一个讣告,从而知道该人的家庭关系。
Erlich博士和其他同事通过这一方法获知其它测序对象的详细家庭关系,然后拜访了Green博士和美国国家卫生研究院同事,并告知他们所做的一些。
休斯敦贝勒医学院的一名律师和伦理学家Amy L. McGuire像其他人一样,呼吁就此问题进行更多的公开讨论。他说:“完全保护隐私,或者让遗传数据匿名化,这些都是站不住脚的幻想。”
当千人基因组计划的测序对象同意参与和提供DNA时,他们签订一项协议,宣称不需要研究人员确保他们隐私安全,然后,在这个时刻该问题似乎很紧迫,风险也迫在眉睫。
原文链接:
Melissa Gymrek, Amy L. McGuire, David Golan, Eran Halperin, Yaniv Erlich
Sharing sequencing data sets without identifiers has become a common practice in genomics. Here, we report that surnames can be recovered from personal genomes by profiling short tandem repeats on the Y chromosome (Y-STRs) and querying recreational genetic genealogy databases. We show that a combination of a surname with other types of metadata, such as age and state, can be used to triangulate the identity of the target. A key feature of this technique is that it entirely relies on free, publicly accessible Internet resources. We quantitatively analyze the probability of identification for U.S. males. We further demonstrate the feasibility of this technique by tracing back with high probability the identities of multiple participants in public sequencing projects.
来源:生物探索
还没有人评论,赶快抢个沙发