互联网有google,如此生物学范畴有了MetaGraph。这款搜刮引擎能快速筛选存储在大众数据库的海量生物数据。相干研究结果10月8日发表在《天然》。 MetaGraph会为海量DNA、RNA及卵白质序列档案成立索引。图片来历:Andrew Brookes/Connect Images/Science Photo Library ? “这是一项了不得的成绩。”法国巴斯德研究所的Rayan Chikhi暗示,“他们为阐发原始生物数据设定了新尺度。” 这些数据包括DNA、RNA及卵白质序列,其来历数据库可包罗万亿级的DNA碱基,数据量以拍字节计(1拍字节=1000万亿字节),条款数目甚至跨越google重大索引中的所有网页。 只管MetaGraph被贴上“DNA范畴的google”标签,但Chikhi更偏向在将其比作“YouTube专用搜刮引擎”,由于它暗地里的计较使命难度更高。 就像于YouTube上搜刮时,可以或许检索到所有以“红色气球”为特性的视频,即便标题、标签或者描写中未呈现这一要害词。MetaGraph一样无需提早对于基因模式举行明确标注,就能找到隐蔽于重大测序数据集深处的基因模式。Chikhi说:“它实现了其他任何要领都没法完成的工作。” 开发MetaGraph的初志是为相识决测序数据集的可和性问题。已往几十年间,生物数据库的范围呈爆炸式增加,但这类增加也给利用这些数据的科学家带来了挑战——原始测序读数出现碎片化、噪声多的特色,且数目重大,没法直接举行检索。 加拿年夜多伦多年夜学的Artem Babaian指出:“抵牾的是,数据量反而成为了咱们现实利用这些数据的最年夜障碍。” 论文配合通信作者、瑞士苏黎世联邦理工学院的André Kahles暗示,MetaGraph可以或许帮忙研究职员对于序列读取档案库(SRA)这种数据库睁开生物学相干问题的摸索。SRA作为大众数据库,包罗的DNA碱基已经跨越1亿亿个。 研究团队借助数学“图谱”解决了数据检索难题。这类图谱能将堆叠的DNA片断毗连起来,就像图书索引里那些包罗不异辞汇的句子会被归于一路同样。 研究职员整合了7个大众资助数据库的数据,构建出涵盖病毒、细菌、真三木SEO-菌、植物、动物,也包括人类的所有生物类群的序列集,此中包罗1880万个怪异的DNA及RNA序列集,以和2100亿个氨基酸序列集。同时,他们还有为这些序列开发了一款搜刮引擎,用户只需经由过程文本提醒,就能检索这些整合后的原始数据档案。 “这是一种与这种数据交互的全新方式。”Kahles说,“数据虽然颠末压缩处置惩罚,但可实现即时拜候。” 为证实MetaGraph的实用价值,研究团队使用该东西,对于全世界241384小我私家类肠道微生物组样本举行了检索,旨于寻觅抗生素耐药性的基因标记物。这项研究是于前期事情基础上开展的。此前研究职员曾经使用旧版MetaGraph,追踪过全世界重要都会地铁体系中细菌菌株的耐药基因。据团队先容,于高机能计较机上完成这项阐发仅需约1小时。 MetaGraph并不是今朝独一一款年夜范围序列检索东西。例如,Chikhi及Babaian配合开发了一个名为Logan的平台,该平台能将数十亿条短测序读数拼接成更长、更规整的DNA片断。这类设计架构使其能于比MetaGraph更年夜范围的测序读数调集中,辨认出完备基因和其变异类型。不外这一上风也陪同着必然的弃取。Chikhi暗示:“咱们的东西功效较少,但机能更强。” 依附更广的检索规模,Logan帮忙研究职员发明了超2亿个自然存于的“噬塑酶”变体,这些变体来历在多种细菌、真菌及虫豸,此中部门变体的活性甚至优在试验室设计的酶。9月,Chikhi及Babaian将这一发明宣布在预印本bioRxiv。 此外,研究职员还有曾经使用一款更早、功效更专一的病毒DNA数据库检索东西,发明了年夜量此前未被记载的病毒,以和用在医治癌症的工程化T细胞疗法中的病毒污染物。 Babaian认为,这种发明的实现离不开开源检索东西和其依托的大众测序数据库。今朝,一些生物数据库正面对资金减少的威逼,他夸大,这些检索技能的立异偏偏凸显了“开放数据同享至关主要”。 “这些资源正鞭策全世界科学前进。”Babaian说,“它们正于开启一个全新的‘拍字节级基因组学’范畴,而此中最具影响力的运用还没有呈现。” 相干论文信息:https://doi.org/10.1038/s41586-025-09603-w https://doi.org/10.1101/2024.07.30.605881
BASED ON HONESTY AND INNOVATION
CONTACT US
扫一扫进入手机站
Copyright © 河南天马新材料股份有限公司 版权所有 备案号:豫ICP备16026066号-2技术支持: XML RSS 网站地图