优秀建设者 ┃ 马淑云：坚守实业报国初心用技术与创新服务国家战略-河南天马新材料股份有限公司

河南天马新材料股份有限公司

Henan Tianma New Material Co., Ltd

快速搜索

英文站

您有38条未读询盘信息!

当前位置：首页 > 新闻资讯 > 公司新闻

新闻资讯

News

热门推荐

三木SEO-“DNA领域的谷歌”来了—新闻—科学网

所属分类：公司新闻发布时间： 2025-10-24 12:15:19 作者：admin

分享到：

二维码分享

互联网有google，如此生物学范畴有了MetaGraph。这款搜刮引擎能快速筛选存储在大众数据库的海量生物数据。相干研究结果10月8日发表在《天然》。

MetaGraph会为海量DNA、RNA及卵白质序列档案成立索引。图片来历：Andrew Brookes/Connect Images/Science Photo Library

“这是一项了不得的成绩。”法国巴斯德研究所的Rayan Chikhi暗示，“他们为阐发原始生物数据设定了新尺度。”

这些数据包括DNA、RNA及卵白质序列，其来历数据库可包罗万亿级的DNA碱基，数据量以拍字节计（1拍字节=1000万亿字节），条款数目甚至跨越google重大索引中的所有网页。

只管MetaGraph被贴上“DNA范畴的google”标签，但Chikhi更偏向在将其比作“YouTube专用搜刮引擎”，由于它暗地里的计较使命难度更高。

就像于YouTube上搜刮时，可以或许检索到所有以“红色气球”为特性的视频，即便标题、标签或者描写中未呈现这一要害词。MetaGraph一样无需提早对于基因模式举行明确标注，就能找到隐蔽于重大测序数据集深处的基因模式。Chikhi说：“它实现了其他任何要领都没法完成的工作。”

开发MetaGraph的初志是为相识决测序数据集的可和性问题。已往几十年间，生物数据库的范围呈爆炸式增加，但这类增加也给利用这些数据的科学家带来了挑战——原始测序读数出现碎片化、噪声多的特色，且数目重大，没法直接举行检索。

加拿年夜多伦多年夜学的Artem Babaian指出：“抵牾的是，数据量反而成为了咱们现实利用这些数据的最年夜障碍。”

论文配合通信作者、瑞士苏黎世联邦理工学院的André Kahles暗示，MetaGraph可以或许帮忙研究职员对于序列读取档案库（SRA）这种数据库睁开生物学相干问题的摸索。SRA作为大众数据库，包罗的DNA碱基已经跨越1亿亿个。

研究团队借助数学“图谱”解决了数据检索难题。这类图谱能将堆叠的DNA片断毗连起来，就像图书索引里那些包罗不异辞汇的句子会被归于一路同样。

研究职员整合了7个大众资助数据库的数据，构建出涵盖病毒、细菌、真三木SEO-菌、植物、动物，也包括人类的所有生物类群的序列集，此中包罗1880万个怪异的DNA及RNA序列集，以和2100亿个氨基酸序列集。同时，他们还有为这些序列开发了一款搜刮引擎，用户只需经由过程文本提醒，就能检索这些整合后的原始数据档案。

“这是一种与这种数据交互的全新方式。”Kahles说，“数据虽然颠末压缩处置惩罚，但可实现即时拜候。”

为证实MetaGraph的实用价值，研究团队使用该东西，对于全世界241384小我私家类肠道微生物组样本举行了检索，旨于寻觅抗生素耐药性的基因标记物。这项研究是于前期事情基础上开展的。此前研究职员曾经使用旧版MetaGraph，追踪过全世界重要都会地铁体系中细菌菌株的耐药基因。据团队先容，于高机能计较机上完成这项阐发仅需约1小时。

MetaGraph并不是今朝独一一款年夜范围序列检索东西。例如，Chikhi及Babaian配合开发了一个名为Logan的平台，该平台能将数十亿条短测序读数拼接成更长、更规整的DNA片断。这类设计架构使其能于比MetaGraph更年夜范围的测序读数调集中，辨认出完备基因和其变异类型。不外这一上风也陪同着必然的弃取。Chikhi暗示：“咱们的东西功效较少，但机能更强。”

依附更广的检索规模，Logan帮忙研究职员发明了超2亿个自然存于的“噬塑酶”变体，这些变体来历在多种细菌、真菌及虫豸，此中部门变体的活性甚至优在试验室设计的酶。9月，Chikhi及Babaian将这一发明宣布在预印本bioRxiv。

此外，研究职员还有曾经使用一款更早、功效更专一的病毒DNA数据库检索东西，发明了年夜量此前未被记载的病毒，以和用在医治癌症的工程化T细胞疗法中的病毒污染物。

Babaian认为，这种发明的实现离不开开源检索东西和其依托的大众测序数据库。今朝，一些生物数据库正面对资金减少的威逼，他夸大，这些检索技能的立异偏偏凸显了“开放数据同享至关主要”。

“这些资源正鞭策全世界科学前进。”Babaian说，“它们正于开启一个全新的‘拍字节级基因组学’范畴，而此中最具影响力的运用还没有呈现。”

相干论文信息：https://doi.org/10.1038/s41586-025-09603-w

https://doi.org/10.1101/2024.07.30.605881

诚信立足、创新致远

BASED ON HONESTY AND INNOVATION

联系我们

河南·天马

咨询热线： 0371-68942898

证券部： 0371-68942858

地址：河南省郑州市上街区科学大道1105号

邮箱：tmxc@tm-xc.cn

扫一扫进入手机站