由橡树岭国家实验室领导的能源部科学家团队发布了有史以来第一个数据集,将杨树微生物组的分子信息与生态系统层面的过程联系起来。该项目旨在为有关自然系统如何运作、它们对气候变化的脆弱性以及最终如何改造植物以提高其作为生物能源和天然碳储存来源的性能的研究提供信息。
《科学数据》中描述的数据提供了毛果杨 (Populus trichocarpa) 27 个遗传上不同的变体或基因型的深入信息,毛果杨是一种作为生物能源作物而受到关注的杨树。
这些基因型是橡树岭国家实验室领导的生物能源创新中心先前纳入的一项全基因组关联研究中的基因型,该研究将遗传变异与树木的物理特征联系起来。橡树岭国家实验室的研究人员从俄勒冈州两个地区的杨田中收集了叶子、土壤和根部样本——一个位于容易遭受洪水的湿润地区,另一个位于干燥且易受干旱影响的地区。
新整合的数据集中的详细信息包括树木的基因组成和基因表达、土壤环境的化学成分、对树木上和周围生活的微生物以及植物和微生物产生的化合物的分析。
ORNL 公司研究员、生物成像和分析部门负责人兼项目联合负责人 Mitchel Doktycz 表示,该数据集“在规模和范围上都是前所未有的”。 “它对于回答许多不同的科学问题很有价值。”他说,通过使用机器学习和统计方法挖掘数据,科学家可以更好地了解杨树的基因组成、物理特征和化学多样性与土壤氮和碳循环等过程的关系。
“我们从这家工厂获得的知识将被运用到用杨树生产生物燃料的项目中,”橡树岭国家实验室生态系统过程小组负责人、该项目的合作者梅兰妮·梅耶斯 (Melanie Mayes) 说。 “我们在这里建立的程序将用于其他植物的生物工程,并帮助我们建立气候适应能力——促进土壤碳储存和减少温室气体排放。”
完整数据集超过 25 TB。数据链接作为国家微生物组数据协作组织(NMDC) 的一部分提供,该合作组织是能源部的一项计划,支持微生物组与环境过程关联的数据共享。
项目联合负责人、橡树岭国家实验室杰出科学家克里斯托弗·沙特 (Christopher Schadt) 表示,“该数据集代表了树内圈上最大的公开宏基因组学存储库”,树内圈是复杂微生物群落所在地的植物组织环境。
对样本的详细分析产生了 318 个宏基因组,通过基因测序揭示了树木内部和周围生活的微生物的多样性。九十八个植物转录组提供了植物根部表达的全部信使 RNA 分子的信息。该数据集包括 314 个代谢组图谱,提供有关植物和微生物在生长或应对压力时产生的小分子的信息。
还包括相关土壤物理和生物地球化学特征的数据,检查存在的化学物质以及它们如何在环境中循环。
整合这些“多组学”数据将为研究植物相关分子和细胞事件如何与生态系统过程和行为联系起来的科学家提供重要信息。
了解植物、土壤氮循环触发因素
劳伦斯伯克利国家实验室的美国能源部科学办公室用户设施联合基因组研究所是该项目的密切合作者。 JGI 领导了叶、根和土壤环境或根际的代谢组学分析、植物根转录组测序以及土壤根际和内圈宏基因组学工作。
Emily Eloe 说:“来自叶子、根和土壤的宏基因组学和代谢组学以及杨属宿主转录组的结合,使这个数据集成为研究界真正独特的数据集,并可以作为探索植物-微生物相互作用的中央数据资源。” -Fadrosh,JGI 元基因组项目负责人。
该项目最初是橡树岭国家实验室的一个试点项目,名为“Bio-Scales”,并得到美国能源部科学办公室生物和环境研究项目生物系统科学部的支持。 Bio-Scales 致力于更好地理解植物与微生物的关系,重点关注氮循环。氮是生命必需的营养素,但在农业和其他应用中过度使用时,它会损害水质或以强效温室气体一氧化二氮或 N 2 O的形式排放。
“该项目需要整合大量不同的专业知识,”Doktycz 说。 “它始于一个团队在 COVID-19 期间出去收集所有这些不同的材料并将它们带回实验室,然后准备、分析并从中提取数据。我们还有一支令人难以置信的技术支持团队,他们处理以跟踪和协调的方式收集数百个样本,与联合基因组研究所对接进行序列分析。”
除了规模和范围之外,该数据集还以元数据进行了大量注释,其中包含精确的详细信息,例如采样地点和方式,以及后续数据报告的标准格式。将这些元素添加到数据中可以使信息更易于查找、理解和重用。
ORNL 的斯坦顿·马丁 (Stanton Martin) 与 NMDC 密切协调,负责该项目的数据管理,他指出,数据优先的方法支持人工智能和其他分析方法,以帮助解决科学问题。
“我们在这个项目中执行的数据管理对于其他项目的数据实践非常有价值,例如植物-微生物界面科学重点领域和橡树岭国家实验室生物能源创新中心。它发挥了橡树岭国家实验室在我所说的数据管理的三个方面的优势。 V——数据量、多样性和速度——使我们能够迈出第一步,以前所未有的方式整合非常大的组学数据。”
该项目始于 Schadt 和 Mayes 前往俄勒冈州采样。沙特说:“通常会有六名科学家,但由于大流行,我们对一起旅行的团体实行了旅行限制。”由于俄勒冈州当年经历了一个活跃的季节,他们还必须解决日益蔓延的野火问题。沙特和梅斯在俄勒冈州立大学志愿者的协助下,在两个地点收集了大量带有地理标记的样本。
有益的生物工程
梅斯说,该项目“了解基因不仅影响植物本身的命运,还影响其周围的环境,例如土壤。例如,我们想了解土壤微生物的潜力硝酸盐或从系统中去除多余的硝酸盐。我们想更多地了解植物基因组学如何影响土壤微生物的行为。”
更多地了解植物和土壤氮循环可以影响 N 2 O 的排放,这种气体占美国所有温室气体排放量的 6%。
“如果你知道哪些基因可以导致 N 2 O 或硝酸盐的产生最小化,那么你就有可能影响与温室气体相关的变暖和水质,”梅斯说。 “例如,你可以选择并进一步对具有最佳遗传特征的植物进行生物工程,以控制这些排放。”
“这个项目是独一无二的,因为它研究了植物基因组与一氧化二氮排放或硝酸盐生产等环境结果之间的联系,”梅斯说。 “建立第一个关于植物与微生物关系的综合数据集也告诉我们我们还能学到多少东西。”