| EN
当前位置: 首页 / 研究院

大数据

Big data center

undefined

华大农业应用研究院大数据中心将收集、整理农业领域的大数据(特别是基因、遗传信息组学大数据)、开发分析工具和流程、挖掘数据背后的生物学含义和实际应用价值,支撑农业育种和精准营养实践,促进行业发展和产业应用升级。

undefined

大数据中心引入以科学家团队为核心的项目运营组和以生物信息分析工程师为核心的数据管理组。项目运营组中在行业内具有较高影响力的高水平科学家团队,将为大型项目的引入和实施提供智力上的支撑;数据管理组的大项目执行团队在确保大项目顺利执行的基础上,将进一步优化法和流程,把大项目执行中积累的经验和知识应用到具体的产品和项目开发中去。

undefined

大数据中心可为引入和执行农业领域具有重大科研价值、应用开发价值和显著社会效应的大型合作/自主研发项目提供人才和能力上的支撑。

正在执行的项目

大豆回家项目

2017年6月20日,国家大豆改良中心名誉主任盖钧镒院士、中国遗传发育研究所陈受宜研究员一行到访深圳国家基因库,并参加深圳国家基因库和国家大豆改良中心共同发起的大豆种质资源遗传标记开发及育种应用重大公益专项启动仪式,华大理事长杨焕明、董事长汪建出席启动仪式并致辞,深圳国家基因库主任、华大农业集团董事长兼总裁梅永红与国家大豆改良中心名誉主任盖钧镒分别代表双方签署《大豆育种重大公益专项合作研究协议书》。

大数据中心将承担3000份大豆资源的序列采集、遗传变异鉴定以及和表型的关联分析以挖掘可用于育种改良实践的分子标记。预计原始下机的数据量将达到100T左右。

药用植物4.0项目

2017年6月16日,华大农业应用研究院联合广西科技厅、卫生计生委主办,广西药用植物园、深圳国家基因库、澳门大学和北京计算中心共同发起的“药用植物4.0计划”在广西药用植物园正式发布。

药用植物4.0计划主要内容包含三点:一是“药用植物4.0计划”将在未来3年内完成10000种潜在药用植物资源的收集;二是完成5000种药用植物遗传资源的多组学解析,建立全世界最庞大和丰富的药用植物多组学数据库;三是建立全世界最高通量的药用植物基因组辅助育种平台,建立一套跨组学、大数据集成的药用植物有效成分精准筛选、功能验证的平台。

大数据中心将组织完成5000种药用植物遗传资源的采集和多组学解析(包括部分基于三代技术的药用植物基因组denovo组装注释;数百份药用植物的全长转录组分析,以及蛋白质组和代谢组学分析;5000份药用植物的基于转录组序列的分析等)。在此基础上,开发和鉴定与药用植物活性成分合成代谢调控有关的关键通路和酶。加深人们对于药用植物遗传机理的认识,并为实现人工合成奠定基础。

牡丹测序及育种项目

2014年12月,在洛阳市人民政府的支持下,洛阳农林科学院和华大农业合作开展牡丹基因组测序和育种科研项目。

牡丹基因组极其复杂,达12.5 GB (约是人类基因组的4.5倍)。经过近三年的攻关,华大农业动用了包括国家银河超算在内的各种科研资源,应用世界最先进的第三代测序技术,先后完成了2.67 TB二代高通量数据,1.49 TB的第三代测序数据采集,结合759 GB约58×的Hi-C数据组装,在世界上首次破译了牡丹基因组。

总结此项研究成果,我们取得了三项世界领先。一是首次完成了牡丹基因组精细图的绘制,使“数字化牡丹”精彩呈现。完成牡丹基因组组装大小12.25 GB,拼接片段Contigs N50 = 128KB,基因组完整度98%,双端比对率98.8%,锚定染色体85%的基因组精细图谱,实现了超大基因组三代测序技术的完美组装。二是首次注释了65898个牡丹基因,使“定制化牡丹”成为可能。获取了包含牡丹花形、花色控制基因及与牡丹籽油合成相关的基因,为精准化牡丹分子育种提供了技术支撑。三是首次构建了牡丹基因组及表型数据库,使“信息化牡丹”触手可及。依托研究成果建设了牡丹基因组数据库,涵盖1000余份牡丹品种资源,从基因视野对牡丹进行分类、甄别,实现大数据查询应用。

大数据中心承担了对该基因组的破译和组装注释工作。