2020年4月15日,虽然全球疫情阴霾尚未褪去,但也无法掩盖这天足以惊艳世界的光芒!清华大学理学院院长、地球系统科学系主任宫鹏教授和清华大学博士研究生刘涵一起,对外发布了清华大学中国和全球地表覆盖和土地利用制图成果,令在线参加的多家权威媒体,以及亲身参与此次项目合作的AWS(亚马逊云服务)和光环云(光环云数据有限公司)团队,都无比兴奋!

本篇全文均引用宫教授和刘博士发言原文,因为在项目的合作中,光环云深切感受到,没有什么语言比来自科学家团队的原话更真实且有力量!

这是一个革命性的进步!对整个地球系统观测行业都将产生深远影响!基于现在的处理能力和AWS的技术平台的支撑,我们拥有了逐日的无缝的遥感观测的数据集(Seamless Data Cube, 简称SDC),它填补了高空间分辨率和时间频率的观测的空白。我们也是目前世界上唯一一个完成了全球10米分辨率地表覆盖制图的团队,并正向3米分辨率发展。

Seamless Data Cube意思是什么呢?现在世界上有9个国家和地区做了Data Cube,但是就是左边这个样子,并不完整,是一片一片的。而Seamless Data Cube,就是每一天的间隔里面全球都有一张完整的30米分辨率的数据,陆地卫星Landsat本身也做不到这个样子,陆地卫星本身是每16天才能对全球扫一遍。同时,我们靠的还有一个数据就是MODIS的图像来辅助。而得到的结果,就是右边图里的数据,逐日都有,对着每一个空间的点, 30米×30米的这么大的格网里面,它每天都有数据,从2000年到2018年都有。有了这个数据以后,我们又做了很多进一步的信息提取。正是基于这逐日的数据,长时间序列的动态有很好的时空一致性,我们探测到了30米空间分辨率土地覆盖变化的情况。比如说首套从2000年到2018年间,逐季节的土地覆盖和逐年的土地利用。

这是一个创造性的大数据应用,充分利用了AWS的公共数据集,我们用它的数据集来服务于中国的科研发展。在这个过程中,我们用到了AWS在中国科技界的应用最大极限,我们用到的算力相当于全世界现在TOP200的高性能计算机所能提供的能力,而且它有紧密的数据高速网络,让我们做了这样一些事情。(AWS架构师补充解释:计算量约在10万个vCPU,传统方法相当三四百个机柜规模,机柜平铺占地约一个操场那么大)同时,用了AWS这个技术以后,精度提高了10-20%。同时由于 AWS算力资源在最靠近开放数据集的区域,所以数据的传输与调用速度也达到了毫秒级,加速了研发的进程。未来应用也会有更好的客户满意度。

基于Seamless Data Cube,我们再运用AWS上面一整套完善的人工智能和机器学习的套件和服务,比如说Amazon SageMaker和Amazon EKS以及Amazon EMR上面的一些机器学习的套件,结合我们前期构建的世界首套全球全季节普适样本库和积累的相关领域知识,设计和训练了一套适应遥感大数据的深度遥感特征学习和分类模型。并进一步借助AWS的AutoML(AutoGluon)等自动化多层堆叠集成技术,对模型结构和参数进行深度调优,并进行分布式高性能推理。分类结果最后经过遥感专业化的变化探测和时空一致性后处理方法,得到这套全国逐季节土地覆盖和逐年土地利用图。

无论是制图还是数据,都是开辟了中国卫星遥感数据处理和信息提取的新范式,服务于国民经济的很多行业,比如农业集约化和土地闲置的探测、城市化与自然植被丧失的探测、土地退化和粮食安全、环境变化与健康、造林和土壤的含水量的关系、城市扩张与热岛效应,还有碳储备等等。

具体给出几个例子来。比如说我们发现我们国家的耕地确实是在减少,但目前耕地的面积并没有像大家想象的那么担忧,没有低于18亿亩的耕地红线,而且我们离那还挺远。对于我国森林,国际上很多人说中国的森林得到的数据不一,有的说多,有的说少,我们这个数据基本上把这些不一致经过我们时空一致性的计算,将森林面积的趋势做出来了。我们国家的森林面积确实在不断增加,也印证了我们国家森林保护工程的有效性。还发现了我们国家的保护区有较好的土地保护效应,但是在保护区周围有比较大的人为干扰,就是有较强的土地利用还存在破坏的情况。另外,信息也反映了人类活动对生物多样性热点地区有较高的干扰水平。

对于联合国制定的17个可持续发展目标,可以说这一套地表覆盖和土地利用的数据产品,能够有效地支持其中13个目标的工作。第一个就是消除贫穷,第二个是减少饥饿,第三个是健康,第六个是水资源的清净的水,第七个是清洁的能源,第八个是经济的增长,第九个是基础设施的创新,第十一个是城市,第十二个是负责任的消费和生产,第十三个是气候,第十四个是水下的生物保护,第十五个是陆上生物的保护,第十七个国际合作。我刚刚讲的这些,我们这套数据都可以对它们产生一定的支持。

有了这个能力,它还能帮助我们打造世界顶级的在线制图服务的平台。这个平台不仅使遥感专家,甚至使毫无遥感专业知识的用户都能快速完成他要做的应用。中学生、小学生想拿这个数据做点什么,从里面抠出来,拉几条曲线,或者把一个区域要拿出来做一些探测、变化、趋势的分析,都已经变得非常容易。它将极大调动大众的创造力,促进遥感应用市场化的普及,从而使遥感能够迎来一次革命。

有了这个数据(Seamless Data Cube),可以生产新的数据产品,可以说是无限的,也为国内外的同行提供技术支撑。比如咱们中国在科技部支持下要做21种新的地表参量数据产品,这是由武汉大学梁顺林教授牵头做的一个国家的重点研发项目。有了Seamless Data Cube之后,就可以支持梁树林项目的所有的参数:如跟能量有关系的,陆表能量平衡的参数;跟极地和冰冻圈有关系的很多参数;跟植被生物物理特征有关系的参数又有一串,水循环的参数也有很多,还有地表的类型变量的参数等。比如说最近西昌发生的森林火灾,火的范围、痕迹,全国的火斑,在这个时间里面的我们都能够把它提取出来。

最后一个就是给大家看,在清华大学建设的全球粮食估产模型,它每次需要的输入就是不同地方的作物种植和气候预测数据。可以拿着前面的数据,我刚刚讲的作物的种植、集约化经营、农业的撂荒,哪些地方不种哪些地方种植,这个数据作为输入,输入到粮食估产模型去以后,就可以跑出来全球的粮食产量的情况,提前两个月来预估粮食的产能。

我给大家做了一个介绍,希望这个简单的介绍能够让大家感觉到和我们一样的兴奋,我们确实进入了一个遥感的全球观测的新时代。谢谢大家。