GDELT提供了一个全面的时间和位置索引存档,包括1979年至今全球广播,印刷和网络新闻媒体报道的事件。假设一个国家的GDELT事件越多,政治相关性就越大。由于GDELT是几何点的数据集,不能直接知道它属于哪个国家,因此我们需要第二个数据集,即FIPS Codes(联邦信息处理标准出版物代码)的shapefile,可以表示一个国家的边界,两个数据集之间可以JION。(本例进行的前提是两个数据集已经存储好了)
本例中国家只有3000条记录,我们可以广播(Spark Broadcast)这些国家让查询更有效率。
(一)开发任务
使用GeoMesa Spark
通过地理空间的UDF创造和使用DF。
使用多边形计算聚合统计数据。
创造一个新的简单特征类型来表示聚合。
将结果可视化为等值区域图。
(二)需求背景
GDELT提供了一个全面的时间和位置索引存档,包括1979年至今全球广播,印刷和网络新闻媒体报道的事件。假设一个国家的GDELT事件越多,政治相关性就越大。由于GDELT是几何点的数据集,不能直接知道它属于哪个国家,因此我们需要第二个数据集,即FIPS Codes(联邦信息处理标准出版物代码)的shapefile,可以表示一个国家的边界,两个数据集之间可以JION。(本例进行的前提是两个数据集已经存储好了)
本例中国家只有3000条记录,我们可以广播(Spark Broadcast)这些国家让查询更有效率。
(三)代码分析
1 | /** |