GeoNames是一个地理信息数据库,包括一千万的地理名称和超过九百万的特征。针对纽约出租车的数据信息,假设有如下问题:出租车上下客是否集中在某些兴趣点附近?为了找到答案,需要把GeoNames数据和NYCTaxi数据结合,在结果上做聚合统计。需要Join在彼此可容许的距离之内的点,以下将其称为D-within Join。
(一)开发任务
使用GeoMesa Spark
通过地理空间的UDF创造和使用DF。
根据阈值距离计算汇总统计数据。
创造一个新的简单特征类型来表示聚合。
将结果写入data store。
(二)需求背景
GeoNames是一个地理信息数据库,包括一千万的地理名称和超过九百万的特征。针对纽约出租车的数据信息,假设有如下问题:出租车上下客是否集中在某些兴趣点附近?为了找到答案,需要把GeoNames数据和NYCTaxi数据结合,在结果上做聚合统计。需要Join在彼此可容许的距离之内的点,以下将其称为D-within Join。
(三)代码分析
1 | $ bin/spark-shell --jars geomesa-accumulo-spark-runtime_2.11-2.0.0.jar |