python 脚本运行,flume采集 ,kafka消费接收 ,Sparkstreaming 直连方式实时流处理,过滤出想要的数据,最后把数据保存至HBase数据库
python 脚本运行,flume采集 ,kafka消费接收 ,Sparkstreaming 直连方式实时流处理,过滤出想要的数据,最后把数据保存至HBase数据库
1.spark sql 进行数据清洗 2.把清洗的数据保存至parquet 结构 3.需求top功能 1.计算每天最受欢迎的课程 top 2.计算每个地区最收欢迎的课程 top3、 4.把数据保存至mysql 数据库 先建立表
最近一年贡献:0 次
最长连续贡献:0 日
最近连续贡献:0 日
贡献度的统计数据包括代码提交、创建任务 / Pull Request、合并 Pull Request,其中代码提交的次数需本地配置的 git 邮箱是 Gitee 帐号已确认绑定的才会被统计。