# FocusBigData **Repository Path**: aimmon/FocusBigData ## Basic Information - **Project Name**: FocusBigData - **Description**: No description available - **Primary Language**: Unknown - **License**: Not specified - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2020-10-21 - **Last Updated**: 2020-12-19 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # FocusBigData ## 引子 > 夏季是阳光最为灿烂的季节,走在林间的小道上,看着地上斑驳的树影,闭上双眼感受清风拂面,用力呼吸着每一口自由的气息,也许只有在996福报之外,才能体会得到这种感觉吧,但这或许就是人生吧。 ​ 哈哈瞎扯了一堆有的没的,下面开始进入正题,现在随着**5G时代的到来**,信息传输速率大幅提高,对个人来说只不过打开网页快了点,玩游戏延迟低了点,看视频完全不担心卡顿的问题,前提是办理更贵的5G套餐:smile:。但是对于企业来说这个提升,可以带来更高的生产力,带来更高的收益, > 但信息传输速率提高,说明单位时间内获得的数据量比以往更多,说明**单位时间内系统要承担更大的处理压力**,如果没有好的大数据处理框架【框架就是解决方案】,那么信息只能是信息,而不是能带来收益的数据。 ​ 现在有很多开发人员都在往大数据领域靠拢,**大数据领域也确实是未来IT方向的一个热点或者说是风口**。在招聘软件上,大数据岗位现在平均薪资约为25K左右,相比开发岗位大约高了百分之40左右,如果是中高阶的大数据架构师甚至可以达到百万薪资。但这诱人的薪资对于同学来说还有距离,但只要我们知道了这个距离具体是指哪些技能,然后**努力去补齐这些技能**,我相信大家也都能达到自己想要的目标。【愿与诸君共勉】 大家如果有什么问题,包括**学习问题,大数据职业规划,简历书写和项目包装**等问题都加我【微信focusbigdata】,或者到【公众号FocusBigData】后台留言给我,看到后都会给大家详细回答的。 ![](./images/head.png) ​ ![](./images/gongzhonghao.png) ![](./images/weixin.png) ![](./images/csdn.png) ![](./images/kaiyuanzhongguo.png) ![](./images/toutiao.png) ![](./images/bokeyuan.png) ![](./images/zhishixingqiu.png) ## :elephant:Hadoop分布存储框架 + ### Hadoop篇 + [Hadoop本地模式环境搭建](pdf/hadoop) + [Hadoop完全分布式环境搭建](pdf/hadoop) + [Hadoop配置历史服务](pdf/hadoop) + [Hadoop配置日志聚集](pdf/hadoop) + [Hadoop配置集群时间同步](pdf/hadoop) + [Hadoop源码编译](pdf/hadoop) + [Hadoop集群脚本编写](pdf/hadoop) + [Hadoop数据压缩](pdf/hadoop) + [Hadoop序列化](pdf/hadoop) + ### HDFS篇 + [HDFS入门概述](pdf/hadoop) + [HDFS命令行操作](pdf/hadoop) + [HDFS客户端操作 --- 开发环境准备](pdf/hadoop) + [HDFS客户端操作 --- 文件操作](pdf/hadoop) + [HDFS客户端操作 --- IO流操作](pdf/hadoop) + [HDFS数据读写流程](pdf/hadoop) + [NameNode和SecondearyNameNode](pdf/hadoop) + [NameNode故障处理](pdf/hadoop) + [集群安全模式](pdf/hadoop) + [DataNode相关概念](pdf/hadoop) + [HA高可用](pdf/hadoop) + [HA高可用 --- HDFS-HA集群配置](pdf/hadoop) + [HA高可用 --- YARN-HA集群配置](pdf/hadoop) + [HA高可用 --- Federation架构设](pdf/hadoop) + ### MapReduce篇 + [MapReduce之入门概述](pdf/hadoop) + [MapReduce之工作流程](pdf/hadoop) + [MapReduce之InputFormat数据输入](pdf/hadoop) + [MapReduce之OutputFormat数据输出](pdf/hadoop) + [MapReduce之Shuffle机制](pdf/hadoop) + [MapReduce之MapJoin和ReduceJoin](pdf/hadoop) + [MapReduce之数据清洗ETL](pdf/hadoop) + [MapReduce优化](pdf/hadoop) + ### Yarn篇 + [Yarn工作机制和作业提交流程](pdf/hadoop) + [Yarn任务推测执行](pdf/hadoop) + ### 源码篇 + Job提交流程 + MapTask运行 + ReduceTask运行 + 切片流程 + Shuffle流程 【源码是做成思维导图的方式,放在[知识星球](#知识星球)里面,思维导图部分展示如下】 ![](./images/hadoop源码图.png) ## :dolphin:Spark分布式计算框架 + ### SparkCore篇 + [Spark基础入门和环境安装](pdf/spark) + [RDD编程入门](pdf/spark) + [RDD转换算子](pdf/spark) + [RDD行动算子](pdf/spark) + [RDD函数传递和依赖关系](pdf/spark) + [RDD缓存和checkpoint](pdf/spark) + [RDD数据分区](pdf/spark) + [RDD数据读取和保存](pdf/spark) + [RDD累加器和广播变量](pdf/spark) + ### SparkSql篇 + [SparkSql之DataFrame和DataSet](pdf/spark) + [SparkSql之自定义UDF和UDAF函数](pdf/spark) + [SparkSql之数据加载和保存](pdf/spark) + ### SparkStreaming篇 + [SparkStreaming之Dstream入门](pdf/spark) + [SparkStreaming之Dstream创建](pdf/spark) + [SparkStreaming之Dstream转换和输出](pdf/spark) + ### Spark内核篇 + [Spark通信架构和集群启动流程](pdf/spark) + [Spark模式运行机制](pdf/spark) + [Spark任务调度机制](pdf/spark) + [SparkShuffle解析](pdf/spark) + [Spark内存管理](pdf/spark) + ### Spark调优篇 + [Spark之常规性能调优](pdf/spark) + [Spark之算子调优](pdf/spark) + [Spark之Shuffle调优](pdf/spark) + [Spark之JVM调优](pdf/spark) + [Spark常见故障排查](pdf/spark) + [Spark数据倾斜解决方案](pdf/spark) ## :bird:Flink分布式流式框架 + ### Flink篇 + [Flink入门](pdf/flink) + [Flink部署](pdf/flink) + [FlinkAPI之Environment-Source-Transform-Sink](pdf/flink) + [Flink运行时架构](pdf/flink) + [FlinkAPI之数据类型和UDF函数](pdf/flink) + [Flink之Window概述](pdf/flink) + [Flink之时间语义和WaterMark](pdf/flink) + [Flink之ProcessFunctionAPI](pdf/flink) + [Flink之状态编程](pdf/flink) + [Flink之容错机制chekpoint](pdf/flink) + [Flink之CEP复杂时间处理](pdf/flink) + ### FlinkSql篇 + [FlinkSql之入门概述](pdf/flink) + [FlinkSql之Table操作](pdf/flink) + [FlinkSql之流式持续查询](pdf/flink) + [FlinkSql之窗口](pdf/flink) + [FlinkSql之函数](pdf/flink) > ​ Github上分享的都是PDF格式,MarkDown格式放在[知识星球](#知识星球)。未完待续,最近利用工作之余给给大家先更新了Hadoop、Spark、Flink三个大数据中最主要的框架,后面还陆续给大家跟新如下内容:【[知识星球](#知识星球)第一时间发布文章,后面在同步到各个平台】 - Hive数据仓库 - Zookeeper分布式协调框架 - HBase列式存储分布式数据库 - Elasticsearch开源搜索引擎 - Kafka消息队列 - Flume数据传输框架 - Sqoop数据传输框架 - Azkaban调度框架 - Kylin分析型数据仓库 - Impala实时查询分析引擎 - Hue大数据web管理器 - Kudu列式存储分布式数据库 - Kettle开源的ETL工具 - DataX阿里开源ETL工具 - ClickHouse开源列式数据库 - Ambari大数据平台搭建利器 - Ranger大数据权限管理利器 - Airflow调度和监控工作流的平台 - Griffin数据质量监控工具 - Tableau大数据分析工具 - Pulsar大数据分析工具 - Atlas元数据治理工具 - Filebeat数据采集工具 - Saiku数据分析工具 - Superset大数据可视化的利器 - Sentry大数据权限管理框架 - Zabbix集群监控工具 - Zepplin数据交互可视化工具 ## 数据仓库项目 >【待更新】 > >- 数据仓库概念 >- 数据仓库建模 >- 数仓分层 >- 数据集市和数据中台和数据仓库区别 >- 数据治理是什么 >- 项目技术选型 >- 系统数据流程设计 >- 服务器选型 >- 集群资源规划 >- 数据埋点设计 >- 数据采集设计 >- 电商业务术语和流程 >- 数据同步策略 >- 漏斗分析 >- 数据监控查询和可视化 ## 互相监督学习小组 >​ 发送你个人目前学习的情况【j技术掌握程度+空闲学习时间】和学习方法【自己现在是如何学习和规划】到我的邮箱zyt_focus@163.com,然后免费加入互相监督学习小组哦!不是微信群形式的学习小组,而是在专业的软件中创造属于自己的学习项目,大家都可以看到,一起互相监督学习,一起进步。 ## 大数据面试 >可以关注[公众号](#微信公众号) > >回复`大数据简历`即可获得简历模板 > > > >回复`大数据面经`即可获得面经 > > > >回复`大数据面试经历`即可获得面经经历 > > ## 福利 > 可以关注[公众号](#微信公众号) > > 回复`大数据学习路线图`即可获得学习路线图 > > > > 回复`大数据书单`即可获得相关书籍 > > 回复`数据仓库书单`即可获得相关书籍 > > 回复`内功书单`即可获得相关书籍 ## 知识星球 星球主要提供如下服务: >+ 问题解答 > > >在学习上面文档过程中,出现什么问题bug,都可以私聊我进行解决 > >+ 职业规划 > > >可以跟我谈谈你想做的以及你不清楚的地方,然后我在帮你确定一些方向供你选择 > >+ 思维导图 > > > HDFS思维导图 > > > > MapReduce思维导图 > > > > Hadoop源码思维导图 > > > > Hive思维导图 > > > > HBase思维导图 > > > > 后面根据会大家反馈继续更新的 > >+ 面试真题和面试经历 > > >大数据超全面试题+数百家大数据面试心得 > >+ 简历包装 > > > 嗯适度包装就行 > >+ 模拟面试 > > > 可以提前发邮件预约进行模拟面试 > >+ 学习心得技巧 > > >分享一些自己学习的套路吧 > >+ 监督打卡模式 > > >后期在说这个 ​ 创办这个星球的初衷就是为了让更多想了解大数据或者从Web开发转向大数据的同学,通过自学能够快速掌握大数据相关知识并能够上手工作。我会将我的星球打造成知识的海滩,在海滩中,不仅会分享关于大数据的笔记,面经,思维导图,卡片等,还会分享自己这些年来的学习技巧,工作经验和人生哲学,希望大家来到海滩上可以拾取到自己想要的贝壳。加入星球的同学记得私聊我,有项目福利【有时候图片无法显示可以关注公众号加入】【微信扫码登录】 ## 微信公众号 > ​ 文章也会同步到公众号中,**福利也都放在公众号上面**,回复对应关键词即可领取。在公众号后台也可以给我留言,或者直接加我私聊都行【图片加载不出来可以搜索:FocusBigData】 ## 关于我 > ​ 说起来在工作中已经有一段时间没有使用大数据了,被我们总监拉去做人工智能【:cry:】,主要做图像识别和目标物体检测,然后装在tx2小车上跑,太多算法真的看的头都大了,而且关键之前我还没做过,只能硬着头皮学了机器学习和深度学习算法【所以大家想入门AI也可以找我,不过深入就不行了】,过程痛并快乐着,最后也能出了个模型【其实就是调参炼丹,懂的都懂】。未来我想做的技术还是大数据方向的,尤其是流式计算,后面我在星球中会有很大篇幅来讲流式计算,创作不易,希望大家支持一下,愿与诸君共勉。【加我拉群咯,记得备注git】【图片加载不出来可以搜索:focusbigdata】