# bigdata-hub **Repository Path**: chtxia/bigdata-hub ## Basic Information - **Project Name**: bigdata-hub - **Description**: No description available - **Primary Language**: Unknown - **License**: Not specified - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2025-06-05 - **Last Updated**: 2025-06-05 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README ## bigdata-hub 大数据相关的技术可以分为:传输、存储、计算三大方面 ### 知识体系 - 基础框架 - [hadoop](./hadoop):HDFS、MR、YARN及高级话题、企业优化 - [hive](./hive):基础使用、优化、SQL编译过程、数据血缘、进阶、权限控制 - [hive优化](./hive/hive调优) - [hivesql功力提升专项](./hive/HiveSQL功力提升.md):各类难度较高的需求场景的实现方式 - [hive数据血缘](./hive/hive数据血缘) - [数仓工作与建设](./hive/数仓工作与建设) - [数仓建模](./hive/数仓建模) - [spark](./spark):spark-core、spark-sql、streaming、优化、进阶 - [flink](./flink):flink基础知识、API、CEP、CDC、流式架构、案例实践 - 数据存储 - [hbase](./hbase):核心API、进阶、与Hive和MR集成、Phoenix集成 - [kafka](./kafka):命令行、API、企业级实战 - [elasticsearch](./elasticsearch) - [zookeeper](./zookeeper) - 数据传输(数据交换、数据集成) - [datax](./datax) - [sqoop](./sqoop) - [flume](./flume) - [seatunnel](./seatunnel) - [bitsail](./bitsail):字节开源的高性能数据集成引擎 - 大数据调度:满足复杂大规模作业的调度场景 - [oozie](bigdata-scheduler/oozie) - [azkaban](bigdata-scheduler/azkaban) - [dolphinscheduler](bigdata-scheduler/dolphinscheduler) - 第三方or商业集成技术 - [aliyun-bigdata](./aliyun-bigdata):阿里云大数据(包括DataWorks、MaxCompute等) - [DataSphere Studio](./dss):微众开源一站式数据平台(DataSphere Studio) - 计算中间件:linkis - 数据交换:exchangis - 其他框架 - [StreamPark](https://github.com/apache/incubator-streampark):原名StreamX,是一个流处理应用程序开发管理框架 - 环境搭建 - [apache版本搭建](./环境搭建) - [CDH集群搭建](./环境搭建/CM+CDH安装) - [HDP集群搭建](./环境搭建/Ambari+HDP安装) - DataSophon:快速部署、管理、监控、自动化运维大数据服务组件和节点,用于快速构建大数据集群 - 大数据建设 - [可视化](./大数据建设/可视化BI) - [标签/指标体系](./大数据建设/指标&标签体系建设) - [数据质量](./大数据建设/数据质量管理) - [混合计算](./大数据建设/混合计算) - [实时数仓建设](./大数据建设/实时数仓建设) - [元数据管理](./大数据建设/元数据管理) - 开源元数据管理平台 - Apache Atlas - LinkedIn DataHub - Amundsen - Metacat - OpenMetadata - 前沿 - 增强性数据分析 - [数据中台](./大数据建设/数据中台建设) - [数据湖](./大数据建设/数据湖) - [Hudi](./hudi) - [湖仓一体Lakehouse](./大数据建设/湖仓Lakehouse) - [DataOps](./大数据建设/DataOps):数据工程化 - 其他 - [数字化转型](./数字化转型) ### 程序包下载 - Apache版本: [http://archive.apache.org/dist/](http://archive.apache.org/dist/) - CDH5单个版本: [http://archive.cloudera.com/cdh5/cdh/5/](http://archive.cloudera.com/cdh5/cdh/5/) - CDH5离线包: [https://archive.cloudera.com/cdh5/parcels/](https://archive.cloudera.com/cdh5/parcels/) - CDH6: https://archive.cloudera.com/cdh6/ - CM6: https://archive.cloudera.com/cm6/ - 清华Apache镜像: [https://mirrors.tuna.tsinghua.edu.cn/apache/](https://mirrors.tuna.tsinghua.edu.cn/apache/) ### 学习资料 - [《离线和实时大数据开发实战》-朱松岭](https://weread.qq.com/web/reader/7e332cb05e45157e3d0ec59kc81322c012c81e728d9d180) - [《Hadoop构建数据仓库实践》-王雪迎](https://weread.qq.com/web/reader/1d532310719b20661d52380) - [《Hadoop技术内幕:深入解析YARN架构设计与实现原理》](https://weread.qq.com/web/reader/71a32ab0597cf871a51c384kc81322c012c81e728d9d180) - 《spark快速大数据分析(learning-spark)》: [https://github.com/databricks/learning-spark](https://github.com/databricks/learning-spark) - [《Hive性能调优实战》-林志煌](https://weread.qq.com/web/reader/a503221071a486c0a503e7akc81322c012c81e728d9d180) - 笔记:[01感受hive性能调优的多样式](hive/hive调优/01感受hive性能调优的多样式.md) - 笔记:[02Hive问题排查与调优思路](hive/hive调优/02Hive问题排查与调优思路.md) - 《数据仓库》 - 笔记:[《数据仓库-Inmon第4版》](hive/数据仓库/数据仓库第4版/《数据仓库-Inmon第4版》.md)