# learn-spider **Repository Path**: ChinaLym/learn-spider ## Basic Information - **Project Name**: learn-spider - **Description**: 🕷️学习Java爬虫案例,总结为爬虫框架( 支持集群运行;拆多个模块分布式运行) - **Primary Language**: Java - **License**: Apache-2.0 - **Default Branch**: main - **Homepage**: https://spec.itlym.cn - **GVP Project**: No ## Statistics - **Stars**: 7 - **Forks**: 4 - **Created**: 2020-06-01 - **Last Updated**: 2025-09-21 ## Categories & Tags **Categories**: Uncategorized **Tags**: Java, Spider ## README # 🕷 learn-spider ## 📖介绍 - ⚡ 快速 / 批量 下载网站视频、图片 - 🧠 掌握爬虫思路,总结一个企业级爬虫流程 - 🛢️ 分解代理池原理,构造自己的多级代理池 - 🌲 资深爬虫设计:分组、监控、重试、告警、任务状态记录、合并 如果您在找一个下载`加密M3u8视频`工具、或者您想通过`Java`学习爬虫思想、或者想深入学习大型爬虫系统设计,相信这份工程一定适合您! # 🚀 开始运行 1. `git clone https://gitee.com/ChinaLym/learn-spider` 2. 本地运行 功能说明、学习步骤、爬虫流程见 [功能说明与学习顺序](doc/learn-project.md) # 🍭 运行截图 ![demo.png](doc/metrics/demo.png) ![create_m3u8Task.png](doc/create_m3u8Task.png) ![downloading.png](doc/downloading.png) ![playVedio.png](doc/playVedio.png) 监控页面 ![overview.png](doc/metrics/overview.png) 代理池 ![代理池](doc/proxy-pool.png) 更多参见 [功能说明与学习顺序](doc/learn-project.md) # 爬虫注意点(遵循所在国家法律法规) 1. 不得侵入国家事务、国防建设、尖端科学技术领域网站,不得爬取个人信息以及非公开数据。 2. 不得采取逆向暴力破解等技术手段。 3. 不得妨碍目标网站正常运行,不得超过目标网站日均流量的三分之一。 ## 参考 ip代理池 https://cloud.tencent.com/developer/article/1666217 > 扩展:其他开源项目模型命名(选读,便于理解爬虫框架设计者们的共同思想) > - 待下载任务:SpiderTask、Seed > - 下载/抓取/发请求:Spider、Downloader > - 调度、任务管理:Scheduler、TaskManager > - 页面处理:Extractor、PageProcessor、Analyzer、Parser > - 结果处理:Pipeline、Handler