# ProxyPool **Repository Path**: chinajabybaii/proxy-pool ## Basic Information - **Project Name**: ProxyPool - **Description**: No description available - **Primary Language**: Unknown - **License**: MIT - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2024-06-19 - **Last Updated**: 2024-06-23 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README 2024.01.13 ## 爬虫应用场景 批量下载音频等 ## 代理池 通过代理ip来绕过网站的反爬机制,一般代理ip都不是很稳定,所以需要找到多个稳定可用的代理ip组成代理池。 实现技术: request lxml pymongo flask ## 设计模式: 代理ip的存活周期不确定,几分钟到几天,或者当前不可用,一段时间又再次可用。所以需要对代理池中的代理ip打分,保证提供给爬虫程序的是稳定的代理ip。 有些代理ip对某些域名不可用,也需要有映射关系,保证高可用。 ## 核心模块 爬虫模块: 代理IP的校验模块: 数据库模块: 检测模块: 代理IP服务接口: ## 设计思路 1. 独立开发:需要什么功能再去写什么模块 2. 分工合作:设计好各个模块需要提供什么接口,多人协作开发 2024.06.18 重启 ## 新增功能 基础的增删改查功能: 插入 修改、 删除 查询 代理API模块功能: 根据条件查询代理IP:指定查询数量、按分数降序、速度升序,保证优质代理IP在上面 根据协议类型和要访问网站的域名,获取代理IP列表 根据协议类型和要访问网站的域名,随机获取一个代理IP 将指定域名添加到指定IP的disable_domain列表中 爬虫模块: 通用爬虫类 具体爬虫类