# Oxy **Repository Path**: siusn/oxy ## Basic Information - **Project Name**: Oxy - **Description**: 分布式爬虫系统 - **Primary Language**: Unknown - **License**: MIT - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 1 - **Forks**: 0 - **Created**: 2021-07-21 - **Last Updated**: 2021-12-20 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # Oxy #### 介绍 分布式爬虫系统 暂只支持豆瓣和政府数据网 #### 软件架构 软件架构说明 + SpringCloud2.2.4 + java8 + redis + mongodb + nginx1.18.x + ngx_http_proxy_connect_module #### 安装教程 1. 修改engineer和leader中监管中心的地址 2. 需要的话修改爬取频率 3. 启动即可 4. 代理的配置 * 下载nginx1.18.x 注意要把依赖装上 * 检出正向代理nginx插件 ```shell script git clone https://gitee.com/siusn/ngx_http_proxy_connect_module.git * 进入nginx的解压目录,选择布丁: ```shell script patch -p1 < /lab/ngx_http_proxy_connect_module/patch/proxy_connect_rewrite_1018.patch * 编译 ```shell script ./configure \ --user=www \ --group=www \ --prefix=/usr/local/nginx \ --with-http_ssl_module \ --with-http_stub_status_module \ --with-http_realip_module \ --with-threads \ --with-stream \ --with-stream_ssl_preread_module \ --with-stream_ssl_module \ --add-module=/lab/ngx_http_proxy_connect_module * 配置nginx ```nginx server { listen 9143; # dns resolver used by forward proxying resolver 114.114.114.114; # forward proxy for CONNECT request proxy_connect; proxy_connect_allow 443; proxy_connect_connect_timeout 10s; proxy_connect_read_timeout 10s; proxy_connect_send_timeout 10s; # forward proxy for non-CONNECT request location / { proxy_pass http://$host; proxy_set_header Host $host; } } #### 使用说明 1. 初始化队列 * 访问URL:http://127.0.0.1:8701/seed/init * 访问此URL,所有的待处理任务都会清除 2. 添加爬取对象 * 访问URL:http://127.0.0.1:8701/seed/add?url=https://catalog.data.gov/dataset * url为需要爬取的数据集的第一页的URL #### 参与贡献 1. Fork 本仓库 2. 新建 Feat_xxx 分支 3. 提交代码 4. 新建 Pull Request #### 特技 1. 使用 Readme\_XXX.md 来支持不同的语言,例如 Readme\_en.md, Readme\_zh.md 2. Gitee 官方博客 [blog.gitee.com](https://blog.gitee.com) 3. 你可以 [https://gitee.com/explore](https://gitee.com/explore) 这个地址来了解 Gitee 上的优秀开源项目 4. [GVP](https://gitee.com/gvp) 全称是 Gitee 最有价值开源项目,是综合评定出的优秀开源项目 5. Gitee 官方提供的使用手册 [https://gitee.com/help](https://gitee.com/help) 6. Gitee 封面人物是一档用来展示 Gitee 会员风采的栏目 [https://gitee.com/gitee-stars/](https://gitee.com/gitee-stars/)