# 基于webmagic的多线程知乎爬虫 **Repository Path**: complone/zhihuMagicCrawel ## Basic Information - **Project Name**: 基于webmagic的多线程知乎爬虫 - **Description**: 基于webmagic的多线程知乎爬虫 - **Primary Language**: Unknown - **License**: Not specified - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 1 - **Forks**: 2 - **Created**: 2018-10-22 - **Last Updated**: 2021-09-01 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # 基于webmagic的多线程知乎爬虫 #### 项目介绍 由于知乎论坛为了防止用户爬取进行页面的标签改动,导致大一做的爬虫项目不可用,近日打算进行重构 - TODO 10.22 - webmagic启动初始页面 - processor抽取爬取逻辑 - TODO 10.23 - 定制/activites页面抽取逻辑,修改必要的Cookies - 匹配作者个人主页 - TODO 10.24 - pipline中重写process,准备存储到数据库 - TODO 10.25 - 引入BlockingQueue,保存爬取过程中存入的对象 - TODO 11.2 - 注册PageProcessor和Pipline为bean组件,启动爬虫存入数据库 #### 软件架构 软件架构说明 #### 使用说明 1. xxxx 2. xxxx 3. xxxx