# comicweb

**Repository Path**: wyu0430/comicweb

## Basic Information

- **Project Name**: comicweb
- **Description**: No description available
- **Primary Language**: Unknown
- **License**: Not specified
- **Default Branch**: master
- **Homepage**: None
- **GVP Project**: No

## Statistics

- **Stars**: 1
- **Forks**: 1
- **Created**: 2019-01-10
- **Last Updated**: 2020-12-19

## Categories & Tags

**Categories**: Uncategorized

**Tags**: None

## README

## 1.主要包括两大部分

•漫画爬虫，将数据储存到sqlite

•漫画网站搭建，并且进行展示

## 2. 用到的技术

•爬虫框架：scrapy 

•数据库：sqlite 

•web框架：Django

•Web设计：HTML, javascript

•动态页面爬取：selenium

## 3. 数据模型建立

•本项目数据库表使用Django数据库迁移命令自动生成，为了保证爬虫爬取到的数据可以用于项目，因此定义的scrapy中item和Django中的数据模型存在一定的对应关系

•包括ComicInfo(漫画书信息表), ComicKind(漫画分类表), ComicIndex(漫画章节表), ComicDetail(漫画图片内容表)

## 4. 爬虫主逻辑

•爬虫mamhua_spider.py文件中的类下面定义了3个方法，parse，detail_parse，contentImg 方法

•pipelines.py文件中定义爬取信息存储到数据库的各种sql语句

•启动命令scrapy crawl mamhua_spider或者直接 python main.py

### 4.1方法说明

•Parse方法代码功能为提取网站列出的所有漫画信息，通过循环遍历所有页数

•detail_parse方法爬取每本图书的详情页，取书本各章节的顺序以及名称等信息，并获取到所有章节内容对应的url

•contentImg方法为提取信息的最后一步，这一步可以获取到章节的详细漫画图片内容，生成并返回item

## 5.Django漫画书网站

•在上述爬虫爬取到数据之后，便可以直接将存有数据的数据库移动到Django项目中，从而达到建立自己网站的目的

•网站主要分为三个页面：主页（index.html）、图书详情页（single.html）漫画内容详情页(comic.html),整个网站风格比较简洁，运行效果如下http://132.232.148.234:9000/comicinfo/index