# comicweb **Repository Path**: wyu0430/comicweb ## Basic Information - **Project Name**: comicweb - **Description**: No description available - **Primary Language**: Unknown - **License**: Not specified - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 1 - **Forks**: 1 - **Created**: 2019-01-10 - **Last Updated**: 2020-12-19 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README ## 1.主要包括两大部分 •漫画爬虫,将数据储存到sqlite •漫画网站搭建,并且进行展示 ## 2. 用到的技术 •爬虫框架:scrapy •数据库:sqlite •web框架:Django •Web设计:HTML, javascript •动态页面爬取:selenium ## 3. 数据模型建立 •本项目数据库表使用Django数据库迁移命令自动生成,为了保证爬虫爬取到的数据可以用于项目,因此定义的scrapy中item和Django中的数据模型存在一定的对应关系 •包括ComicInfo(漫画书信息表), ComicKind(漫画分类表), ComicIndex(漫画章节表), ComicDetail(漫画图片内容表) ## 4. 爬虫主逻辑 •爬虫mamhua_spider.py文件中的类下面定义了3个方法,parse,detail_parse,contentImg 方法 •pipelines.py文件中定义爬取信息存储到数据库的各种sql语句 •启动命令scrapy crawl mamhua_spider或者直接 python main.py ### 4.1方法说明 •Parse方法代码功能为提取网站列出的所有漫画信息,通过循环遍历所有页数 •detail_parse方法爬取每本图书的详情页,取书本各章节的顺序以及名称等信息,并获取到所有章节内容对应的url •contentImg方法为提取信息的最后一步,这一步可以获取到章节的详细漫画图片内容,生成并返回item ## 5.Django漫画书网站 •在上述爬虫爬取到数据之后,便可以直接将存有数据的数据库移动到Django项目中,从而达到建立自己网站的目的 •网站主要分为三个页面:主页(index.html)、图书详情页(single.html)漫画内容详情页(comic.html),整个网站风格比较简洁,运行效果如下http://132.232.148.234:9000/comicinfo/index