# jd_spider **Repository Path**: starctc/jd_spider ## Basic Information - **Project Name**: jd_spider - **Description**: No description available - **Primary Language**: Unknown - **License**: Not specified - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2025-12-30 - **Last Updated**: 2025-12-30 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # jd_spider 用scrapy框架写的京东爬虫,可以抓取京东商品信息和评论 # 1、目的:
抓取商品信息代码在jd_home.py中,数据库在setting.py中修改ITEM_PIPELINES,使用MySQLPipeline
抓取评论代码在jd_comment.py中,数据库在setting.py中修改ITEM_PIPELINES,使用CommentPipeline
##(2)setting.py文件默认开启了代理IP,因为IP的存活期的限制,要定期更新PROXIES中IP信息,可从网站:http://www.xicidaili.com/ 中找免费的代理IP
如果不想使用代理IP,可以将DOWNLOADER_MIDDLEWARES代码注释掉
数据库的配置:
在使用本爬虫中,因为在抓取评论信息时需要用到goods.xls文件。因此需要先抓取商品信息,然后将商品信息的相关内容导出到goods.xls中(这里提供了一个goods.xls的格式供参考)
goods.xls格式:第1列:商品ID,第2列:商品评论数;第3列:商品的commentVersion
在一个工程中,抓取商品信息和抓取评论信息不能同时进行。
更多爬虫的细节可以参考我的博客文章: