# node-pdf **Repository Path**: wheres-cute/node-pdf ## Basic Information - **Project Name**: node-pdf - **Description**: 给我们一个网页地址,爬取他的网页内容,然后输出成我们想要的PDF格式文档,请注意,是高质量的PDF文档 - **Primary Language**: NodeJS - **License**: Not specified - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 1 - **Created**: 2020-09-04 - **Last Updated**: 2020-12-19 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README ##### 步骤 > 本项目实现需求:给我们一个网页地址,爬取他的网页内容,然后输出成我们想要的PDF格式文档,请注意,是高质量的PDF文档 * 第一步,安装`Node.js` ,推荐`http://nodejs.cn/download/`,`Node.js`的中文官网下载对应的操作系统包 * 第二步,在下载安装完了`Node.js`后, 启动`windows`命令行工具(windows下启动系统搜索功能,输入cmd,回车,就出来了) * 第三步 需要查看环境变量是否已经自动配置,在命令行工具中输入 `node -v`,如果出现 `v10. ***`字段,则说明成功安装`Node.js` * 第四步 如果您在第三步发现输入`node -v`还是没有出现 对应的字段,那么请您重启电脑即可 * 第五步 打开本项目文件夹,打开命令行工具(windows系统中直接在文件的`url`地址栏输入`cmd`就可以打开了),输入 `npm i cnpm nodemon -g ` * 第六步 下载`puppeteer`爬虫包,在完成第五步后,使用`cnpm i puppeteer --save `命令 即可下载 * 第七步 完成第六步下载后,打开本项目的`url.js`,将您需要爬虫爬取的网页地址替换上去(默认是`http://nodejs.cn/`) * 第八步 在命令行中输入 `nodemon index.js` 即可爬取对应的内容,并且自动输出到当前文件夹下面的`index.pdf`文件中 > `TIPS`: 本项目设计思想就是一个网页一个`PDF`文件,所以每次爬取一个单独页面后,请把`index.pdf`拷贝出去,然后继续更换`url`地址,继续爬取,生成新的`PDF`文件,当然,您也可以通过循环编译等方式去一次性爬取多个网页生成多个`PDF`文件。 > 对应像京东首页这样的开启了图片懒加载的网页,爬取到的部分内容是`loading`状态的内容,对于有一些反爬虫机制的网页,爬虫也会出现问题,但是绝大多数网站都是可以的