# FindJobsApp **Repository Path**: holaTomorrow/FindJobsApp ## Basic Information - **Project Name**: FindJobsApp - **Description**: python 爬取招聘信息 - 猎聘网 - boss直聘 - **Primary Language**: Unknown - **License**: Not specified - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 1 - **Created**: 2024-09-13 - **Last Updated**: 2024-12-02 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # Find Jobs APP 使用爬虫爬取职位信息 spider文件夹内为爬取文件,其中ipynb文件为调试用,Spider_网站名.py为正式的爬取文件 ![](figures/fig1.png) ![](figures/fig2.png) ## 实验题目 1. python环境的安装以及职位详情页链接爬取。 要求爬取的职位有:数据挖掘,图像算法工程师,java后端,互联网产品经理;每个职位工作地区至少有:北京,上海,深圳,广州,武汉,杭州。有兴趣的同学可以在url添加更多参数即添加更多筛选条件,比如行业,薪资等条件筛选出更精确的信息。最终每个职位要求至少爬取500个详情页链接 2. 爬取职位要求与数据清洗 将提取的职位要求存储到txt中,每个职位的职位要求以空行进行分割 对职位要求数据进行清洗,采取分词,特殊符号去除,停用词去除等步骤去除数据中对于当前职位要求无价值的信息 ### 加分项 1. 使用代理IP解决网站的反爬虫机制 2. 根据最终实验清洗出的数据做一下词云、柱状图,饼状图等,即让用户可以直观感受到相应职位的要求 3. 完善功能形成职位需求分析APP或网页版应用,允许用户随机选择职位、地区、薪资,行业等筛选条件,APP给出最终的词云、柱状图或饼状图分析结果 ## 爬取目标 Boss直聘,据说反爬技术很强 https://www.zhipin.com/wuhan/ 前程无忧 https://www.51job.com/ 猎聘网 https://www.liepin.com/zhaopin ## 第三方库 [request](https://requests.readthedocs.io/zh_CN/latest/user/quickstart.html) - request爬虫 [jieba](https://github.com/fxsjy/jieba) - jieba分词 [matplotlib](https://github.com/matplotlib/matplotlib) - 图像显示 [wordcloud](https://github.com/amueller/word_cloud) - 词云 [pandas](https://github.com/pandas-dev/pandas) - csv数据处理 ## 目录 ```shell . ├── docs │ └── data ├── figures ├── font └── spider └── data ``` ## MIT License 仅供学习参考,请勿抄袭