# web_mining_final

**Repository Path**: EmmaLui/web_mining_final

## Basic Information

- **Project Name**: web_mining_final
- **Description**: No description available
- **Primary Language**: Unknown
- **License**: Not specified
- **Default Branch**: master
- **Homepage**: None
- **GVP Project**: No

## Statistics

- **Stars**: 0
- **Forks**: 0
- **Created**: 2020-07-19
- **Last Updated**: 2020-12-19

## Categories & Tags

**Categories**: Uncategorized

**Tags**: None

## README

# web_mining_final

# 项目名称：一线城市新媒体运营人员竞争力
本项目产出按scrapy框架挖取猎聘网中关于新媒体运营人员在传统一线城市的各类数据，结合艾瑞咨询的[2020年疫情下的中国社交媒体价值分析报告](https://www.iresearch.com.cn/m/Detail/report.shtml?id=3590&isfree=0)，讨论在一线城市新媒体运营人员的竞争力

# 数据最小可用产品
得到传统一线城市新媒体运营人员的基本需求，如薪资，工作地点，学历要求等，为有意去往传统一线城市从事新媒体运营人员的群体提供一个可靠且集中的数据，结合艾瑞咨询的[2020年疫情下的中国社交媒体价值分析报告](https://www.iresearch.com.cn/m/Detail/report.shtml?id=3590&isfree=0)，再进行具体分析，到底有没有必要一定要去一线城市从事新媒体运营

# 结论
> 虽然在传统新一线城市从事新媒体运营人员从薪资上存在一定的竞争力，可是在疫情期间，下沉市场额外值得关注
![下沉市场](https://images.gitee.com/uploads/images/2020/0720/000629_02b5bb15_2232118.png "屏幕截图.png")

> 而微博用户的喜闻乐见的内容形式广泛，且不受地域影响，所以，我个人得出的结论是，新媒体运营人员大可前往传统一线城市吸取经验，了解行业发展规律，为自己吸收资源，然后下放下沉市场，利用新媒体行业不受地域限制的优势，关注下沉市场，为日后的职业规划作长远铺垫；同时也应该拓展自身的专业技能，做一个“全能型”的新媒体人，发展个人IP,有备无患
![内容形式](https://images.gitee.com/uploads/images/2020/0720/000739_363eb8e4_2232118.png "屏幕截图.png")

# 挖掘Query参数
|Query参数包括||
|---|---|
|1|Jobtitle 职称 |
|2| Salary 工资 |
|3| Area 地区 |
|4| AcademicDegree 学历 |
|5|Experience 经验 |
|6|Company 公司|

```
        allinfo=[]
        #以下是关于上海的循环
        headers = {
            'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3314.0 Safari/537.36 SE 2.X MetaSr 1.0'}
        for i in range(9):
            SHurl='https://www.liepin.com/zhaopin/?compkind=&dqs=020&pubTime=&pageSize=40&salary=&compTag=&sortFlag=15&degradeFlag=0&compIds=&subIndustry=&jobKind=&industries=&compscale=&key=%E6%96%B0%E5%AA%92%E4%BD%93%E8%BF%90%E8%90%A5&siTag=qkuPMtyyPWyGJLVm3Ykn1A%7Er3i1HcfrfE3VRWBaGW6LoA&d_sfrom=search_fp&d_ckId=c51a068c5cb658f7f4040175ba945596&d_curPage=2&d_pageSize=40&d_headId=4107d9372116a7333a50ba34629aa075&curPage={}'.format(i)
            response=requests.get(SHurl,headers=headers)
            # print(response.text)
            response=etree.HTML(response.text)
                                #//*[@id="sojob"]/div[3]/div/div[1]/div[1]/ul/li/div/div[1]
            divs=response.xpath('//*[@id="sojob"]/div[3]/div/div[1]/div[1]/ul/li/div')#div列表
            print(divs)
            for div in divs:
                Jobtitle = div.xpath('./div[1]/h3/a/text()')  # 工作标题
                Jobtitle = Jobtitle[0].replace('\r', '').replace('\n', '').replace('\t', '')
                Salary = div.xpath('./div[1]/p[1]/span[1]/text()')  # 薪资
                Area = div.xpath('./div[1]/p[1]/a/text()')  # 地区
                # print(Area)
                if Area != []:
                    AcademicDegree = div.xpath('./div[1]/p[1]/span[2]/text()')  # 学历
                    Experience = div.xpath('./div[1]/p[1]/span[3]/text()')  # 经验
                    Company = div.xpath('./div[2]/p/a/text()')  # 公司
                else:
                    Area = div.xpath('./div[1]/p[1]/span[2]/text()')  # 地区
                    AcademicDegree = div.xpath('./div[1]/p[1]/span[3]/text()')  # 学历
                    Experience = div.xpath('./div[1]/p[1]/span[4]/text()')  # 经验
                    Company = div.xpath('./div[2]/p/a/text()')  # 公司
                print(Jobtitle, Salary[0], Area[0], AcademicDegree[0], Experience[0], Company[0])
                allinfo.append([Jobtitle, Salary[0], Area[0], AcademicDegree[0], Experience[0], Company[0]])
```

# 思路方法及具体执行
1. 想想自己现掌握的代码技术以及已经爬取出来的数据
2. 确定主题
3. 去[艾瑞咨询](https://www.iresearch.com.cn)查找报告
4. 去各大招聘网网站尝试爬虫
5. 确定[猎聘网](https://www.liepin.com/city-gz/)
6. 爬取数据
7. 在excel简单清洗数据

# 心得总结及感谢
- 感谢石恒同学在代码和技术上面提供的帮助。
- 感谢[艾瑞咨询](https://www.iresearch.com.cn)提供的优秀报告
- 感谢廖汉腾主任和许智超老师的教导