Python爬取Boss直聘，帮你获取全国各类职业薪酬榜

前言

本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理。

作者：王翔清风python

ps：如有需要python学习资料的小伙伴可以加点击下方链接自行获取

爬虫面临的问题

不再是单纯的数据一把抓

多数的网站还是请求来了，一把将所有数据塞进去返回，但现在更多的网站使用数据的异步加载，爬虫不再像之前那么方便

很多人说js异步加载与数据解析，爬虫可以做到啊，恩是的，无非增加些工作量，那是你没遇到牛逼的前端，多数的解决办法只能靠渲染浏览器抓取，效率低下，接着往下走

千姿百态的登陆验证

从12306的说说下面哪个糖是奶糖，到现在各大网站的滑动拼图、汉子点击解锁，这些操作都是在为了阻止爬虫的自动化运行。

你说可以先登录了复制cookie，但cookie也有失效期吧？

反爬虫机制

何为反爬虫？犀利的解释网上到处搜，简单的逻辑我讲给你听。你几秒钟访问了我的网站一千次，不好意思，我把你的ip禁掉，一段时间你别来了。

很多人又说了，你也太菜了吧，不知道有爬虫ip代理池的开源项目ipproxys吗？那我就呵呵了，几个人真的现在用过免费的ip代理池，你去看看现在的免费代理池，有几个是可用的！

再说了，你通过ipproxys代理池，获取到可用的代理访问人家网站，人家网站不会用同样的办法查到可用的代理先一步封掉吗？然后你只能花钱去买付费的代理

数据源头封锁

平时大家看的什么爬爬豆瓣电影网站啊，收集下某宝评论啊....这些都是公开数据。但现在更多的数据逐步走向闭源化。数据的价值越来越大，没有数据获取的源头，爬虫面临什么问题？

上面说了一堆的爬虫这不好那不好，结果我今天发的文章确是爬虫的，自己打自己的脸？其实我只是想说说网站数据展示与分析的技巧...恰巧boss直聘就做的很不错。怎么不错？一点点分析...

数据共享

先来看一张图

我选择黑龙江省的大兴安岭，去看看那里有招聘python的没，多数系统查询不到数据就会给你提示未获取到相关数据，但boss直聘会悄悄地吧黑龙江省的python招聘信息给你显示处理，够鸡~贼。

数据限制

大兴安岭没有搞python的，那我们去全国看看吧：

这里差一点就把我坑了，我开始天真的以为，全国只有300条(一页30条，共10也)python招聘信息。然后我回过头去看西安的，也只有10页，然后想着修改下他的get请求parameters，没卵用。

这有啥用？仔细想...一方面可以做到放置咱们爬虫一下获取所有的数据，但这只是你自作多情，这东西是商机！

每天那么多的商家发布招聘信息，进入不了top100，别人想看都看不到你的消息，除非搜索名字。那么如何排名靠前？答案就是最后俩字，靠钱。你是boss直聘的会员，你发布的就会靠前....

偷换概念

依旧先看图：

我搜索的是ruby，你资料不够，其他来凑....

ip解析

老套路，再来看一张图：

boss直聘的服务器里，留着我的痕迹，多么骄傲的事情啊。你们想不想和我一样？只需要3秒钟.... 三秒钟内你的访问量能超过1000，妥妥被封！

那么我们该怎么办

设置不同的user-agent

使用pip install fake-useragent安装后获取多种user-agent，但其实本地保存上几十个，完全够了....

不要太夯（大力）

适当的减慢你的速度，别人不会觉得是你菜....别觉得一秒爬几千比一秒爬几百的人牛逼（快枪手子弹打完的早....不算开车吧？）。

购买付费的代理

为什么我跳过了说免费的代理？因为现在搞爬虫的人太多了，免费的基本早就列入各大网站的黑名单了。

所以解析到的原始数据如下：

先来看看python的薪酬榜：

看一下西安的排位，薪资平均真的好低.....

代码

  1 import requests
  2 from bs4 import beautifulsoup
  3 import csv
  4 import random
  5 import time
  6 import argparse
  7 from pyecharts.charts import line
  8 import pandas as pd
  9 
 10 
 11 class bosscrawler:
 12     def __init__(self, query):
 13 
 14         self.query = query
 15         self.filename = 'boss_info_%s.csv' % self.query
 16         self.city_code_list = self.get_city()
 17         self.boss_info_list = []
 18         self.csv_header = ["city", "profession", "salary", "company"]
 19 
 20     @staticmethod
 21     def getheaders():
 22         user_list = [
 23             "opera/9.80 (x11; linux i686; ubuntu/14.10) presto/2.12.388 version/12.16",
 24             "opera/9.80 (windows nt 6.0) presto/2.12.388 version/12.14",
 25             "mozilla/5.0 (windows nt 6.0; rv:2.0) gecko/20100101 firefox/4.0 opera 12.14",
 26             "mozilla/5.0 (compatible; msie 9.0; windows nt 6.0) opera 12.14",
 27             "opera/12.80 (windows nt 5.1; u; en) presto/2.10.289 version/12.02",
 28             "opera/9.80 (windows nt 6.1; u; es-es) presto/2.9.181 version/12.00",
 29             "opera/9.80 (windows nt 5.1; u; zh-sg) presto/2.9.181 version/12.00",
 30             "opera/12.0(windows nt 5.2;u;en)presto/22.9.168 version/12.00",
 31             "opera/12.0(windows nt 5.1;u;en)presto/22.9.168 version/12.00",
 32             "mozilla/5.0 (windows nt 5.1) gecko/20100101 firefox/14.0 opera/12.0",
 33             "opera/9.80 (windows nt 6.1; wow64; u; pt) presto/2.10.229 version/11.62",
 34             "opera/9.80 (windows nt 6.0; u; pl) presto/2.10.229 version/11.62",
 35             "opera/9.80 (macintosh; intel mac os x 10.6.8; u; fr) presto/2.9.168 version/11.52",
 36             "opera/9.80 (macintosh; intel mac os x 10.6.8; u; de) presto/2.9.168 version/11.52",
 37             "opera/9.80 (windows nt 5.1; u; en) presto/2.9.168 version/11.51",
 38             "mozilla/5.0 (compatible; msie 9.0; windows nt 6.1; de) opera 11.51",
 39             "opera/9.80 (x11; linux x86_64; u; fr) presto/2.9.168 version/11.50",
 40             "opera/9.80 (x11; linux i686; u; hu) presto/2.9.168 version/11.50",
 41             "opera/9.80 (x11; linux i686; u; ru) presto/2.8.131 version/11.11",
 42             "opera/9.80 (x11; linux i686; u; es-es) presto/2.8.131 version/11.11",
 43             "mozilla/5.0 (windows nt 5.1; u; en; rv:1.8.1) gecko/20061208 firefox/5.0 opera 11.11",
 44             "opera/9.80 (x11; linux x86_64; u; bg) presto/2.8.131 version/11.10",
 45             "opera/9.80 (windows nt 6.0; u; en) presto/2.8.99 version/11.10",
 46             "opera/9.80 (windows nt 5.1; u; zh-tw) presto/2.8.131 version/11.10",
 47             "opera/9.80 (windows nt 6.1; opera tablet/15165; u; en) presto/2.8.149 version/11.1",
 48             "opera/9.80 (x11; linux x86_64; u; ubuntu/10.10 (maverick); pl) presto/2.7.62 version/11.01",
 49             "opera/9.80 (x11; linux i686; u; ja) presto/2.7.62 version/11.01",
 50             "opera/9.80 (x11; linux i686; u; fr) presto/2.7.62 version/11.01",
 51             "opera/9.80 (windows nt 6.1; u; zh-tw) presto/2.7.62 version/11.01",
 52             "opera/9.80 (windows nt 6.1; u; zh-cn) presto/2.7.62 version/11.01",
 53             "opera/9.80 (windows nt 6.1; u; sv) presto/2.7.62 version/11.01",
 54             "opera/9.80 (windows nt 6.1; u; en-us) presto/2.7.62 version/11.01",
 55             "opera/9.80 (windows nt 6.1; u; cs) presto/2.7.62 version/11.01",
 56             "opera/9.80 (windows nt 6.0; u; pl) presto/2.7.62 version/11.01",
 57             "opera/9.80 (windows nt 5.2; u; ru) presto/2.7.62 version/11.01",
 58             "opera/9.80 (windows nt 5.1; u;) presto/2.7.62 version/11.01",
 59             "opera/9.80 (windows nt 5.1; u; cs) presto/2.7.62 version/11.01",
 60             "mozilla/5.0 (windows nt 6.1; u; nl; rv:1.9.1.6) gecko/20091201 firefox/3.5.6 opera 11.01",
 61             "mozilla/5.0 (windows nt 6.1; u; de; rv:1.9.1.6) gecko/20091201 firefox/3.5.6 opera 11.01",
 62             "mozilla/4.0 (compatible; msie 8.0; windows nt 6.1; de) opera 11.01",
 63             "opera/9.80 (x11; linux x86_64; u; pl) presto/2.7.62 version/11.00",
 64             "opera/9.80 (x11; linux i686; u; it) presto/2.7.62 version/11.00",
 65             "opera/9.80 (windows nt 6.1; u; zh-cn) presto/2.6.37 version/11.00",
 66             "opera/9.80 (windows nt 6.1; u; pl) presto/2.7.62 version/11.00",
 67             "opera/9.80 (windows nt 6.1; u; ko) presto/2.7.62 version/11.00",
 68             "opera/9.80 (windows nt 6.1; u; fi) presto/2.7.62 version/11.00",
 69             "opera/9.80 (windows nt 6.1; u; en-gb) presto/2.7.62 version/11.00",
 70             "opera/9.80 (windows nt 6.1 x64; u; en) presto/2.7.62 version/11.00",
 71             "opera/9.80 (windows nt 6.0; u; en) presto/2.7.39 version/11.00"
 72         ]
 73         user_agent = random.choice(user_list)
 74         headers = {'user-agent': user_agent}
 75         return headers
 76 
 77     def get_city(self):
 78         headers = self.getheaders()
 79         r = requests.get("http://www.zhipin.com/wapi/zpcommon/data/city.json", headers=headers)
 80         data = r.json()
 81         return [city['code'] for city in data['zpdata']['hotcitylist'][1:]]
 82 
 83     def get_response(self, url, params=none):
 84         headers = self.getheaders()
 85         r = requests.get(url, headers=headers, params=params)
 86         r.encoding = 'utf-8'
 87         soup = beautifulsoup(r.text, "lxml")
 88         return soup
 89 
 90     def get_url(self):
 91         for city_code in self.city_code_list:
 92             url = "https://www.zhipin.com/c%s/" % city_code
 93             self.per_page_info(url)
 94             time.sleep(10)
 95 
 96     def per_page_info(self, url):
 97         for page_num in range(1, 11):
 98             params = {"query": self.query, "page": page_num}
 99             soup = self.get_response(url, params)
100             lines = soup.find('div', class_='job-list').select('ul > li')
101             if not lines:
102                 # 代表没有数据了，换下一个城市
103                 return
104             for line in lines:
105                 info_primary = line.find('div', class_="info-primary")
106                 city = info_primary.find('p').text.split(' ')[0]
107                 job = info_primary.find('div', class_="job-title").text
108                 # 过滤答非所谓的招聘信息
109                 if self.query.lower() not in job.lower():
110                     continue
111                 salary = info_primary.find('span', class_="red").text.split('-')[0].replace('k', '')
112                 company = line.find('div', class_="info-company").find('a').text.lower()
113                 result = dict(zip(self.csv_header, [city, job, salary, company]))
114                 print(result)
115                 self.boss_info_list.append(result)
116 
117     def write_result(self):
118         with open(self.filename, "w+", encoding='utf-8', newline='') as f:
119             f_csv = csv.dictwriter(f, self.csv_header)
120             f_csv.writeheader()
121             f_csv.writerows(self.boss_info_list)
122 
123     def read_csv(self):
124         data = pd.read_csv(self.filename, sep=",", header=0)
125         data.groupby('city').mean()['salary'].to_frame('salary').reset_index().sort_values('salary', ascending=false)
126         result = data.groupby('city').apply(lambda x: x.mean()).round(1)['salary'].to_frame(
127             'salary').reset_index().sort_values('salary', ascending=false)
128         print(result)
129         charts_bar = (
130             line()
131                 .set_global_opts(
132                 title_opts={"text": "全国%s薪酬榜" % self.query})
133                 .add_xaxis(result.city.values.tolist())
134                 .add_yaxis("salary", result.salary.values.tolist())
135         )
136         charts_bar.render('%s.html' % self.query)
137 
138 
139 if __name__ == '__main__':
140     parser = argparse.argumentparser()
141     parser.add_argument("-k", "--keyword", help="请填写所需查询的关键字")
142     args = parser.parse_args()
143     if not args.keyword:
144         print(parser.print_help())
145     else:
146         main = bosscrawler(args.keyword)
147         main.get_url()
148         main.write_result()
149         main.read_csv()

Python爬取Boss直聘，帮你获取全国各类职业薪酬榜

前言

爬虫面临的问题

那么我们该怎么办

代码

相关推荐

获取了文心一言的内测及与其ChatGPT、GPT-4 对比结果

Python获取系统当前时间并进行类型转换

Python获取jsonp数据

【转】C#获取电脑客户端IP地址及当前用户名

获取电脑的网络连接状态（三）Ping

Android 关于获取摄像头帧数据解码

android自动获取短信验证码

PC端使用opencv获取webcam，通过socket把Mat图像传输到android手机端