[Python爬虫] Selenium爬取新浪微博客户端用户信息、热点话题及评论 (上)

转载自:http://blog.csdn.net/eastmount/article/details/51231852

一. 文章介绍

源码下载地址：http://download.csdn.net/detail/eastmount/9501273
前一篇文章"[python爬虫] Selenium爬取新浪微博内容及用户信息"简单讲述了如何爬取新浪微博手机端用户信息和微博信息。
用户信息：包括用户ID、用户名、微博数、粉丝数、关注数等。
微博信息：包括转发或原创、点赞数、转发数、评论数、发布时间、微博内容等。

它主要通过从文本txt中读取用户id，通过"URL+用户ID" 访问个人网站，如柳岩：
http://weibo.cn/guangxianliuya
因为手机端数据相对精简简单，所以采用输入用户的形式依次爬取各个明星的信息。
而这篇文章主要爬取客户端的微博信息，相对信息更多；同时登录微博后在输入框中搜索热点话题，然后依次爬取微博信息和对应的评论。这篇文章的输出如下图所示：

PS：注意这篇文章爬取微博内容和评论的时候，由于它是动态加载的，故爬取失败，但思考可以参考。后面下篇会进行解决，如果实在不行只能爬取手机端的信息了。

二. 核心代码

这篇文章打算先给出完整代码，再进行讲解的方法：
1.LoginWeibo(username, password) 登录微博，自动输入用户名和密码
2.VisitPersonPage(user_id) 访问跟人网站，获取个人信息，通过如下网址访问柳岩：
http://weibo.cn/guangxianliuyan
3.GetComment(key) 获取微博信息及评论信息，获取输入框按钮进行搜索
获取微博内容评论是注意翻页功能

PS：后面是具体的实现过程分析讲解，如果你只需要代码，上面就是所有完整代码，但建议也看看后面的分析过程，虽然是傻瓜式爬虫，但至少能用，而且方法类似。

三. 登录入口

新浪微博登录常用接口：http://login.sina.com.cn/
对应主界面：http://weibo.com/
但是个人建议采用手机端微博入口：http://login.weibo.cn/login/
对应主界面：http://weibo.cn/
通过比较下面两张图，分别是PC端和手机端，可以发现内容基本一致：

手机端下图所示，其中图片相对更小，同时内容更精简。

四. 分析-登录微博LoginWeibo

登录过程如下图所示，先通过函数获取用户名、密码、登录按钮结点，然后再自动输入信息并登录。如果需要输入验证码，也可以在手动输入。

对应源码：

分析网页结点如下图所示：

核心代码：
elem_user = driver.find_element_by_name("username")
elem_user.send_keys(username) #用户名
elem_pwd = driver.find_element_by_name("password")
elem_pwd.send_keys(password) #密码
elem_sub = driver.find_element_by_xpath("//input[@class='smb_btn']")
elem_sub.click() #点击登陆

登录后跳转到下面页面：

五. 分析-爬取用户个人信息VisitPersonPage

通过URL+用户ID的形式访问信息，访问页面如下图所示：

代码如下所示：

其中SinaWeibo_List_best_1.txt中仅包含两个用户id的情况：

该部分输出如下图所示：

分析页面DOM树结构如下图所示：

同时这里只获取简单的信息，详细信息还可以自动点击"查看更多"进行获取：

六. 分析-爬取微博和评论信息GetComment

该部分代码如下：

通过访问该URL进行热点搜索：http://s.weibo.com/

再通过核定代码输入主题如“欢乐颂”并点击回车键，分析节点方法与前面类似：
item_inp = driver.find_element_by_xpath("//input[@class='searchInp_form']")
item_inp.send_keys(key)
item_inp.send_keys(Keys.RETURN) #采用点击回车直接搜索

自动返回搜索结果如下图所示：

分析DOM树结构如下，右键浏览器"审查元素"：

分析具体的信息如下所示：

但爬取博客过程中，总显示空值，不知道为什么，怀疑是动态加载的。
content = driver.find_elements_by_xpath("//div[@class='content clearfix']/div/p")
content = driver.find_elements_by_xpath("//p[@class='comment_txt']")

评论信息需要点击"评论1897"才能进行加载：

对应源码如下所示，它是动态进行加载的：

如图，审查元素点击"评论"可以发现它是通过JavaScript加载，这就比较头疼了。

PS：最后希望文章对你有所帮助！其实方法很简单，希望你能理解这种思想，如何分析HTML源码及DOM树结构，然后动态获取自己需要的信息。
关于如何动态爬取评论部分我还在研究当中，实在不行可能只能通过手机端进行爬取了。同时因为最近太忙，只能写写这种效率很低的傻瓜式爬虫，后面毕业了会深入研究爬虫知识。但至少代码能运行，可以爬取信息，当前阶段就非常不错了。不喜勿喷，加油~

记录一段可运行代码，帮娜姐爬取数据使用，注意需要手动填写验证码：

(By:Eastmount 2016-04-24 早上7点半 http://blog.csdn.net/eastmount/ )

[Python爬虫] Selenium爬取新浪微博客户端用户信息、热点话题及评论 (上)

转载自:http://blog.csdn.net/eastmount/article/details/51231852

一. 文章介绍

二. 核心代码

三. 登录入口

四. 分析-登录微博LoginWeibo

五. 分析-爬取用户个人信息VisitPersonPage

六. 分析-爬取微博和评论信息GetComment

[Python爬虫] Selenium爬取新浪微博客户端用户信息、热点话题及评论 (上)的相关教程结束。

相关推荐

Python网络爬虫实战案例之：7000本电子书下载（2）

python爬虫爬取笔趣网小说网站过程图解

scrapy爬虫如何爬取javascript内容

python使用selenium实现爬虫知乎

爬虫之header

【爬虫+数据清洗+可视化】用Python分析“淄博烧烤“的评论数据

python爬虫防止IP被封的一些措施(转)

python利用urllib实现的爬取京东网站商品图片的爬虫