手把手教你写基于C++ Winsock的图片下载的网络爬虫

手把手教你写基于C++ Winsock的图片下载的网络爬虫

先来说一下主要的技术点：

1. 输入起始网址，使用ssacnf函数解析出主机号和路径(仅处理http协议网址)

2. 使用socket套接字连接服务器，，获取网页html代码（使用http协议的GET请求），然后使用正则表达式解析出图片url和其他的url。

3. 下载图片至创建的文件夹中，同时其他的url push进队列。

4. 为了使爬虫能够连续的工作，这里使用了BFS宽度优先搜索，也就是说一开始输入的网址作为起始网址，push进队列，然后把能解析出来的网址在不重复的情况下都push进队列，每次取队列的top来执行下载操作，直到队列为空时终止。

下面附上技术点的学习资料供参考：

ssanf函数的用法：

http://www.cnblogs.com/mycapple/archive/2012/08/03/2621681.html

C++11正则表达式

http://blog.sina.com.cn/s/blog_ac9fdc0b0101oow9.html

http协议：

http://www.ucai.cn/course/show/234

Socket编程：

http://blog.csdn.net/nk_test/article/details/47756381

http://blog.csdn.net/nk_test/article/details/47733307

另外，这个小爬虫结构简陋，还存在很多不足，例如队列中的url太多会爆内存，正则表达式匹配不够准确等，仅仅适合大家学习的时候练手哈。也欢迎大家发现bug，给出好的建议。

效果图：

手把手教你写基于C++ Winsock的图片下载的网络爬虫的相关教程结束。

《手把手教你写基于C++ Winsock的图片下载的网络爬虫.doc》

下载本文的Word格式文档，以方便收藏与打印。

相关推荐

Python网络爬虫实战案例之：7000本电子书下载（2）

一、前言本文是《Python开发实战案例之网络爬虫》的第二部分：7000本电子书下载网络爬虫开发环境安装部署。配套视频课程详见51CTO学院。二、章节目录（1）Python开发环境依赖（2）Python依赖程序安装（3）Requ...
2024-03-14编程代码00,000,python,爬虫
python爬虫爬取笔趣网小说网站过程图解

首先：文章用到的解析库介绍 BeautifulSoup： Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱，通过解析文档为用户提供需要抓取的数据，因为简单，所以不...
2023-10-28编程代码python,爬取,爬虫
scrapy爬虫如何爬取javascript内容

本篇文章给大家分享的是有关scrapy爬虫如何爬取javascript内容，小编觉得挺实用的，因此分享给大家学习，希望大家阅读完这篇文章后可以有所收获，话不多说，跟着小编一起来看看吧。很多网站都使用javascript......
2023-10-27编程代码javascript,scrapy,爬虫
python使用selenium实现爬虫知乎

本篇文章为大家展示了python使用selenium实现爬虫知乎，内容简明扼要并且容易理解，绝对能使你眼前一亮，通过这篇文章的详细介绍希望你能有所收获。说起爬虫一般想到的情况是，使用 python 中都通过 requests 库...
2023-10-27编程代码python,selenium,爬虫
爬虫之header

有些网站不会同意程序直接用上面的方式进行访问，如果识别有问题，那么站点根本不会响应，所以为了完全模拟浏览器的工作，我们需要设置一些Headers 的属性。首先，打开我们的浏览器，调试浏览器F12，我用的是Chr...
2023-10-27编程代码header,python,爬虫
手把手教你如何在 Linux 上源码安装最新版本 R

如果你使用的 Linux 系统 GCC 版本太低，又没有 root 权限（即使有 root 权限又担心升级 GCC 带来的风险）；同时你又不想额外多安装多一个 Anaconda 或者 Miniconda，但是你又希望安装一个最新版本的 R，那么恭...
2023-07-31编程代码手把手教你,最新版本,源码
【爬虫+数据清洗+可视化】用Python分析“淄博烧烤“的评论数据

目录一、背景介绍二、爬虫代码 2.1 展示爬取结果 2.2 爬虫代码讲解三、可视化代码 3.1 读取数据 3.2 数据清洗 3.3 可视化 3.3.1 IP属地分析-柱形图 3.3.2 评论时间分析-折线图 3.3.3 点赞数分布-箱线图 3.3.4 ...
2023-07-29编程代码数据,淄博,爬虫
python爬虫防止IP被封的一些措施(转)

python爬虫防止IP被封的一些措施(转) 在编写爬虫爬取数据的时候，因为很多网站都有反爬虫措施，所以很容易被封IP，就不能继续爬了。在爬取大数据量的数据时更是瑟瑟发抖，时刻担心着下一秒IP可能就被封了。本文...
2023-07-29编程代码python,措施,爬虫