python 爬虫爬取快手短视频无水印视频解析最新版

要素过多建议收藏
首先打开复制的一个链接

发现复制直接打开到浏览器不行，不是我们想要的内容，

然后我们就复制这个里面的url部分打开浏览器就可以了

但是打开之后发现一些端倪，视频可以正常看，但是url变了不是原来的url了，

这里先暂且不管，后面再解释

首先先找到视频的url ，按照惯例，通常视频的url链接不会出现在网页源码中，一种可能是通过分段的视频文件动态加载再进行合成，这种方式常被用于长视频之类的，比如哔哩哔哩，腾讯视频等，快手这种短的几分钟的视频通常会把视频的url储存在json数据里面，当然哔哩哔哩也会有采用形式的视频，在之前项目中有遇到过，

进入正题：

首先打开抓包工具，刷新下页面

然后我们Ctrl + a 全选这段json

百度搜索json在线解析工具，复制这段json进行解析，方便查看

并且视频不带快手的水印

然后咱们先测试一下，看看使用代码请求这段url能不能回去视频内容

import requests
import os

if __name__ == '__main__':
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.183 Safari/537.36'
    }
    url = 'https://txmov2.a.yximgs.com/upic/2020/12/05/17/BMjAyMDEyMDUxNzAxMTFfMTQ1NDE4NzgxM180MDI1NjI3OTAyM18wXzM=_b_B74de4e1df453284acb277ef56374d4a3.mp4?tag=1-1607416509-xpcwebfeatured-0-tzrke3v4lu-b5aedf898d64de53&clientCacheKey=3xq8eqfzukc9ifa_b.mp4&tt=b&di=7b0d5dda&bp=10004'

    r = requests.get(url=url,headers=headers).content

    title_path = './快手'
    if not os.path.exists(title_path):
        os.mkdir(title_path)

    mp4name = 'test.mp4'
    mp4path = title_path + '/' + mp4name

    with open(mp4path,'wb') as fp:
        fp.write(r)

运行之后，打开文件夹发现可以播放，且无水印跟刚才一样

那么我们就知道啦，只要得到这个json数据，在提取出里面的url就可以下载无水印的视频了，

那么问题来了们如何获取这个json呢？往下看

打开抓包工机看这个headers观察看看

发现是个post请求，并且需要传递payload参数

那么我们是以下看看能不能通过post请求来获取我们需要的json数据

import requests
import os
import json

if __name__ == '__main__':
    # 注意请求头加上content-type
    headers = {
        'content-type': 'application/json',
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.183 Safari/537.36'
    }
    
    url = 'https://video.kuaishou.com/graphql'

    data = {"operationName":"visionVideoDetail","variables":{"photoId":"3xq8eqfzukc9ifa","page":"selected"},"query":"query visionVideoDetail($photoId: String, $type: String, $page: String) {\n  visionVideoDetail(photoId: $photoId, type: $type, page: $page) {\n    status\n    type\n    author {\n      id\n      name\n      following\n      headerUrl\n      __typename\n    }\n    photo {\n      id\n      duration\n      caption\n      likeCount\n      realLikeCount\n      coverUrl\n      photoUrl\n      liked\n      timestamp\n      expTag\n      llsid\n      __typename\n    }\n    tags {\n      type\n      name\n      __typename\n    }\n    commentLimit {\n      canAddComment\n      __typename\n    }\n    llsid\n    __typename\n  }\n}\n"}
    data1 = json.dumps(data)    # 这里是字典转成json字符串 因为payload参数接受的json格式的 不是字典格式的

    resp = requests.post(url=url,headers=headers,data=data1).json()
    print(resp)

运行之后发现可以获得我们需要的json数据

然后经过提取获得完整的url

然后我们发现，现在的问题是我们需要将每个data里面的photoid 换成我们想要提取的视频的id ，其他不变

就是这个东西

然后我们发现这个东西就是开始我们打开的复制过来的链接

那么我们回到了之前的问题怎么转成这个链接呢

我们再次复制打开啊发现这里有个小细节

请求头里的host是这样的，那么就意味着之前的短链接是通过post请求返回了长链接

那么我们试一下看看猜想是否成立

import requests
import re

if __name__ == '__main__':

    headers = {
        'Host': 'v.kuaishou.com',
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.183 Safari/537.36'
    }

    urlstr = '76买两条鲟鱼，大冬做红烧鲟鱼，先炸再炖，太香了 https://v.kuaishou.com/7ZPRRv 复制此消息，打开【快手】直接观看！'
    url = 'http' + re.findall(r'http(.*?)复制',urlstr)[0]

    r = requests.get(url=url,headers=headers).text
    find_true_url = 'http' + re.findall(r'<td>http(.*?)</td>',r)[0]
    true_url = find_true_url.replace('v.kuaishou.com','video.kuaishou.com')
    print(true_url)

结果如下：

那么就可以通过这个链接利用前面的步骤找到json数据，再找到视频url，再保存就大功告成了，
至此我们的分析就完成了
完整代码如下：

#!/usr/bin/env python
# -*- coding: utf-8 -*-
# @Time    : 2020/12/8 12:58
# @Author  : huni
# @File    : 快手视频爬取.py
# @Software: PyCharm
import requests
import os
import json
import re

if __name__ == '__main__':
    headers1 = {
        'Host': 'v.kuaishou.com',
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.183 Safari/537.36'
    }

    urlstr = input('输入视频链接:  ')
    url = 'http' + re.findall(r'http(.*?)复制',urlstr)[0]

    r = requests.get(url=url,headers=headers1).text
    find_true_url = 'http' + re.findall(r'<td>http(.*?)</td>',r)[0]
    true_url = find_true_url.replace('v.kuaishou.com','video.kuaishou.com')
    photoid = true_url.split('?')[-2].split('/')[-1]

    data = {"operationName": "visionVideoDetail", "variables": {"photoId": "", "page": "selected"},
        "query": "query visionVideoDetail($photoId: String, $type: String, $page: String) {\n  visionVideoDetail(photoId: $photoId, type: $type, page: $page) {\n    status\n    type\n    author {\n      id\n      name\n      following\n      headerUrl\n      __typename\n    }\n    photo {\n      id\n      duration\n      caption\n      likeCount\n      realLikeCount\n      coverUrl\n      photoUrl\n      liked\n      timestamp\n      expTag\n      llsid\n      __typename\n    }\n    tags {\n      type\n      name\n      __typename\n    }\n    commentLimit {\n      canAddComment\n      __typename\n    }\n    llsid\n    __typename\n  }\n}\n"}
    data["variables"]["photoId"] = photoid

    json_url = 'https://video.kuaishou.com/graphql'
    headers2 = {
            'content-type': 'application/json',
            'Host': 'video.kuaishou.com',
            'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.183 Safari/537.36'
        }
    data1 = json.dumps(data)
    resp = requests.post(url=json_url,headers=headers2,data=data1).json()
    mp4url = resp['data']['visionVideoDetail']['photo']['photoUrl']

    headers0 = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.183 Safari/537.36'
    }
    mp4data = requests.get(url=mp4url,headers=headers0).content

    mp4name = mp4url.split('?')[-2].split('_b_')[-1]
    title_path = './快手'
    if not os.path.exists(title_path):
        os.mkdir(title_path)
    mp4path = title_path + '/' + mp4name
    with open(mp4path,'wb') as fp:
        fp.write(mp4data)

本文地址：https://blog.csdn.net/m0_50944918/article/details/110875995

python 爬虫爬取快手短视频无水印视频解析最新版

相关推荐

Python网络爬虫实战案例之：7000本电子书下载（2）

python爬虫爬取笔趣网小说网站过程图解

scrapy爬虫如何爬取javascript内容

python使用selenium实现爬虫知乎

爬虫之header

快手Java一面11问（附参考答案）

【爬虫+数据清洗+可视化】用Python分析“淄博烧烤“的评论数据

python爬虫防止IP被封的一些措施(转)

python 爬虫 爬取快手短视频无水印视频解析最新版

相关推荐

Python网络爬虫实战案例之：7000本电子书下载（2）

python爬虫爬取笔趣网小说网站过程图解

scrapy爬虫如何爬取javascript内容

python使用selenium实现爬虫知乎

爬虫之header

快手Java一面11问（附参考答案）

【爬虫+数据清洗+可视化】用Python分析“淄博烧烤“的评论数据

python爬虫防止IP被封的一些措施(转)

python 爬虫爬取快手短视频无水印视频解析最新版