selenium部分总结

最近写了一个selenium自动化脚本. 基于此总结一些常用的代码

1. 用户输入换行符不终止输入

strings = ''

s = input('请输入：(q停止输入)')

while s != 'q':  # 此处可自行设置

    strings = strings + s + '\n'

    s = input()

"""

输入:

B07RW2M73Y

B0943TBH7K

B08NVVWXYL

B0B3STVYGY

B07FT1HSZB

B0BPWYR45Z

B0BDYT8HQ7

q

"""

2.操作stealth.min.js文件隐藏浏览器指纹特征. 避免google反爬

下载stealth.min.js文件

https://gitcode.net/mirrors/requireCool/stealth.min.js/-/blob/main/stealth.min.js

添加到程序中

web = Chrome()

# 读取文件

with open('stealth.min.js', 'r') as f:

js = f.read()

# 调用函数在页面加载前执行脚本

web.execute_cdp_cmd('Page.addScriptToEvaluateOnNewDocument', {'source': js})

web.get(url)

3.显示等待

使用场景: 当不确定页面标签什么时候加载出来. 设置太长的睡眠时间又太浪费. 这时候就可以设置显示等待. 等待标签出现. 立刻进行下一步操作

# 显示等待, timeout=120, 每0.5秒检查一次标签是否存在

WebDriverWait(web, 120, 0.5).until(

    # 条件：直到元素加载完成

    EC.presence_of_element_located((By.XPATH,     				       '/html/body/div[1]/div[1]/div[2]/header/div[1]/nav/ul/ul/li[2]/a'))

).click()

4.封装了一个判断页面标签是否存在的函数

def isElementPresent(web, path):

    """

    用来判断元素标签是否存在，

    """

    try:

        web.find_element(By.XPATH, path)

    # 原文是except NoSuchElementException, e:

    except NoSuchElementException as e:

        # 发生了NoSuchElementException异常，说明页面中未找到该元素，返回False

        return False

    else:

        return True

5. selenium执行js代码

# js点击export

js= """

document.evaluate('/html/body/div[1]/div[2]/div[1]/div[2]/div/div[2]/div/div[2]/div[1]/div[2]/div[2]/div/button', document).iterateNext().click()

"""

web.execute_script(js)

time.sleep(3)

# 清空输入框内容

clear_js = """

const parentElement = document.querySelector('#re-container > div.sc-iYosqi.bzA-dlM > div.sc-JOToA.jJhRrE > div.sc-eSnCNH.enpqfV > div > form > div.sc-dAsQPr.bYouva > div > div'); // 选择父级元素

const spanElements = parentElement.querySelectorAll('#re-container > div.sc-iYosqi.bzA-dlM > div.sc-JOToA.jJhRrE > div.sc-eSnCNH.enpqfV > div > form > div.sc-dAsQPr.bYouva > div > div > span'); // 选择所有的 <span> 子元素

spanElements.forEach(spanElement => {

	parentElement.removeChild(spanElement); // 删除每一个 <span> 子元素

});

"""

web.execute_script(clear_js)

6. 配置无头浏览器

chrome_options = Options()

chrome_options.add_argument('--no-sandbox')

chrome_options.add_argument('--disable-dev-shm-usage')

chrome_options.add_argument('--headless')

web = Chrome(chrome_options=chrome_options)

7. 图鉴打码(0.002元一次)

# 一、图片文字类型(默认 3 数英混合)：

# 1 : 纯数字

# 1001：纯数字2

# 2 : 纯英文

# 1002：纯英文2

# 3 : 数英混合

# 1003：数英混合2

#  4 : 闪动GIF

# 7 : 无感学习(独家)

# 11 : 计算题

# 1005:  快速计算题

# 16 : 汉字

# 32 : 通用文字识别(证件、单据)

# 66:  问答题

# 49 :recaptcha图片识别

# 二、图片旋转角度类型：

# 29 :  旋转类型

#

# 三、图片坐标点选类型：

# 19 :  1个坐标

# 20 :  3个坐标

# 21 :  3 ~ 5个坐标

# 22 :  5 ~ 8个坐标

# 27 :  1 ~ 4个坐标

# 48 : 轨迹类型

#

# 四、缺口识别

# 18 : 缺口识别（需要2张图 一张目标图一张缺口图）

# 33 : 单缺口识别（返回X轴坐标 只需要1张图）

# 五、拼图识别

# 53：拼图识别

def base64_api(uname, pwd, img, typeid):

    with open(img, 'rb') as f:

        base64_data = base64.b64encode(f.read())  # read()字节 => b64字符串

        b64 = base64_data.decode()  # b64字符串是图片

    data = {"username": uname, "password": pwd, "typeid": typeid, "image": b64}

    result = json.loads(requests.post("http://api.ttshitu.com/predict", json=data).text)

    if result['success']:

        return result["data"]["result"]

    else:

        return result["message"]

result = base64_api(uname='ifeng', pwd='xxxxxx', img="check.png", typeid=1)

print(result)  # 验证码

8. selenium部署到服务器上定时运行

先写一个执行的脚本book.sh

source /envs/day06/bin/activate  # 打开linux的python虚拟环境

python /root/order-trading-platform/script/test.py

deactivate  # 关闭虚拟环境

为该脚本添加权限

chmod +x book.sh

在crontab指定该脚本

先进入crontab编辑

crontab -e

添加定时任务: 每天六点执行book.sh

0 6 * * * /root/order-trading-platform/script/book.sh

selenium部分知识点总结

selenium部分总结

1. 用户输入换行符不终止输入

2.操作stealth.min.js文件隐藏浏览器指纹特征. 避免google反爬

3.显示等待

4.封装了一个判断页面标签是否存在的函数

5. selenium执行js代码

6. 配置无头浏览器

7. 图鉴打码(0.002元一次)

8. selenium部署到服务器上定时运行

selenium部分知识点总结的相关教程结束。

相关推荐

Selenium怎么处理页面跳转和重定向

Selenium怎么模拟页面刷新和重新加载

Selenium怎么处理页面布局和样式问题

Python中Selenium对Cookie的使用方式

怎么在Python中利用Selenium XPath实现根据文本内容查找元素

Script标签中的的json数据怎么利用Selenium和BeautifulSoup进行获取

python爬虫中selenium怎么登录微博

python爬虫中requests和selenium有什么区别