百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术分类 > 正文

python爬虫09 | 上来,自己动!这就是 selenium 的牛逼之处

ztj100 2025-05-22 14:58 8 浏览 0 评论

作为一个男人

在最高光的时刻

就是说出那句

之后

还不会被人打

...

虽然在现实生活中你无法这样

但是在这里

就让你体验一番

那种呼风唤雨的感觉

我们之前在爬取某些网站的时候

使用到了一些 python 的请求库

模拟浏览器的请求

我们需要抓包啥的

能不能不这样

可不可以就写几行代码

让它自己去打开浏览器

自己去请求我们要爬取的网站

自己去模拟我们的一些搜索

等等

反正就是

老子躺着,让它自己动

躺好

让 selenium 满足你的要求

怎么玩呢?

那么接下里就是

学习 python 的正确姿势

什么是 selenium ?

其实它就是一个自动化测试工具,支持各种主流的浏览器

直到遇到了 python

转身一变

selenium 变成了爬虫利器

我们先来安装一下

pip install selenium

接着我们还要下载浏览器驱动

小帅b用的是 Chrome 浏览器

所以下载的是 Chrome 驱动

当然你用别的浏览器也阔以

去相应的地方下载就行了

Chrome:https://sites.google.com/a/chromium.org/chromedriver/downloadsEdge:https://developer.microsoft.com/en-us/microsoft-edge/tools/webdriver/Firefox:https://github.com/mozilla/geckodriver/releasesSafari:https://webkit.org/blog/6900/webdriver-support-in-safari-10/

下载完之后

要配置一下环境变量

接着打开 pycharm

撸点代码

from selenium import webdriver
driver = webdriver.Chrome()
driver.get("https://www.baidu.com")
input = driver.find_element_by_css_selector('#kw')
input.send_keys("苍老师照片")
button = driver.find_element_by_css_selector('#su')
button.click()

运行一下

可以看到

它自己打开了 Chrome 浏览器

访问了百度

搜索了苍老师的照片

这就是 selenium 的魅力

我们来看下我们刚刚写的代码

我们导入了 web 驱动模块

from selenium import webdriver

接着我们创建了一个 Chrome 驱动

driver = webdriver.Chrome()

有了实例之后

相当于我们有了 Chrome 浏览器了

接着使用 get 方法打开百度

driver.get("https://www.baidu.com")

打开百度之后

我们获取到输入框

至于怎么获取

等等会讲

获取到输入框之后我们就往里面写入我们要搜索的内容

input = driver.find_element_by_css_selector('#kw')
input.send_keys("苍老师照片")

输入完了之后呢

我们就获取到搜索这个按钮

然后点击

button = driver.find_element_by_css_selector('#su')
button.click()

就这样完成了一次自动的百度搜索

当我们使用驱动打开了一个页面

这时候其实没什么鸟用

因为我们要对那些元素进行操作

就像刚刚我们要获取输入框然后输入一些内容

还有获取按钮点击什么的

selenium 提供了挺多方法给我们获取的

当我们要在页面中获取一个元素的时候

可以使用这些方法

  • find_element_by_id
  • find_element_by_name
  • find_element_by_xpath
  • find_element_by_link_text
  • find_element_by_partial_link_text
  • find_element_by_tag_name
  • find_element_by_class_name
  • find_element_by_css_selector

想要在页面获取多个元素呢

就可以这样

  • find_elements_by_name
  • find_elements_by_xpath
  • find_elements_by_link_text
  • find_elements_by_partial_link_text
  • find_elements_by_tag_name
  • find_elements_by_class_name
  • find_elements_by_css_selector

比如我们打开了一个页面

是这样的 HTML

<html>
 <body>
  <form id="loginForm">
   <input name="username" type="text" />
   <input name="password" type="password" />
   <input class="login" name="continue" type="submit" value="Login" />
  </form>
 </body>
<html>

可以通过 id 获取 form 表单

login_form = driver.find_element_by_id('loginForm')

通过 name 获取相应的输入框

username = driver.find_element_by_name('username')
password = driver.find_element_by_name('password')

通过 xpath 获取表单

login_form = driver.find_element_by_xpath("/html/body/form[1]")
login_form = driver.find_element_by_xpath("//form[1]")
login_form = driver.find_element_by_xpath("//form[@id='loginForm']")

通过标签获取相应的输入框

input1 = driver.find_element_by_tag_name('input')

通过 class 获取相应的元素

login = driver.find_element_by_class_name('login')

用 Chrome 浏览器的审核元素

可以很方便获取相应的属性

直接 copy 就完事了

如果你觉得

find_element_by_xxx_xxx

太长了

那么你还可以这样

driver.find_elements(By.ID, 'xxx')

By.属性和上面的是一样的

ID = "id"
XPATH = "xpath"
LINK_TEXT = "link text"
PARTIAL_LINK_TEXT = "partial link text"
NAME = "name"
TAG_NAME = "tag name"
CLASS_NAME = "class name"
CSS_SELECTOR = "css selector"

当然

我们玩的是爬虫

要的就是源代码

我们已经知道

通过

driver = webdriver.Chrome()

可以拿到浏览器对象

那么要获取源代码还不简单么?

获取请求链接

driver.current_url

获取 cookies

driver.get_cookies()

获取源代码

driver.page_source

获取文本的值

input.text

ok

以上就是 selenium 的常用方法

想要了解更多相关 selenium 的可以到官方文档查看

https://selenium-python.readthedocs.io/

下一次

小帅b将带你使用它来爬取网站

本篇完

再见

近期文章

python爬虫08 | 第二个爬虫,爬取豆瓣最受欢迎的250部电影慢慢看

python爬虫07 | 有了BeautifulSoup,妈妈不担心我的正则表达式

关注我呀!!!

学习 Python 没烦恼

坚持原创

给小帅b来个赞!!!

相关推荐

拒绝躺平,如何使用AOP的环绕通知实现分布式锁

如何在分布式环境下,像用synchronized关键字那样使用分布式锁。比如开发一个注解,叫@DistributionLock,作用于一个方法函数上,每次调方法前加锁,调完之后自动释放锁。可以利用Sp...

「解锁新姿势」 兄dei,你代码需要优化了

前言在我们平常开发过程中,由于项目时间紧张,代码可以用就好,往往会忽视代码的质量问题。甚至有些复制粘贴过来,不加以整理规范。往往导致项目后期难以维护,更别说后续接手项目的人。所以啊,我们要编写出优雅的...

消息队列核心面试点讲解(消息队列面试题)

Rocketmq消息不丢失一、前言RocketMQ可以理解成一个特殊的存储系统,这个存储系统特殊之处数据是一般只会被使用一次,这种情况下,如何保证这个被消费一次的消息不丢失是非常重要的。本文将分析Ro...

秒杀系统—4.第二版升级优化的技术文档二

大纲7.秒杀系统的秒杀活动服务实现...

SpringBoot JPA动态查询与Specification详解:从基础到高级实战

一、JPA动态查询概述1.1什么是动态查询动态查询是指根据运行时条件构建的查询,与静态查询(如@Query注解或命名查询)相对。在业务系统中,80%的查询需求都是动态的,例如电商系统中的商品筛选、订...

Java常用工具类技术文档(java常用工具类技术文档有哪些)

一、概述Java工具类(UtilityClasses)是封装了通用功能的静态方法集合,能够简化代码、提高开发效率。本文整理Java原生及常用第三方库(如ApacheCommons、GoogleG...

Guava 之Joiner 拼接字符串和Map(字符串拼接join的用法)

Guave是一个强大的的工具集合,今天给大家介绍一下,常用的拼接字符串的方法,当然JDK也有方便的拼接字符串的方式,本文主要介绍guava的,可以对比使用基本的拼接的话可以如下操作...

SpringBoot怎么整合Redis,监听Key过期事件?

一、修改Redis配置文件1、在Redis的安装目录2、找到redis.windows.conf文件,搜索“notify-keyspace-events”...

如何使用Python将多个excel文件数据快速汇总?

在数据分析和处理的过程中,Excel文件是我们经常会遇到的数据格式之一。本文将通过一个具体的示例,展示如何使用Python和Pandas库来读取、合并和处理多个Excel文件的数据,并最终生成一个包含...

利用Pandas高效处理百万级数据集,速度提升10倍的秘密武器

处理大规模数据集,尤其是百万级别的数据量,对效率的要求非常高。使用Pandas时,可以通过一些策略和技巧显著提高数据处理的速度。以下是一些关键的方法,帮助你使用Pandas高效地处理大型数据集,从而实...

Python进阶-Day 25: 数据分析基础

目标:掌握Pandas和NumPy的基本操作,学习如何分析CSV数据集并生成报告。课程内容...

Pandas 入门教程 - 第五课: 高级数据操作

在前几节课中,我们学习了如何使用Pandas进行数据操作和可视化。在这一课中,我们将进一步探索一些高级的数据操作技巧,包括数据透视、分组聚合、时间序列处理以及高级索引和切片。高级索引和切片...

原来这才是Pandas!(原来这才是薯片真正的吃法)

听到一些人说,Pandas语法太乱、太杂了,根本记不住。...

python(pandas + numpy)数据分析的基础

数据NaN值排查,统计,排序...

利用Python进行数据分组/数据透视表

1.数据分组源数据表如下所示:1.1分组键是列名分组键是列名时直接将某一列或多列的列名传给groupby()方法,groupby()方法就会按照这一列或多列进行分组。按照一列进行分组...

取消回复欢迎 发表评论: