1.selenum:三方库。可以实现让浏览器完成自动化的操作。
2.环境搭建
2.1 安装:
pip install selenium
2.2 获取浏览器的驱动程序
下载地址:
http://chromedriver.storage.googleapis.com/index.html
http://npm.taobao.org/mirrors/chromedriver/
浏览器版本和驱动版本的对应关系表:
所有chromedriver均可在下面链接中下载到:
http://chromedriver.storage.googleapis.com/index.html
现在有一点好的是出了按照chrome版本对应的driver,直接按照浏览器版本去找对应的driver(只对应大版本就行),不用再费心去对应了,大家可以尝试一下
有些同学说下不了,到taobao下也是可以的:
http://npm.taobao.org/mirrors/chromedriver/
定位元素的8种方式:
#使用下面的方法,查找指定的元素进行操作即可 find_element_by_id 根据id找节点 find_elements_by_name 根据name找 find_elements_by_xpath 根据xpath查找 find_elements_by_tag_name 根据标签名找 find_elements_by_class_name 根据class名字查找 # 通过id定位: dr.find_element_by_id("kw") # 通过name定位: dr.find_element_by_name("wd") # 通过class name定位: dr.find_element_by_class_name("s_ipt") # 通过tag name定位: dr.find_element_by_tag_name("input") # 通过xpath定位,xpath定位有N种写法,这里列几个常用写法: dr.find_element_by_xpath("//*[@id='kw']") dr.find_element_by_xpath("//*[@name='wd']") dr.find_element_by_xpath("//input[@class='s_ipt']") dr.find_element_by_xpath("/html/body/form/span/input") dr.find_element_by_xpath("//span[@class='soutu-btn']/input") dr.find_element_by_xpath("//form[@id='form']/span/input") dr.find_element_by_xpath("//input[@id='kw' and @name='wd']") # 通过css定位,css定位有N种写法,这里列几个常用写法: dr.find_element_by_css_selector("#kw") dr.find_element_by_css_selector("[name=wd]") dr.find_element_by_css_selector(".s_ipt") dr.find_element_by_css_selector("html > body > form > span > input") dr.find_element_by_css_selector("span.soutu-btn> input#kw") dr.find_element_by_css_selector("form#form > span > input")
接下来,我们的页面上有一组文本链接。
<a class="mnav" href="http://news.baidu.com" rel="external nofollow" name="tj_trnews">新闻</a> <a class="mnav" href="http://www.hao123.com" rel="external nofollow" name="tj_trhao123">hao123</a>
# 通过link text定位: dr.find_element_by_link_text("新闻") dr.find_element_by_link_text("hao123") # 通过partial link text定位: dr.find_element_by_partial_link_text("新") dr.find_element_by_partial_link_text("hao") dr.find_element_by_partial_link_text("123")
Selenium库下webdriver模块常用方法的使用
控制浏览器操作的一些方法
方法 说明
- set_window_size() 设置浏览器的大小
- back() 控制浏览器后退
- forward() 控制浏览器前进
- refresh() 刷新当前页面
- clear() 清除文本
- send_keys (value) 模拟按键输入
- click() 单击元素
- submit() 用于提交表单
- get_attribute(name) 获取元素属性值
- is_displayed() 设置该元素是否用户可见
- size 返回元素的尺寸
- text 获取元素的文本
---------------------
例子:
1.chrom浏览器自动搜索
from selenium import webdriver from time import sleep # 创建浏览器对象 驱动为浏览器的路径 bro = webdriver.Chrome("./chromedriver.exe") url = "https://www.baidu.com"7 # 发送请求 bro.get(url) # 让百度指定词条的搜索 text = bro.find_element_by_id('kw') # 发送关键字 text.send_keys('python') # 点击搜索按钮 button = bro.find_element_by_id('su') button.click() # 关闭浏览器 bro.quit()
2.phantomjs无界面浏览器,其自动化流程上述操作谷歌自动化流程一致。
from selenium import webdriver from time import sleep bro = webdriver.PhantomJS('E:/BaiduNetdiskDownload/爬虫课件/5. 动态数据加载 爬取\phantomjs‐2.1.1‐windows/bin/phantomjs.exe') url = "https://www.baidu.com" # 发送请求 bro.get(url) bro.save_screenshot('./1.png') # 让百度指定词条的搜索 text = bro.find_element_by_id('kw') # 发送关键字 text.send_keys('python') bro.save_screenshot('./2.png') # 点击搜索按钮 button = bro.find_element_by_id('su') button.click() sleep(3) bro.save_screenshot('./3.png') # 关闭浏览器 bro.quit()
3.豆瓣网电影排行榜滚动条数据
from selenium import webdriver from time import sleep3 url = 'https://movie.douban.com/typerank"./1.png") js = 'window.scrollTo(0,document.body.scrollHeight)' # 执行js代码 滚动条 bro.execute_script(js) sleep(1) bro.save_screenshot('./2.png') # 获取页面数据 page_source = bro.page_source print(page_source)
以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持。
稳了!魔兽国服回归的3条重磅消息!官宣时间再确认!
昨天有一位朋友在大神群里分享,自己亚服账号被封号之后居然弹出了国服的封号信息对话框。
这里面让他访问的是一个国服的战网网址,com.cn和后面的zh都非常明白地表明这就是国服战网。
而他在复制这个网址并且进行登录之后,确实是网易的网址,也就是我们熟悉的停服之后国服发布的暴雪游戏产品运营到期开放退款的说明。这是一件比较奇怪的事情,因为以前都没有出现这样的情况,现在突然提示跳转到国服战网的网址,是不是说明了简体中文客户端已经开始进行更新了呢?
更新动态
- 凤飞飞《我们的主题曲》飞跃制作[正版原抓WAV+CUE]
- 刘嘉亮《亮情歌2》[WAV+CUE][1G]
- 红馆40·谭咏麟《歌者恋歌浓情30年演唱会》3CD[低速原抓WAV+CUE][1.8G]
- 刘纬武《睡眠宝宝竖琴童谣 吉卜力工作室 白噪音安抚》[320K/MP3][193.25MB]
- 【轻音乐】曼托凡尼乐团《精选辑》2CD.1998[FLAC+CUE整轨]
- 邝美云《心中有爱》1989年香港DMIJP版1MTO东芝首版[WAV+CUE]
- 群星《情叹-发烧女声DSD》天籁女声发烧碟[WAV+CUE]
- 刘纬武《睡眠宝宝竖琴童谣 吉卜力工作室 白噪音安抚》[FLAC/分轨][748.03MB]
- 理想混蛋《Origin Sessions》[320K/MP3][37.47MB]
- 公馆青少年《我其实一点都不酷》[320K/MP3][78.78MB]
- 群星《情叹-发烧男声DSD》最值得珍藏的完美男声[WAV+CUE]
- 群星《国韵飘香·贵妃醉酒HQCD黑胶王》2CD[WAV]
- 卫兰《DAUGHTER》【低速原抓WAV+CUE】
- 公馆青少年《我其实一点都不酷》[FLAC/分轨][398.22MB]
- ZWEI《迟暮的花 (Explicit)》[320K/MP3][57.16MB]