一、相关知识点
1.1、Selenium
Selenium是一个强大的开源Web功能测试工具系列,可进行读入测试套件、执行测试和记录测试结果,模拟真实用户操作,包括浏览页面、点击链接、输入文字、提交表单、触发鼠标事件等操作,并且能够对页面结果进行种种验证。也就是说,只要在测试用例中把预期的用户行为与结果都描述出来,我们就得到了一个可以自动化运行的功能测试套件。
1.2、ActionChains
Actionchains是selenium里面专门处理鼠标相关的操作如:鼠标移动,鼠标按钮操作,按键和上下文菜单(鼠标右键)交互。这对于做更复杂的动作非常有用,比如悬停和拖放。
1.3、time
返回当前时间的时间戳
1.4、lxml
lxml是一个Python库,使用它可以轻松处理XML和HTML文件,还可以用于web爬取。市面上有很多现成的XML解析器,但是为了获得更好的结果,开发人员有时更愿意编写自己的XML和HTML解析器。这时lxml库就派上用场了。这个库的主要优点是易于使用,在解析大型文档时速度非常快,归档的也非常好,并且提供了简单的转换方法来将数据转换为Python数据类型,从而使文件操作更容易。
1.5、csv
csv文件格式是一种通用的电子表格和数据库导入导出格式。最近我调用RPC处理服务器数据时,经常需要将数据做个存档便使用了这一方便的格式。
1.6、requests
Requests 库是一个优雅而简单的 Python HTTP 库,主要用于发送和处理 HTTP 请求
二、部分代码解析
加载Chrome驱动,动态解析爬取的网址
#提取公共的爬取信息的api def commonsdk(self,url): browser = webdriver.Chrome('D:/chromedriver.exe') try: browser.get(url) except Exception as e: browser.execute_script('window.stop()') # 超出时间则不加载 print(e, 'dynamic web load timeout') return browser;
实现模拟登录
通过定位淘宝登陆界面的url的表单框,然后输入自己的用户名及密码,再模拟鼠标点击事件,继而提交表单信息实现用户登录。
#模拟登录 def logon(self,url,a_href_list_next): username = "淘宝账户名" password = "密码" browser1 = self.commonsdk(url) #登录账号 browser1.find_element_by_id('fm-login-id').send_keys(username) browser1.find_element_by_id('fm-login-password').send_keys(password) #模拟用户点击登录 browser1.find_element_by_xpath('//*[@id="login-form"]/div[4]/button').click() #解析商品信息 self.Buy_information(a_href_list_next,browser1)
爬取侧边栏目录
1、首先定位到目录分类栏,鼠标光标移动到需要选中的那一栏,继而会出现隐藏的div,(这里需要实现鼠标悬停事件)action.move_to_element(li_list).perform()实现了这一功能。
2、然后定位自己所需要爬取的侧边栏的那一行或多行,通过实现鼠标悬停事件后获取其中内容。
3、获取其超链接进入下一界面
#爬取目录 def List(self,url): browser = self.commonsdk(url) #ActionChains类实现鼠标的单击、双击、拖拽等功能 action = ActionChains(browser) li_list = browser.find_elements_by_css_selector('.service-bd li')[1] #实现执行鼠标悬停,便于爬取悬停内容 action.move_to_element(li_list).perform() time.sleep(5) #爬取整个目录的div div_list = browser.find_element_by_css_selector('.service-fi-links') #爬取其中的总的名称 h5_list = div_list.find_elements_by_css_selector('h5') #爬取小标题的名称 p_list = div_list.find_elements_by_css_selector('p') #获取a标签 a_href_list = div_list.find_elements_by_css_selector('a') #获取a标签的超链接 a_href_list_next = div_list.find_elements_by_css_selector('a')[1].get_attribute('href') print(li_list.text) for j in range(len(p_list)): if j<len(p_list): print(h5_list[j].text) print(p_list[j].text) for i in range(len(a_href_list)): print(a_href_list[i].get_attribute('href')) #获取登录框 logon = browser.find_element_by_id('J_SiteNavBd') #获取登录框的超链接 logon_url = logon.find_element_by_css_selector('a').get_attribute('href') #先关闭第一个网页 browser.close() self.logon(logon_url,a_href_list_next)
获取商品信息
1、这里使用的定位方式是Xpath方式,使用了绝对定位来获取标签的位置。
#爬取商品信息 def Buy_information(self,url,browser): browser.get(url) div_list = browser.find_element_by_xpath('//*[@id="mainsrp-itemlist"]/div/div/div[1]/div[1]') img = div_list.find_element_by_css_selector('img') img_url = "https:"+img.get_attribute('data-src') price = div_list.find_element_by_xpath('//*[@id="mainsrp-itemlist"]/div/div/div[1]/div[1]/div[2]/div[1]/div[1]').text number = div_list.find_element_by_xpath('//*[@id="mainsrp-itemlist"]/div/div/div[1]/div[1]/div[2]/div[1]/div[2]').text shoping_information = div_list.find_element_by_xpath('//*[@id="mainsrp-itemlist"]/div/div/div[1]/div[1]/div[2]/div[2]').text shop = div_list.find_element_by_xpath('//*[@id="mainsrp-itemlist"]/div/div/div[1]/div[1]/div[2]/div[3]/div[1]/a').text adress = div_list.find_element_by_xpath('//*[@id="mainsrp-itemlist"]/div/div/div[1]/div[1]/div[2]/div[3]/div[2]').text path = self.img_baocun(img_url) data={ '图片路径':path, '价格':price, '购买人数':number, '商品信息':shoping_information, '商家':shop, '籍贯':adress } self.write_dictionary_to_csv(data,'information')
下载图片
通过获取到的图片的url,然后将图片下载到指定的文件夹内
#下载照片 def img_baocun(self,url): root = "文件夹下载的路径"//电脑上的绝对路径 path = root + url.split('"htmlcode">#将解析得到的内容(字典格式)逐行写入csv文件 def write_dictionary_to_csv(self,dict,filename): #格式化文件名 file_name='{}.csv'.format(filename) with open(file_name, 'a',encoding='utf-8') as f: file_exists = os.path.isfile(filename) #delimiter(定界符) w =csv.DictWriter(f, dict.keys(),delimiter=',', quotechar='"', lineterminator='\n',quoting=csv.QUOTE_ALL, skipinitialspace=True) if not file_exists : w.writeheader() w.writerow(dict) print('当前行写入csv成功!')三、程序思路
1、首先定位到侧边栏的位置,然后使用action.move_to_element(li_list).perform()的方法实现鼠标的动态悬停,让隐藏的div显示出来,再获取其中的信息。
2、然后再实现模拟登录的功能,登录账号,获取其中的商品信息(由于淘宝的反扒机制,多次登录会让用户扫码登录,此功能暂未实现)
3、商品信息的获取使用Xpath的绝对定位方式来获取。Xpath的使用方式:
右键需要定位的标签->选中Copy选项->Copy Xpath
四、发展空间
1、解决淘宝反扒机制的问题。传送门,解决问题
2、文件的写入换用其他方式。
《魔兽世界》大逃杀!60人新游玩模式《强袭风暴》3月21日上线
暴雪近日发布了《魔兽世界》10.2.6 更新内容,新游玩模式《强袭风暴》即将于3月21 日在亚服上线,届时玩家将前往阿拉希高地展开一场 60 人大逃杀对战。
艾泽拉斯的冒险者已经征服了艾泽拉斯的大地及遥远的彼岸。他们在对抗世界上最致命的敌人时展现出过人的手腕,并且成功阻止终结宇宙等级的威胁。当他们在为即将于《魔兽世界》资料片《地心之战》中来袭的萨拉塔斯势力做战斗准备时,他们还需要在熟悉的阿拉希高地面对一个全新的敌人──那就是彼此。在《巨龙崛起》10.2.6 更新的《强袭风暴》中,玩家将会进入一个全新的海盗主题大逃杀式限时活动,其中包含极高的风险和史诗级的奖励。
《强袭风暴》不是普通的战场,作为一个独立于主游戏之外的活动,玩家可以用大逃杀的风格来体验《魔兽世界》,不分职业、不分装备(除了你在赛局中捡到的),光是技巧和战略的强弱之分就能决定出谁才是能坚持到最后的赢家。本次活动将会开放单人和双人模式,玩家在加入海盗主题的预赛大厅区域前,可以从强袭风暴角色画面新增好友。游玩游戏将可以累计名望轨迹,《巨龙崛起》和《魔兽世界:巫妖王之怒 经典版》的玩家都可以获得奖励。
更新动态
- 凤飞飞《我们的主题曲》飞跃制作[正版原抓WAV+CUE]
- 刘嘉亮《亮情歌2》[WAV+CUE][1G]
- 红馆40·谭咏麟《歌者恋歌浓情30年演唱会》3CD[低速原抓WAV+CUE][1.8G]
- 刘纬武《睡眠宝宝竖琴童谣 吉卜力工作室 白噪音安抚》[320K/MP3][193.25MB]
- 【轻音乐】曼托凡尼乐团《精选辑》2CD.1998[FLAC+CUE整轨]
- 邝美云《心中有爱》1989年香港DMIJP版1MTO东芝首版[WAV+CUE]
- 群星《情叹-发烧女声DSD》天籁女声发烧碟[WAV+CUE]
- 刘纬武《睡眠宝宝竖琴童谣 吉卜力工作室 白噪音安抚》[FLAC/分轨][748.03MB]
- 理想混蛋《Origin Sessions》[320K/MP3][37.47MB]
- 公馆青少年《我其实一点都不酷》[320K/MP3][78.78MB]
- 群星《情叹-发烧男声DSD》最值得珍藏的完美男声[WAV+CUE]
- 群星《国韵飘香·贵妃醉酒HQCD黑胶王》2CD[WAV]
- 卫兰《DAUGHTER》【低速原抓WAV+CUE】
- 公馆青少年《我其实一点都不酷》[FLAC/分轨][398.22MB]
- ZWEI《迟暮的花 (Explicit)》[320K/MP3][57.16MB]