python爬虫遇到爬取文件内容时,需要一页页的翻页爬取,这样很是麻烦,其实可以获取每个列表信息下的文件名和文件链接,让文件名和文件链接处理为列表,保存后下载,实现智能翻页批量下载文件,本文以以京客隆为例,批量下载文件,如财务资料,他的每一份报告都是一份pdf格式的文档。以此页面为目标,下载他每个分类的文件python爬虫实战之智能翻页批量下载文件。
1、引入库
import requests import pandas as pd from lxml import etree import re import os
2、解析初始页面
baseUrl ='http://www.jkl.com.cn/cn/invest.aspx' # 爬取页面的数据 heade ={ 'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.92 Safari/537.36' } res =requests.get(url=baseUrl,headers=heade).text # print(res.text) html = etree.HTML(res) res =requests.get(url=baseUrl,headers=heade).text # 设置变量接受 基础页的响应数据 # print(res.text) html = etree.HTML(res)
3、获得投资关系的分类名称和url地址
data_name = html.xpath('//div[@class="infoLis"]//a/text()') # 投资者列表的名字 data_link = html.xpath('//div[@class="infoLis"]//@href') # 全部列表的链接 name = [data_name.strip() for data_name in data_name] # 通过for循环去掉空字符 link = ['http://www.jkl.com.cn/cn/'+ data_link for data_link in data_link] # 拼接字符串 # 合并为字典,方便保存文件 file = dict(zip(name,link))
4、每个列表信息,保存一个文件夹
for name,link in file.items(): name=name.replace('/','.') name=name.replace('...','报表') # 上面的把文件名带特许字符的 强制转换为我们想要的文本类型 path = 'E:/'+ name if not os.path.exists(path): os.mkdir(path) #建立储存位置
5、对列表的每个项目链接进行解析,拿到尾页
res_list = requests.get(url = link, headers = heade).text list_html = etree.HTML(res_list) # print(html_erJi) 解析每个分类的链接 weiYe = list_html.xpath('//a[text()="尾页"]/@href') # print(html_weiye) # 拿到尾页信息 if weiYe !=[]: # 正则提取尾页信息 get_weiYe =re.search("(\d+)'\)",html_weiye[0]) get_yeMa = get_html_weiYe.group(1) else: get_yeMa=1 # print(get_html_yeMa) 看看是不是提取成功
6、获取每个列表信息下的文件名和文件链接
for get_yeMa in range(1,int(get_yeMa)+1): # 翻页 yaMa= { '__EVENTTARGET': 'AspNetPager1', '__EVENTARGUMENT': get_yeMa } get_lei_html = requests.get(url = link, headers = heade, params = yaMa).text res3 =etree.HTML(get_lei_html) # print(res3) pdf_name = res3.xpath('//div[@class="newsLis"]//li/a/text()') # print(pdf_name) pdf_url = res3.xpath('//div[@class="newsLis"]//li//@href')
7、让文件名和文件链接处理为列表,保存后下载
pdf_names = [pdf_name.strip() for pdf_name in pdf_name] # print(pdf_names) if all(pdf_url): pdf_urls = ['http://www.jkl.com.cn'+pdf_url for pdf_url in pdf_url] # print(pdf_url) pdf_data=dict(zip(pdf_names,pdf_urls)) # pdf地址和名字整合为字典 for pdfName,pdfUrl in pdf_data.items(): pdfName =pdfName.replace('/','.') res_pdf= requests.get(url =pdfUrl,headers=heade).content houZui = pdfUrl.split('.')[-1] pdf_pash = path + '/' + pdfName + '.'+ houZui # # print(pdf_pash) with open(pdf_pash,'wb') as f: f.write(res_pdf) print(pdfName,'下载成功')
python爬虫,下载文件
《魔兽世界》大逃杀!60人新游玩模式《强袭风暴》3月21日上线
暴雪近日发布了《魔兽世界》10.2.6 更新内容,新游玩模式《强袭风暴》即将于3月21 日在亚服上线,届时玩家将前往阿拉希高地展开一场 60 人大逃杀对战。
艾泽拉斯的冒险者已经征服了艾泽拉斯的大地及遥远的彼岸。他们在对抗世界上最致命的敌人时展现出过人的手腕,并且成功阻止终结宇宙等级的威胁。当他们在为即将于《魔兽世界》资料片《地心之战》中来袭的萨拉塔斯势力做战斗准备时,他们还需要在熟悉的阿拉希高地面对一个全新的敌人──那就是彼此。在《巨龙崛起》10.2.6 更新的《强袭风暴》中,玩家将会进入一个全新的海盗主题大逃杀式限时活动,其中包含极高的风险和史诗级的奖励。
《强袭风暴》不是普通的战场,作为一个独立于主游戏之外的活动,玩家可以用大逃杀的风格来体验《魔兽世界》,不分职业、不分装备(除了你在赛局中捡到的),光是技巧和战略的强弱之分就能决定出谁才是能坚持到最后的赢家。本次活动将会开放单人和双人模式,玩家在加入海盗主题的预赛大厅区域前,可以从强袭风暴角色画面新增好友。游玩游戏将可以累计名望轨迹,《巨龙崛起》和《魔兽世界:巫妖王之怒 经典版》的玩家都可以获得奖励。
更新动态
- 凤飞飞《我们的主题曲》飞跃制作[正版原抓WAV+CUE]
- 刘嘉亮《亮情歌2》[WAV+CUE][1G]
- 红馆40·谭咏麟《歌者恋歌浓情30年演唱会》3CD[低速原抓WAV+CUE][1.8G]
- 刘纬武《睡眠宝宝竖琴童谣 吉卜力工作室 白噪音安抚》[320K/MP3][193.25MB]
- 【轻音乐】曼托凡尼乐团《精选辑》2CD.1998[FLAC+CUE整轨]
- 邝美云《心中有爱》1989年香港DMIJP版1MTO东芝首版[WAV+CUE]
- 群星《情叹-发烧女声DSD》天籁女声发烧碟[WAV+CUE]
- 刘纬武《睡眠宝宝竖琴童谣 吉卜力工作室 白噪音安抚》[FLAC/分轨][748.03MB]
- 理想混蛋《Origin Sessions》[320K/MP3][37.47MB]
- 公馆青少年《我其实一点都不酷》[320K/MP3][78.78MB]
- 群星《情叹-发烧男声DSD》最值得珍藏的完美男声[WAV+CUE]
- 群星《国韵飘香·贵妃醉酒HQCD黑胶王》2CD[WAV]
- 卫兰《DAUGHTER》【低速原抓WAV+CUE】
- 公馆青少年《我其实一点都不酷》[FLAC/分轨][398.22MB]
- ZWEI《迟暮的花 (Explicit)》[320K/MP3][57.16MB]