Python爬虫运用正则表达式的方法和优缺点

脚本专栏 2026/7/28 佚名

3 2 1

前言

我看到最近几部电影很火，查了一下猫眼电影上的数据，发现还有个榜单，里面有各种经典和热映电影的排行榜，然后我觉得电影封面图还挺好看的，想着一张一张下载真是费时费力，于是突发奇想，好像可以用一下最近学的东西实现我的需求，学习了正则表达式之后，想着要感受一下它在爬虫里面的效果和优缺点。

目标：爬取Top100榜单上电影的封面图

Top100榜单规则：将猫眼电影库中的经典影片，按照评分和评分人数从高到低综合排序取前100名，每天上午10点更新。相关数据来源于“猫眼电影库”。

下面是我做的步骤：

（1）查看页面元素，找到包含图片的路径的代码段落

（2）分析图片在web上面的唯一属性，便于之后获取正确图片位置信息

（3）因为需要翻页，观察多个页面的URL变化

（4）综合以上几个点，编写合适的正则表达式

1、python 标准库中re模块提供了正则表达式的全部功能，直接引入；requests模块是http库，爬虫常用库，而urllib.requests 则是最后用到写入文件的函数

import re
import requests
import urllib.request

2、先接收URL地址的HTML页面，然后转化为str形式（正则表达式是匹配字符串），第一个pattern1缩小范围，抓取目标部分，result1接收匹配的结果，这时候所有封面图地址就在里面了

response = requests.get(url)
response = str(response.content)
patttern1 = '<dl class="board-wrapper">.+"pager-main">'
result1 = re.compile(pat).findall(response)

3、第二个正则，匹配图片的地址信息

pat2 = '<img data-src="/UploadFiles/2021-04-08/(.+">
 4、继续下一步，把每张图片命名好，需要正确的图片地址，避免重复 


x = 1
for imgurl in name:
 imgname = 'D:/Top 100/'+str(i/10)+str(x)+'.jpg'
 imgurl = 'https://'+imgurl
 urllib.request.urlretrieve(imgurl,filename=imgname)
 x += 1


 5、最后一步了，因为需要翻页爬取，所以加了一个循环，10页内容爬取下来


for i in range(0, 100, 10):
  url = 'http://maoyan.com/board/4"color: #ff0000">总结
以上就是这篇文章的全部内容了，希望本文的内容对大家的学习或者工作具有一定的参考学习价值，谢谢大家对的支持。

python正则表达式,python正则表达式匹配,python正则表达式爬虫

标签：

python正则表达式,python正则表达式匹配,python正则表达式爬虫

免责声明：本站文章均来自网站采集或用户投稿，网站不提供任何软件下载或自行开发的软件！如有用户或公司发现本站内容信息存在侵权行为，请邮件告知！ 858582#qq.com

评论“Python爬虫运用正则表达式的方法和优缺点”

Python爬虫运用正则表达式的方法和优缺点

暂无“Python爬虫运用正则表达式的方法和优缺点”评论...

www.imxmx.com 杰晶网络

8,675无损音乐

1,324高清电影

213破解软件

120,141站长资源

最新文章

群星《奔赴！万人现场第2期》[FLAC/分轨][5

2026/7/28

群星《奇妙浪一夏 (上海迪士尼度假区音乐)》

2026/7/28

群星《奇妙浪一夏 (上海迪士尼度假区音乐)》

2026/7/28

【古典音乐】詹姆斯·高威《季节》1993[WAV+

2026/7/28

贝拉芳蒂《卡里普索之王》SACD[WAV+CUE]

2026/7/28

一句话新闻

一口气升级7个大模型SaaS应用，百度智能云：突出一个“开箱即用” - 2026/7/28

这一波大模型产业落地浪潮里，不少企业其实处在 “干瞪眼“的状态。

一种情况是，很多大模型产品看得见却摸不着，在台上一个个遥遥领先——今天Sora技精四座，明天英伟达的机器人又赢得满堂彩，可是到了台下一问：啥时候能用上啊？答曰：遥遥无期。

另一种情况是，企业想用上大模型，却又难免瞻前顾后——既要考虑场景融合，又得兼顾安全性，还要考虑打通现有系统，再加上各种部署成本和繁琐的采购流程……最后只能拂袖：罢了，再等等吧。

稳了！魔兽国服回归的3条重磅消息！官宣时间再确认！

昨天有一位朋友在大神群里分享，自己亚服账号被封号之后居然弹出了国服的封号信息对话框。

这里面让他访问的是一个国服的战网网址，com.cn和后面的zh都非常明白地表明这就是国服战网。
而他在复制这个网址并且进行登录之后，确实是网易的网址，也就是我们熟悉的停服之后国服发布的暴雪游戏产品运营到期开放退款的说明。这是一件比较奇怪的事情，因为以前都没有出现这样的情况，现在突然提示跳转到国服战网的网址，是不是说明了简体中文客户端已经开始进行更新了呢？

更新动态

2026年07月28日

Python爬虫运用正则表达式的方法和优缺点

python正则表达式,python正则表达式匹配,python正则表达式爬虫

Python封装成可带参数的EXE安装包实例

python识别文字(基于tesseract)代码实例

评论“Python爬虫运用正则表达式的方法和优缺点”

稳了！魔兽国服回归的3条重磅消息！官宣时间再确认！

更新动态

友情链接