Python 正则表达式爬虫使用案例解析

脚本专栏 2026/6/6 佚名

3 2 1

现在拥有了正则表达式这把神兵利器，我们就可以进行对爬取到的全部网页源代码进行筛选了。

下面我们一起尝试一下爬取内涵段子网站：

http://www.neihan8.com/article/list_5_1.html

打开之后，不难看出里面一个一个非常有内涵的段子，当你进行翻页的时候，注意url地址的变化：

第一页url: http: //www.neihan8.com/article/list_5_1 .html
第二页url: http: //www.neihan8.com/article/list_5_2 .html
第三页url: http: //www.neihan8.com/article/list_5_3 .html
第四页url: http: //www.neihan8.com/article/list_5_4 .html

这样我们的url规律找到了，要想爬取所有的段子，只需要修改一个参数即可。

我们就开始一步一步将所有的段子爬取下来吧。

第一步：获取数据

1. 按照我们之前的用法，我们需要一个加载页面的方法。

这里我们统一定义一个类，将url请求作为一个成员方法处理。

我们创建了一个文件，叫duanzi_spider.py

然后定义一个Spider类，并且添加一个加载页面的成员方法。

import urllib2
class Spider:
  """
    内涵段子爬虫类
  """
  def loadPage(self, page):
    """
      @brief 定义一个url请求网页的方法
      @param page需要请求的第几页
      @returns 返回的页面url
    """
    url = "http://www.neihan8.com/article/list_5_" + str(page)+ ".html"
    #user-Agent头
    user_agent = "Mozilla/5.0 (compatible; MSIE 9.0; Windows NT6.1; Trident/5.0"
    headers = {"User-Agent":user_agent}
    req = urllib2.Request(url, headers = headers)
    response = urllib2.urlopen(req)
    print html

以上的loadPage的实现思想想必大家都应该熟悉了，需要注意定义python类的成员方法需要额外添加一个参数self.

2.写main函数测试一个loadPage方法

if __name__ == "__main__":
  """
    =====================
      内涵段子小爬虫
    =====================
  """
  print("请按下回车开始")
  raw_input()
  
  #定义一个Spider对象
  mySpider = Spider()
  mySpider.loadPage(1)

程序正常执行的话，我们会在皮姆上打印了内涵段子第一页的全部html代码。但是我们发现，html中的中文部分显示的可能是乱码。

那么我们需要简单的将得到的网页源代码处理一下：

def loadPage(self, page):
  """
    @bridf 定义一个url请求网页的方法
    @param page 需要请求的第几页
    @returns 返回的页面html
  """
  url = "http://www.neihan8.com/article/list_5_"+str(page)+".html"
  #user-agent头
  user-agent = "Mozilla/5.0 (compatible; MSIE 9.0; Windows NT6.1; Trident/5.0"
  headers = {"User-Agent":user-agent}
  req = urllib2.Request(url, headers = headers)
  response = urllib2.urlopen(req)
  html = response.read()
  gbk_html = html.decode("gbk").encode("utf-8")
  return gbk_html

注意：对于每个网站对中文的编码各自不同，所以html.decode("gbk")的写法并不是通用的，根据网站的编码而异。

第二步：筛选数据

接下来我们已经得到了整个页面的数据。但是，很多内容我们并不关心，所以下一步我们需要筛选数据。如何筛选，就用到了上一节讲述的正则表达式

首先

import re

然后，我们得到的gbk_html中进行筛选匹配。

我们需要一个匹配规则

我们可以打开内涵段子的网页，鼠标点击右键"查看源代码"你会惊奇的发现，我们需要的每个段子的内容都是在一个<div>标签中，而且每个div标签都有一个属性class="f18 mb20"

根据正则表达式，我们可以推算出一个公式是：

<div.*"f18 mb20">(.*"f18 mb20"里面的内容(具体可以看前面介绍)


然后这个正则应用到代码中，我们会得到以下代码：




def loadPage(self, page):
  """
    @brief 定义一个url请求网页的办法
    @param page 需要请求的第几页
    @returns 返回的页面html
  """
  url = "http://www.neihan8.com/article/list_5_" +str(page) + ".html"
  #User-Agent头
  user-agent = "Mozilla/5.0 (compatible; MSIE 9.0; Windows NT6.1; Trident/5.0" 

  headers = {"User-Agent":user-agent}
  req = urllib2.Request(url, headers=headers)
  response = urllib2.urlopen(req)

  html = response.read()

  gbk_html = html.decode("gbk").encode("utf-8")

  #找到所有的段子内容<div class="f18 mb20"></div>
  #re.S 如果没有re.S,则是只匹配一行有没有符合规则的字符串，如果没有则匹配下一行重新匹配
  #如果加上re.S,则是将所有的字符串按一个整体进行匹配
  pattern = re.compile(r'<div.*"f18 mb20">(.*"""
    @brief 处理得到的段子列表
    @param item_list 得到的段子列表
    @param page处理第几页
  """
  print("*********第%d页，爬取完毕...******"%page)
  for item in item_list:
    print("===============")
    print ite


这里需要注意一个是re.S是正则表达式中匹配的一个参数。



  如果没有re.S则是只匹配一行有没有符合规则的字符串，如果没有则下一行重新匹配。
  如果加上re.S则是将所有的字符串按一个整体进行匹配，findall将匹配到的所有结果封装到一个list中。
  如果我们写了一个遍历item_list的一个方法printOnePage()。ok程序写到这，我们再一次执行一下。



python duanzi_spider.py



我们第一页的全部段子，不包含其他信息全部的打印了出来.

  你会发现段子中有很多<p>,</p>很是不舒服，实际上这个是html的一种段落的标签。
  在浏览器上看不出来，但是如果按照文本打印会有<p>出现，那么我们只需要把我们的内容去掉即可。
  我们可以如下简单修改一下printOnePage()



def printOnePage(self, item_list, page):
  """
    @brief 处理得到的段子列表
    @param item_list 得到的段子列表
    @param page 处理第几页
  """
  print("******第%d页,爬取完毕*****"%page) 
  for item in item_list:
    print("============")
    item = item.replace("<p>", "").replace("</p>", "").replace("<br />", "")
    print item


第三步：保存数据


我们可以将所有的段子存放在文件中。比如，我们可以将得到的每个item不是打印出来，而是放在一个叫duanzi.txt的文件中也可以。




def writeToFile(self, text):
  """
    @brief 将数据追加写进文件中
    @param text 文件内容
  """
  myFile = open("./duanzi.txt", "a") #a追加形式打开文件 
  myFile.write(text)
  myFile.write("-------------------------")
  myFile.close()


然后我们将所有的print的语句改写成writeToFile(), 当前页面的所有段子就存在了本地的duanzi.txt文件中。




def printOnePage(self, item_list, page):
  """
    @brief 处理得到的段子列表
    @param item_list 得到的段子列表
    @param page 处理第几页
  """
  print("***第%d页，爬取完毕****"%page)
  for item in item_list:
    item = item.replace("<p>", "").replace("</p>", "").replace("<br />". "")

    self.writeToFile(item)


第四步：显示数据


接下来我们就通过参数的传递对page进行叠加来遍历内涵段子吧的全部段子内容。
只需要在外层加上一些逻辑处理即可。


def doWork(self):
  """
    让爬虫开始工作
  """
  while self.enable:
    try:
      item_list = self.loadPage(self.page)
    except urllib2.URLError, e:
      print e.reason
      continue

  #将得到的段子item_list处理
  self.printOnePage(item_list, self.page)
  self.page += 1
  print "按回车继续...."
  print "输入quit退出"

  command = raw_input()
  if(command == "quit"):
    self.enable = False
    break


以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持。


                                
                                    python,正则表达式,爬虫,案例 
                                
                                    标签：
                                        python,正则表达式,爬虫,案例


                        
                            
                                免责声明：本站文章均来自网站采集或用户投稿，网站不提供任何软件下载或自行开发的软件！
                                如有用户或公司发现本站内容信息存在侵权行为，请邮件告知！ 858582#qq.com
                            
                        
                        
                            
                                
                                    上一篇
                                    Python爬虫 urllib2的使用方法详解
                                
                            
                            
                                
                                    下一篇
                                    python处理document文档保留原样式
                                
                            
                        
                        
                        
                            
                                
                                
                                    评论“Python 正则表达式爬虫使用案例解析”
                                
                            
                            
                                
                                    
                                        
                                            
                                                Python 正则表达式爬虫使用案例解析
                                            
                                            
                                                
                                            
                                            
                                                
                                                
                                                
                                            
                                            
                                        
                                    
                                    
                                    
                                        暂无“Python 正则表达式爬虫使用案例解析”评论...


                    
                        
                            
                                
                                    
                                        
                                    
                                    
                                        
                                            
                                        
                                    
                                
                                
                                    www.imxmx.com
                                            
                                                杰晶网络 
                                    
                                    
                                        
                                            
                                        
                                        
                                            
                                        
                                        
                                            
                                        
                                        
                                            
                                        
                                    
                                    
                                    
                                        
                                            8,675无损音乐
                                        
                                        
                                            1,324高清电影
                                        
                                        
                                            213破解软件
                                        
                                        
                                            120,141站长资源
                                        
                                    
                                
                            
                            
                                最新文章
                                
                                    
                                         
                                       
                                            
                                                
                                            
                                            
                                                
                                                    群星《奔赴！万人现场 第2期》[FLAC/分轨][5
                                                
                                                
                                                    
                                                        2026/6/6
                                                        
                                                         43
                                                    
                                                
                                            
                                        
 
                                       
                                            
                                                
                                            
                                            
                                                
                                                    群星《奇妙浪一夏 (上海迪士尼度假区音乐)》
                                                
                                                
                                                    
                                                        2026/6/6
                                                        
                                                         32
                                                    
                                                
                                            
                                        
 
                                       
                                            
                                                
                                            
                                            
                                                
                                                    群星《奇妙浪一夏 (上海迪士尼度假区音乐)》
                                                
                                                
                                                    
                                                        2026/6/6
                                                        
                                                         61
                                                    
                                                
                                            
                                        
 
                                       
                                            
                                                
                                            
                                            
                                                
                                                    【古典音乐】詹姆斯·高威《季节》1993[WAV+
                                                
                                                
                                                    
                                                        2026/6/6
                                                        
                                                         24
                                                    
                                                
                                            
                                        
 
                                       
                                            
                                                
                                            
                                            
                                                
                                                    贝拉芳蒂《卡里普索之王》SACD[WAV+CUE]
                                                
                                                
                                                    
                                                        2026/6/6
                                                        
                                                         74
                                                    
                                                
                                            
                                        


                                    
                                
                            
                            一句话新闻
苹果官宣WWDC 2024！预计会有大批AI功能 - 2026/6/6

3月27日消息，苹果宣布2024年全球开发者大会（WWDC）将于6月10日至6月14日举行，巧合的是，这次大会与端午假期重合。

苹果官方表示：

在线参加 Apple 每年规模最大的开发者盛会。亲眼见证 Apple 最新平台、技术和工具的发布。了解如何创建和改进你的 App 和游戏。与 Apple 设计师和工程师互动交流，与全球开发者社区建立联系。以上活动均免费在线举行。

探索各种新的工具、框架和功能，助力你打造出理想的 App 和游戏。通过视频讲座学习新技能，与 Apple 专家进行一对一会面，以推进你的项目，完善你的构思。

Swift Student Challenge 旨在支持和鼓舞下一代开发者、创作者和企业家。太平洋时间 3 月 28 日，我们将公布今年的获奖者名单。获奖者将有资格参加在 Apple Park 举办的特别活动。我们还会选出 50 名杰出获胜者，他们将受邀前往库比提诺，获得为期三天的非凡体验，包括参加 Apple Park 的特别活动。

Python 正则表达式爬虫使用案例解析

python,正则表达式,爬虫,案例

Python爬虫 urllib2的使用方法详解

python处理document文档保留原样式

评论“Python 正则表达式爬虫使用案例解析”

RTX 5090要首发性能要翻倍！三星展示GDDR7显存

更新动态

友情链接

Python 正则表达式爬虫使用案例解析

python,正则表达式,爬虫,案例

Python爬虫 urllib2的使用方法详解

python处理document文档保留原样式

评论“Python 正则表达式爬虫使用案例解析”

RTX 5090要首发 性能要翻倍！三星展示GDDR7显存

更新动态

友情链接

RTX 5090要首发性能要翻倍！三星展示GDDR7显存