Python2.7Mac OS
抓取的是电影天堂里面最新电影的页面。链接地址: http://www.dytt8.net/html/gndy/dyzz/index.html
获取页面的中电影详情页链接
import urllib2 import os import re import string # 电影URL集合 movieUrls = [] # 获取电影列表 def queryMovieList(): url = 'http://www.dytt8.net/html/gndy/dyzz/index.html' conent = urllib2.urlopen(url) conent = conent.read() conent = conent.decode('gb2312','ignore').encode('utf-8','ignore') pattern = re.compile ('<div class="title_all"><h1><font color=#008800>.*"25" align="center" bgcolor="#F4FAE2"> ',re.S) items = re.findall(pattern,conent) str = ''.join(items) pattern = re.compile ('<a href="(.*" class="ulink">(.*"htmlcode">def queryMovieInfo(movieUrls): for index, item in enumerate(movieUrls): print('电影URL: ' + item) conent = urllib2.urlopen(item) conent = conent.read() conent = conent.decode('gb2312','ignore').encode('utf-8','ignore') movieName = re.findall(r'<div class="title_all"><h1><font color=#07519a>(.*"" # 截取名称 movieName = movieName[movieName.find("《") + 3:movieName.find("》")] else: movieName = "" print("电影名称: " + movieName.strip()) movieContent = re.findall(r'<div class="co_content8">(.*"" print("电影发布时间: " + movieDate[-10:]) pattern = re.compile('<br /><br />(.*"<br />","") # 根据 ◎ 符号拆分 movieInfo = movieInfo.split('◎') else: movieInfo = "" print("电影基础信息: ") for item in movieInfo: print(item) # 电影海报 pattern = re.compile('<img.*"(.*".*"" print("电影海报: " + movieImg) pattern = re.compile('<td style="WORD-WRAP: break-word" bgcolor="#fdfddf"><a href="(.*">.*"" print("电影下载地址:" + movieDownUrl + "") print("------------------------------------------------\n\n\n")执行抓取
if __name__=='__main__': print("开始抓取电影数据"); queryMovieList() print(len(movieUrls)) queryMovieInfo(movieUrls) print("结束抓取电影数据")总结
学好正则表达式很重要,很重要,很重要!!!! Python的语法好有感觉, 对比Java …
标签:
Python,电影天堂
免责声明:本站文章均来自网站采集或用户投稿,网站不提供任何软件下载或自行开发的软件!
如有用户或公司发现本站内容信息存在侵权行为,请邮件告知! 858582#qq.com
暂无“Python抓取电影天堂电影信息的代码”评论...
RTX 5090要首发 性能要翻倍!三星展示GDDR7显存
三星在GTC上展示了专为下一代游戏GPU设计的GDDR7内存。
首次推出的GDDR7内存模块密度为16GB,每个模块容量为2GB。其速度预设为32 Gbps(PAM3),但也可以降至28 Gbps,以提高产量和初始阶段的整体性能和成本效益。
据三星表示,GDDR7内存的能效将提高20%,同时工作电压仅为1.1V,低于标准的1.2V。通过采用更新的封装材料和优化的电路设计,使得在高速运行时的发热量降低,GDDR7的热阻比GDDR6降低了70%。
更新动态
2025年01月11日
2025年01月11日
- 小骆驼-《草原狼2(蓝光CD)》[原抓WAV+CUE]
- 群星《欢迎来到我身边 电影原声专辑》[320K/MP3][105.02MB]
- 群星《欢迎来到我身边 电影原声专辑》[FLAC/分轨][480.9MB]
- 雷婷《梦里蓝天HQⅡ》 2023头版限量编号低速原抓[WAV+CUE][463M]
- 群星《2024好听新歌42》AI调整音效【WAV分轨】
- 王思雨-《思念陪着鸿雁飞》WAV
- 王思雨《喜马拉雅HQ》头版限量编号[WAV+CUE]
- 李健《无时无刻》[WAV+CUE][590M]
- 陈奕迅《酝酿》[WAV分轨][502M]
- 卓依婷《化蝶》2CD[WAV+CUE][1.1G]
- 群星《吉他王(黑胶CD)》[WAV+CUE]
- 齐秦《穿乐(穿越)》[WAV+CUE]
- 发烧珍品《数位CD音响测试-动向效果(九)》【WAV+CUE】
- 邝美云《邝美云精装歌集》[DSF][1.6G]
- 吕方《爱一回伤一回》[WAV+CUE][454M]