前言

说起写node爬虫的原因,真是羞羞呀。一天,和往常一样,晚上吃过饭便刷起知乎来,首页便是推荐的你见过最漂亮的女生长什么样?,点进去各种漂亮的妹纸爆照啊!!!,看的我好想把这些好看的妹纸照片都存下来啊!一张张点击保存,就在第18张得时候,突然想起。我特么不是程序员么,这种手动草做的事,怎么能做,不行我不能丢程序员的脸了,于是便开始这次爬虫之旅。

原理

初入爬虫的坑,没有太多深奥的理论知识,要获取知乎上帖子中的一张图片,我把它归结为以下几步。

  • 准备一个url(当然是诸如你见过最漂亮的女生长什么样?"color: #ff0000">开始动手

    大概知道原理之后我们就可以开干了

    准备一个url

    这个最简单了,去知乎随便一搜就是一大把,我们以

    发一张你认为很漂亮的美女照片?

    为例子,先来分析一下这个页面的dom结构,其实很简单,知乎的一个页面中会包含很多种类型的图片,有头像,用户评价上传的图片啥的。基本上在noscript种都可以找到对应的图片地址。

    利用node.js写一个爬取知乎妹纸图的小爬虫

    获取这个url的html内容,并且拿到当前页面noscript中的img链接

    这一步我们需要会点简单的nodejs的知识,以及用到一个库叫cheerio,这个库具体是用来做什么的,详细请移步cheerio。

    简单来说就是可以在命令行中使用jQuery来搜索遍历获取相应的元素。

    那么怎样才能获取这个帖子的html呢

    使用nodejs的https模块

    var https = require('https')
    getAllHtml (url, callback) {
     let sHtml = '',
     _this = this;
     https.get(url, (res) => {
     res.on('data', (data) => {
     sHtml += data;
     });
     res.on('end', () => {
     callback.bind(_this, sHtml)();
     })
     }).on('error', (err) => {
     console.log(err);
     });
    }

    通过以上操作拿到网站的html之后,便是遍历出我们需要的图片地址来了

    filterHtml (sHtml, filePath) {
     let $ = cheerio.load(sHtml), // 将上一步拿到的网站html传入cheerio.load,便得到类似于包装过的jQuery对象,可以像jQuey的选择器一样来选择元素
     $Imgs = $('noscript img'),
     imgData = [],
     _this = this;
     $Imgs.each((i, e) => {
     let imgUrl = $(e).attr('src'); //取出对应的url
     imgData.push(imgUrl);
     // 将url传入开始下载
     _this.downloadImg(imgUrl, _this.filePath, 
     function (err) {
     console.log(imgUrl + 'has be down');
     });
     });
     console.log(imgData);
    }

    有了图片的url,如何下载到本地呢?

    我们需要使用request这个库,简单的调用一下api再结合node原生写文件的api。

    downloadImg (imgUrl, filePath, callback) {
     let fileName = this.parseFileName(imgUrl);
     request(imgUrl).pipe(fs.createWriteStream('./' + filePath + '/'+fileName)).on('close', callback && callback);
     }

    到这里就大功告成了,是不是很简单!!!已经将源码上传,欢迎大家下载查看。

    gitHub地址:https://github.com/qianlongo/node-small-crawler

    本地下载地址:http://xiazai.jb51.net/201705/yuanma/node-small-crawler(jb51.net).rar

    总结

    以上就是这篇文章的全部内容了,希望本文的内容对大家学习或者使用node.js能带来一定的帮助,如果有疑问大家可以留言交流,谢谢大家对的支持。

标签:
nodejs爬取动态页面,nodejs爬虫抓取知乎,nodejs,爬取页面

免责声明:本站文章均来自网站采集或用户投稿,网站不提供任何软件下载或自行开发的软件! 如有用户或公司发现本站内容信息存在侵权行为,请邮件告知! 858582#qq.com

《魔兽世界》大逃杀!60人新游玩模式《强袭风暴》3月21日上线

暴雪近日发布了《魔兽世界》10.2.6 更新内容,新游玩模式《强袭风暴》即将于3月21 日在亚服上线,届时玩家将前往阿拉希高地展开一场 60 人大逃杀对战。

艾泽拉斯的冒险者已经征服了艾泽拉斯的大地及遥远的彼岸。他们在对抗世界上最致命的敌人时展现出过人的手腕,并且成功阻止终结宇宙等级的威胁。当他们在为即将于《魔兽世界》资料片《地心之战》中来袭的萨拉塔斯势力做战斗准备时,他们还需要在熟悉的阿拉希高地面对一个全新的敌人──那就是彼此。在《巨龙崛起》10.2.6 更新的《强袭风暴》中,玩家将会进入一个全新的海盗主题大逃杀式限时活动,其中包含极高的风险和史诗级的奖励。

《强袭风暴》不是普通的战场,作为一个独立于主游戏之外的活动,玩家可以用大逃杀的风格来体验《魔兽世界》,不分职业、不分装备(除了你在赛局中捡到的),光是技巧和战略的强弱之分就能决定出谁才是能坚持到最后的赢家。本次活动将会开放单人和双人模式,玩家在加入海盗主题的预赛大厅区域前,可以从强袭风暴角色画面新增好友。游玩游戏将可以累计名望轨迹,《巨龙崛起》和《魔兽世界:巫妖王之怒 经典版》的玩家都可以获得奖励。