联网的出现和迅速发展使信息检索的环境发生了重大变化。而基于互联网的搜索引擎的排名算法直接关系到用户在新的环境里进行信息检索的使用体验。 现有的搜索引擎排名算法,以基于网页链接结构的算法为主,主要的两种代表性算法是PageRank算法和Hits算法,基于这两种算法国内外许多学者和研究机构又进行了新的探索和改进。
在此基础上形成了一些适于搜索引擎使用的成熟的综合排名模型。 本文研究分析了国内外搜索引擎的发展背景,以及对搜索引擎排序有重要影响的SEO技术。在此基础之上,对PageRank算法和Hits算法进行了深入的分析。
一、PageRank
算法PageRank是最著名的搜索引擎Google采用的一种算法策略,是根据每个网页的超级链接信息计算网页的一个权值,用于优化搜索引擎的结果。由拉里-佩奇提出。
简单说,PageRank算法是计算每个网页的综合得分数,即假如网页A链向网页B,则网页B加一分,当然。不同链接网页对于指向网页的加分也是不同的,一个页面的得分情况是由所有链向它的页面的重要性经过递归算法得到的。
PageRank算法的基本原理推导如下:
PR(A) = (1-d) + d*(PR(T1)/C(T1) + ... + PR(Tn)/C(Tn))
其中,PR(A)是指网页A的PR值。
T1,T2,...,Tn是指网页A的链入网页。
PR(Ti)是指网页Ti的PR值(i=1,2,...,n)。
C(Ti)是指网页Ti的链出数量(i=1,2,...,n)。
D是一个衰减因子,0<d<1,通常取值为0.85。
从以上公式可以看出,影响一个网页PR值的主要因素如下:
(1)该网页的链入数量。
(2)该网页的链入网页本身的PR值。
(3)该网页的链入网页本身的链出数量。
根据上面分析可以判断:一个网页的链入数量越多,这些链入网页的PR值越高,这些网页本身的链出数量越少,则该网页的PR值越高。
Google给每一个网页都赋予一个初始PR值(1-d),然后利用PageRank算法收敛计算其PR值。
网页的链入链出关系,时刻都在变化,那么PR值也需要更新,可以用定时任务重复计算后更新,使得网页的最终PR值达到一个均衡稳定的状态。
Google的查询过程是这样的:首先根据用户输入的查询关键词对于网页数据库中的网页尽情匹配,然后对于匹配到的网页按照其本身的PR排序呈献给用户。
此外,一个网页在检索结果列表中的位置还与其它很多因素相关,比如检索词在网页中的位置等。
PageRank的缺陷在于不考虑链接的价值,这对通用搜索引擎比较合适,但对主题相关的垂直搜索引擎而言并不是很好的策略。
二、HITS
PageRank算法对于向外链接的权值贡献是平均的,即不考虑不同链接的重要性,但是页面链接中可能某些是广告、导航或者注释链接,平均权值显然不太符合实际情况。
HITS(Hyperlink Induced Topic Search)算法则是一种经典的专题信息提取策略,能够提高垂直查准率。
1、原理
HITS算法由Jon Kleinberg提出,其对每个网页都要计算两个值:权威值(authority)和中心值(hub)。
(1)权威网页
一个网页被多次引用,则它可能是很重要的;一个网页虽然没有被多次引用,但是被重要的网页引用,则它也可能是很重要的;一个网页的重要性被平均的传递到它所引用的网页。这种网页称为权威网页。
(2)Hub网页
提供指向权威网页的链接集合的Web网页,它本身可能并不重要,或者说没几个网页指向它,但是它提供了指向就某个主题而言最为重要的站点的链接集合,这种网页叫做Hub网页。
(3)算法思想
首先利用通用搜索引擎得到一个网页的初始子集I,当然I内的页面都是和用户查询条件有很大相关性。然后把I指向的网页和指向I的网页都包含进来,形成基础集合E,E中的每个页面都具有一个authority权值和hub权值,分别记作a和h,a值表示网页与查询条件相关度的高低,h反应的是该页面链出相关度页面的多少情况。a=(a1, a2, ..., an)和h=(h1, h2, ..., hn)代表E中所有网页的authority和hub向量,初始时把所有的ai和hi都设置为1,然后利用下面的公式进行计算:
其中,B(i)和F(i)分别表示指向该网页的网页链接集合和该网页指向的网页链接集合。用n*n的矩阵A表示集合E的网页节点间的连接,如果节点i和节点j之间有连接,则A[i,j]=1,则A[i,j]=0,因此,上面公式可以表示为:
迭代计算a和h,直至收敛。这样我们集中求ATA和AAT。最后按照authority和hub值排序,将a和h值大于阈值M的网页挑出来。
若一个网页由很多好的hub指向,则其权威值会相应增加;若一个网页指向很多好的权威页,则hub值也会相应增加。HITS算法最后输出的一组具有较大hub值的网页和具有较大权威值的网页。
2、缺陷
HITS算法在提高一定的垂直查准率的同时,也存在如下缺陷:
(1)HITS算法忽略了网页内容的差异,对于每个链接网页赋予相同的加权常数,因为每个网页中都会有一些广告链接等非相关的链接网页,这些非相关网页和相关网页同等对待,会容易产生主题漂移现象。
(2)在开始形成url集合E中,对于初始集合I中网页的一些非相关链接也加入到E中,增加了无谓的下载量,也致使后边更多的无关网页参与到了计算,对准确率存在一定的影响。
3、改进
改进方向如下:
(1)主题漂移
(2)下载过滤
以上就是搜索引擎技术之排序算法,虽然公式有点麻烦,但是仔细钻研的话就会有所收获的哦,谢谢大家阅读。
《魔兽世界》大逃杀!60人新游玩模式《强袭风暴》3月21日上线
暴雪近日发布了《魔兽世界》10.2.6 更新内容,新游玩模式《强袭风暴》即将于3月21 日在亚服上线,届时玩家将前往阿拉希高地展开一场 60 人大逃杀对战。
艾泽拉斯的冒险者已经征服了艾泽拉斯的大地及遥远的彼岸。他们在对抗世界上最致命的敌人时展现出过人的手腕,并且成功阻止终结宇宙等级的威胁。当他们在为即将于《魔兽世界》资料片《地心之战》中来袭的萨拉塔斯势力做战斗准备时,他们还需要在熟悉的阿拉希高地面对一个全新的敌人──那就是彼此。在《巨龙崛起》10.2.6 更新的《强袭风暴》中,玩家将会进入一个全新的海盗主题大逃杀式限时活动,其中包含极高的风险和史诗级的奖励。
《强袭风暴》不是普通的战场,作为一个独立于主游戏之外的活动,玩家可以用大逃杀的风格来体验《魔兽世界》,不分职业、不分装备(除了你在赛局中捡到的),光是技巧和战略的强弱之分就能决定出谁才是能坚持到最后的赢家。本次活动将会开放单人和双人模式,玩家在加入海盗主题的预赛大厅区域前,可以从强袭风暴角色画面新增好友。游玩游戏将可以累计名望轨迹,《巨龙崛起》和《魔兽世界:巫妖王之怒 经典版》的玩家都可以获得奖励。
更新动态
- 凤飞飞《我们的主题曲》飞跃制作[正版原抓WAV+CUE]
- 刘嘉亮《亮情歌2》[WAV+CUE][1G]
- 红馆40·谭咏麟《歌者恋歌浓情30年演唱会》3CD[低速原抓WAV+CUE][1.8G]
- 刘纬武《睡眠宝宝竖琴童谣 吉卜力工作室 白噪音安抚》[320K/MP3][193.25MB]
- 【轻音乐】曼托凡尼乐团《精选辑》2CD.1998[FLAC+CUE整轨]
- 邝美云《心中有爱》1989年香港DMIJP版1MTO东芝首版[WAV+CUE]
- 群星《情叹-发烧女声DSD》天籁女声发烧碟[WAV+CUE]
- 刘纬武《睡眠宝宝竖琴童谣 吉卜力工作室 白噪音安抚》[FLAC/分轨][748.03MB]
- 理想混蛋《Origin Sessions》[320K/MP3][37.47MB]
- 公馆青少年《我其实一点都不酷》[320K/MP3][78.78MB]
- 群星《情叹-发烧男声DSD》最值得珍藏的完美男声[WAV+CUE]
- 群星《国韵飘香·贵妃醉酒HQCD黑胶王》2CD[WAV]
- 卫兰《DAUGHTER》【低速原抓WAV+CUE】
- 公馆青少年《我其实一点都不酷》[FLAC/分轨][398.22MB]
- ZWEI《迟暮的花 (Explicit)》[320K/MP3][57.16MB]