所谓“组词”,就是把一些具有“共同部分”的词组合到一起,如App的关键词包含“腾讯新闻”和“网易新闻”这两个词,就可以组合成“腾讯网易新闻”,而用户搜索时,搜索“腾讯新闻”或“网易新闻”也还是能搜到该App的。
之所有“组词”的需求,主要是由于Appstore对填写的关键词长度有限制(不得大于100个字符),而我们需要填写的关键词串经常大于100字符,因此需要对填写的一堆词进行组词,对可以合并的词尽可能地进行合并,从而能在100字符内尽可能多地展示我们的app信息,增加app被搜索词命中的概率。
组词看似简单,但涉及搜索引擎的分词和检索的基础知识,如果对这些不清楚,就经常会产生如“支付宝”和“宝贝”能否组合成“支付宝贝”这样的疑惑。因此,本文就首先简要介绍下分词和搜索的基本知识,然后再讲下appbk的自动组词方法。
分词技术
现代搜索引擎,都是以“词”为基础单位进行设计的。词是最小的有意义的语言成分。英语等字母语言,其单词天然按照空格隔开,但中文等东亚语种,其词之间并没有明显的分隔符,因此就产生了“分词”的需求。“分词”就是把一个汉语字符串分成一个个词的过程。
分词的例子如“腾讯新闻”的分词为:“腾讯 | 新闻”,“网易新闻” 的为“网易 | 新闻”。
由于中文分词经常会有“歧义”现象,如“兵乓球拍卖完了”可切分为“乒乓球 | 拍卖 |完了”又可以切分为“乒乓球拍| 卖 | 完了”,针对这种情况,搜索系统一般会把两种分词形式都记录下来,以供搜索时使用。
搜索的基础:词袋模型(word of bag)
“词袋模型”是搜索引擎中的一种简单假设,其不考虑词的“顺序”,认为一个文本就是
是一堆词的“集合”。也就是如两个文本“腾讯新闻”、“新闻腾讯”,对搜索引擎而言,是完全一样的。这种假设也是我们能够进行组词的基础。
我们还是以“腾讯新闻”和“新闻腾讯”,以及其组词“腾讯网易新闻”为例,其“词袋”模型如下图所示:
图1 “腾讯新闻”和“新闻腾讯”,及其组词“腾讯网易新闻”的词袋模型
由于“词袋”模型是一个“集合”模型,可以不考虑重复元素,因此上面袋子中的两个“新闻”可以视为一个。从上图中可以看到,“腾讯新闻”+“新闻腾讯”,和“腾讯网易新闻”的词袋模型是完全等价的,也就是说对搜索引擎而言,他们是完全一样的。
然后,我们还可以利用上述模型,简单描述用户搜索的过程。搜索的时候,搜索系统首先会在对用户输入的搜索词进行分词,然后在关键词的“袋子”里面依次查找搜索词的分词。还是上面的例子,如用户搜索“腾讯新闻”时,流程如下图所示:
图2 基于“词袋”模型的查找流程,搜索系统在“词袋”中分别查找“腾讯”和“新闻”这两个搜索词的分词
然后我们再看下“支付宝”和“宝贝”的例子 ,说明为啥他们不能组词。我们把“支付宝”和“宝贝”组成“支付宝贝”,但其分词的时候,可能会分成“支付 | 宝贝”,这种分词歧义就可能造成搜索“支付宝”的时候,搜不到该App,具体如下图所示:
图3 关键词“支付宝”和“宝贝”组成“支付宝贝”后,由于可能的分词歧义,用户搜索“支付宝”时,可能会搜索不到该App。
组词方法
因为搜索系统是以“词”为基础单位进行检索的,因此,首先需要对关键词进行“分词”。然后就是具体的“组词”过程了。
“组词”就是一个分组的过程,我们利用的是机器学习中的“在线聚类”技术,其实就是把字符串中有相同子串的词组合在一起,然后不断循环,直到没有重合的词出现。组词过程中,我们考虑到苹果的规则,一个“词”不能过长,否则可能会被认为是关键词堆砌,因此,我们限制了组词的最大个数,就是最多组合5个词。
在appbk上有一个“组词工具”服务,具体见appbk.com网站的菜单导航栏。它的“推荐组词”结果设置了最大组词个数限制,以‘美女直播,yy视频,交友网站,明星直播’为例,其在上面的组词结果如下图所示:
图4 appbk的组词服务
其中,‘美女直播’和明星直播两个词组合在了一起,省了两个字符和一个逗号的空间。
当然,这个组词工具还给出了不考虑组词长度的结果,就是“最大限度组词”的结果。
逗号问题
“最大限度组词”,其实已经把所有可能组合的词,都组到了一起,但还有用户经常会问,这样的组词还是有“逗号”存在,能不能干脆把全部的逗号都干掉,这样不是能加更多的词吗?
根据上述的“词袋”模型,即使把所有的逗号都干掉,其关键词的“词袋”是没有变化的,因此对搜索的影响不是很大。但考虑到下面的因素,并不建议这样做:
1、苹果规则限制。在2015年之前,很多ASO服务商给出的关键词建议都是没有任何逗号的,但这种情况多了后,苹果的关键词审核就会更严格,这样的形式会被认为是“关键词堆砌”,审核就不通过,因此,组词需要“适度”。
2、权重影响。根据“词袋”模型,用户搜索“腾讯新闻”时,关键词填写“腾讯新闻”或者“腾讯网易新闻”,是都能搜到的,这个是没有问题的。但是,关键词“腾讯新闻”与用户搜索词是完全一致的,这种情况,搜索引擎一般都会有少量的加分。
综合我们的一些实践经验,给出以下建议:
1、组词不宜过长,以不超过5个为宜。
2、对下载量较少的App,不需要刻意的组词,因为你的App基本处在长尾位置,一点点的加分,就可能让你的搜索排名有大幅提升。
3、对应需要“刷”的词,还有核心带量的关键词,建议都用逗号隔开,不进行组词。
本文系作者appbk@刘新鸣原创投稿发布,转载请注明作者信息及出处。
RTX 5090要首发 性能要翻倍!三星展示GDDR7显存
三星在GTC上展示了专为下一代游戏GPU设计的GDDR7内存。
首次推出的GDDR7内存模块密度为16GB,每个模块容量为2GB。其速度预设为32 Gbps(PAM3),但也可以降至28 Gbps,以提高产量和初始阶段的整体性能和成本效益。
据三星表示,GDDR7内存的能效将提高20%,同时工作电压仅为1.1V,低于标准的1.2V。通过采用更新的封装材料和优化的电路设计,使得在高速运行时的发热量降低,GDDR7的热阻比GDDR6降低了70%。
更新动态
- 凤飞飞《我们的主题曲》飞跃制作[正版原抓WAV+CUE]
- 刘嘉亮《亮情歌2》[WAV+CUE][1G]
- 红馆40·谭咏麟《歌者恋歌浓情30年演唱会》3CD[低速原抓WAV+CUE][1.8G]
- 刘纬武《睡眠宝宝竖琴童谣 吉卜力工作室 白噪音安抚》[320K/MP3][193.25MB]
- 【轻音乐】曼托凡尼乐团《精选辑》2CD.1998[FLAC+CUE整轨]
- 邝美云《心中有爱》1989年香港DMIJP版1MTO东芝首版[WAV+CUE]
- 群星《情叹-发烧女声DSD》天籁女声发烧碟[WAV+CUE]
- 刘纬武《睡眠宝宝竖琴童谣 吉卜力工作室 白噪音安抚》[FLAC/分轨][748.03MB]
- 理想混蛋《Origin Sessions》[320K/MP3][37.47MB]
- 公馆青少年《我其实一点都不酷》[320K/MP3][78.78MB]
- 群星《情叹-发烧男声DSD》最值得珍藏的完美男声[WAV+CUE]
- 群星《国韵飘香·贵妃醉酒HQCD黑胶王》2CD[WAV]
- 卫兰《DAUGHTER》【低速原抓WAV+CUE】
- 公馆青少年《我其实一点都不酷》[FLAC/分轨][398.22MB]
- ZWEI《迟暮的花 (Explicit)》[320K/MP3][57.16MB]