逆向最大匹配方法
有正即有负,正向最大匹配算法大家可以参阅https://www.jb51.net/article/127404.htm
逆向最大匹配分词是中文分词基本算法之一,因为是机械切分,所以它也有分词速度快的优点,且逆向最大匹配分词比起正向最大匹配分词更符合人们的语言习惯。逆向最大匹配分词需要在已有词典的基础上,从被处理文档的末端开始匹配扫描,每次取最末端的i个字符(分词所确定的阈值i)作为匹配字段,若匹配失败,则去掉匹配字段最前面的一个字,继续匹配。而且选择的阈值越大,分词越慢,但准确性越好。
逆向最大匹配算法python实现:
分词文本示例:
分词词典words.xlsx示例:
#!/usr/bin/env python #-*- coding:utf-8 -*- ''''' 用逆向最大匹配法分词,不去除停用词 ''' import codecs import xlrd #读取待分词文本,readlines()返回句子list def readfile(raw_file_path): with codecs.open(raw_file_path,"r",encoding="ANSI") as f: raw_file=f.readlines() return raw_file #读取分词词典,返回分词词典list def read_dic(dic_path): excel = xlrd.open_workbook(dic_path) sheet = excel.sheets()[0] # 读取第二列的数据 data_list = list(sheet.col_values(1))[1:] return data_list #逆向最大匹配法分词 def cut_words(raw_sentences,word_dic): word_cut=[] #最大词长,分词词典中的最大词长,为初始分词的最大词长 max_length=max(len(word) for word in word_dic) for sentence in raw_sentences: #strip()函数返回一个没有首尾空白字符(‘\n'、‘\r'、‘\t'、‘')的sentence,避免分词错误 sentence=sentence.strip() #单句中的字数 words_length = len(sentence) #存储切分出的词语 cut_word_list=[] #判断句子是否切分完毕 while words_length > 0: max_cut_length = min(words_length, max_length) for i in range(max_cut_length, 0, -1): #根据切片性质,截取words_length-i到words_length-1索引的字,不包括words_length,所以不会溢出 new_word = sentence[words_length - i: words_length] if new_word in word_dic: cut_word_list.append(new_word) words_length = words_length - i break elif i == 1: cut_word_list.append(new_word) words_length = words_length - 1 #因为是逆向最大匹配,所以最终需要把结果逆向输出,转换为原始顺序 cut_word_list.reverse() words="/".join(cut_word_list) #最终把句子首端的分词符号删除,是避免以后将分词结果转化为列表时会出现空字符串元素 word_cut.append(words.lstrip("/")) return word_cut #输出分词文本 def outfile(out_path,sentences): #输出模式是“a”即在原始文本上继续追加文本 with codecs.open(out_path,"a","utf8") as f: for sentence in sentences: f.write(sentence) print("well done!") def main(): #读取待分词文本 rawfile_path = r"逆向分词文本.txt" raw_file=readfile(rawfile_path) #读取分词词典 wordfile_path = r"words.xlsx" words_dic = read_dic(wordfile_path) #逆向最大匹配法分词 content_cut = cut_words(raw_file,words_dic) #输出文本 outfile_path = r"分词结果.txt" outfile(outfile_path,content_cut) if __name__=="__main__": main()
总结
分析分词结果可以知道,机械分词的效果优劣,一方面与分词匹配算法有关,另外一方面极其依赖分词词典。所以若想得到好的分词效果,处理相关领域的文本时,需要在分词词典中加入特定领域的词汇。
以上就是本文关于python实现机械分词之逆向最大匹配算法代码示例的全部内容,希望对大家有所帮助。感兴趣的朋友可以继续参阅本站其他相关专题,如有不足之处,欢迎留言指出。感谢朋友们对本站的支持!
免责声明:本站文章均来自网站采集或用户投稿,网站不提供任何软件下载或自行开发的软件!
如有用户或公司发现本站内容信息存在侵权行为,请邮件告知! 858582#qq.com
暂无“python实现机械分词之逆向最大匹配算法代码示例”评论...
稳了!魔兽国服回归的3条重磅消息!官宣时间再确认!
昨天有一位朋友在大神群里分享,自己亚服账号被封号之后居然弹出了国服的封号信息对话框。
这里面让他访问的是一个国服的战网网址,com.cn和后面的zh都非常明白地表明这就是国服战网。
而他在复制这个网址并且进行登录之后,确实是网易的网址,也就是我们熟悉的停服之后国服发布的暴雪游戏产品运营到期开放退款的说明。这是一件比较奇怪的事情,因为以前都没有出现这样的情况,现在突然提示跳转到国服战网的网址,是不是说明了简体中文客户端已经开始进行更新了呢?
更新动态
2024年11月26日
2024年11月26日
- 凤飞飞《我们的主题曲》飞跃制作[正版原抓WAV+CUE]
- 刘嘉亮《亮情歌2》[WAV+CUE][1G]
- 红馆40·谭咏麟《歌者恋歌浓情30年演唱会》3CD[低速原抓WAV+CUE][1.8G]
- 刘纬武《睡眠宝宝竖琴童谣 吉卜力工作室 白噪音安抚》[320K/MP3][193.25MB]
- 【轻音乐】曼托凡尼乐团《精选辑》2CD.1998[FLAC+CUE整轨]
- 邝美云《心中有爱》1989年香港DMIJP版1MTO东芝首版[WAV+CUE]
- 群星《情叹-发烧女声DSD》天籁女声发烧碟[WAV+CUE]
- 刘纬武《睡眠宝宝竖琴童谣 吉卜力工作室 白噪音安抚》[FLAC/分轨][748.03MB]
- 理想混蛋《Origin Sessions》[320K/MP3][37.47MB]
- 公馆青少年《我其实一点都不酷》[320K/MP3][78.78MB]
- 群星《情叹-发烧男声DSD》最值得珍藏的完美男声[WAV+CUE]
- 群星《国韵飘香·贵妃醉酒HQCD黑胶王》2CD[WAV]
- 卫兰《DAUGHTER》【低速原抓WAV+CUE】
- 公馆青少年《我其实一点都不酷》[FLAC/分轨][398.22MB]
- ZWEI《迟暮的花 (Explicit)》[320K/MP3][57.16MB]