福建电脑
UJIAN COMPUTER
一种改进的正向最大匹配算法
严良达
(:淅江工商职业技术学院浙江宁波3150:12)
【摘要】中文分词技术是搜索引擎进行中文文本分析的关键,分词技术的好坏直.接影响搜索引擎的实用性,本文在 斫究现有正向.录大匹配算法的基础上,设计了一种新的改进的中文分词方法,并且通过验证表明了可以得到更好的分词速度和.准确率。
【关键词】中文分词;搜索§丨擎;算法0引言
中文分询技术是处_文本信息的关键技术之一 a中:文分词 是指将连续的汉字淨列按照规纖_萧鼠會成词:序列^坻年来, 随着牛文搜索引擎的广泛应用s中文分词算法取得了较大的进 步,成为了償息检索领域的研究热A
1国内外研究现状
词基最小的能够齡赫动昀會意义的语If成分,中文星每 个词中间不使用S:格分隔开,所以对于中文分词技术的研究显 得非秦童魏*中文分诃技术在搜索引擎、机器翻铎、自动摘要、 语音合成等方面广泛使用,中文分词技术依然在稳步ir行,进 步明显a依照搜索引擎技术的发展趋势来看.,国外搜索引擎的 研究要领先于中文的搜索引擎技术,由于中文语言使用的复杂 性,中文搜索引擎开发时不适宜复接采取国外的技术,必须要 鼓过中立分词相关的处理。
2正向最大匹配算法概述在;中文_技术中s _
最大匹12算翁在轉前的机械分词
中占据主流地位f其基本设想是,■在机器中存在一个词典,其中 的词条食有Y个获學,利用K尙靖大E:配分词的时徽,,先取扭 麥匹配_符串描翁Y +
_
词典进行强配。在词典中进flu
配,如果纖嫌宇符串,扉么載西配成功分出改词存然后从下一 个宇开始*再取出Y个-赛词典中进行B配,却果没管1S配成 功,则在待E配的#輕串减少一个条痛下的Y-1个♦符歡成 新的字符_再进行匹配,这样进行1=去,麗_¥符串切分成功 为止^
隹ftE向焉犬撕配的算法存在以下:不& 1、初始最大词长 设置不會繼。2、“__长词优先_”曝卿覆盖稼:围不合SL. 3、匹配词长 麵
流
跡
魏
3 _种改进的中文分词方法思路
裉据i述最配津法前不甚,本文提出了改进的中:文:正: 尙最;^_算法》具体可做如下的优化:
1、动态的设置初猜章大词长的匹配》棊:于1£商章大国配算 法改进:对予:霱SKm参符串中集n个字.我们选择以这个字
为霄執它的词长翁围为本太于Y-n+b
选择这个长度对
子豫字和整个字:符串都碁ft奮麄的取值,最變一定W以在傳典 中找到以该宇为首字的相关词《
2、根 据不同的饲长畫设匹配长SJE向最太E配算法匹 配失败的时候,就需:裏我们改变最大词长,这:裏暴取的是_次 减少一个字的方式,而在词典中词的长度常常是不确定的,这 样的谣每次减一的算法会摩哺分词速倉-3、
对f待K配的宇符串:整体.采取*长珂ft先、Kft最配算法是从待匹配学符串的第一个字进佇匹配,这样“长词优 IT的规则仅仅蟇对—
符串第一个宇歸围内使用,没有实规
寒聱个待ff配字符串中的卵4 _果扉够将“长词优先\"的朦则 优先獅:到整个轉IB酿参雜串中,靡么切分出的词数可能会吏 少》根据最少切分摩遐合词数量鑛少则ffi瑜寒越高。
改-磨的算法,对子_座配文本中所有的字在字符串中所 处的位萱以及该宇在词典中#座的词悬导我酿当前藤和 15®长麇,这样可以避免不必要的歧义结果,_豇以根据改 进算法的需求对传统词典的结构进行优化。
4结束语
中文分词技术蘧自然语言赴理中一个遠#本和核心的向 题,在信息检索、文本校对等多方面有着寒要的意义。本文对传 统正向最大匹配算法进行了研究,提出了一种IBM最太鹿配# 法的改进,#验怔:r其苺行性*
参考文献:
['ll主蟪雷:等,一翁改进的中丈分词正向最大匹*算法{j1计算权应..痢 与软件,2011,28,0):: 195-197
[2]吴瓜信息翁索中的中文分词同题研究.情报杂志,2008,7:.42 [3-]:叶蠢乎,张桎珠,_文分詞詞典结构的.研究与改进Ij],计算私工程 ^ &U ,2012(23): 139-142
作者简介:
产泉达.(1980- h男,.汉族,宁波人,许师,主要从事软件技术方面 教学研愿
2017.年第12斯
福建电脑 •iss-
大B
因篇幅问题不能全部显示,请点此查看更多更全内容
Copyright © 2019- jqkq.cn 版权所有 赣ICP备2024042794号-4
违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com
本站由北京市万商天勤律师事务所王兴未律师提供法律服务