总第255期 2011年第1期 计算机与数字工程 Computer&Digital Engineering Vol_39 No.1 14 一种改进的基于二元统计的HMM分词算法 田思虑D 李德华 潘 莹" ’ 430074)(广西大学信息网络中心 南宁530004) (华中科技大学图像识别与人工智能研究所” 武汉摘要中文分词是中文信息处理的基础。基于二元统计的HMM中文分词算法表现良好,但也存在易将包含常用 介、副词的词进行误拆分的问题。改进的分词算法运用逆向最大匹配的思想,在计算粗分集权重的过程中,考虑了分词的词 长及词序对正确切分的有利影响。该算法首先计算出二元统计粗分模型有向边的权值,然后根据词长修定权值,最后运用 最短路径法求出分词结果。实验结果表明,该算法有效的解决了过分拆分的问题,分词效果良好。 关键词中文分词;逆向最大匹配;二元统计模型;HMM模型 TP311 中图分类号Improved 2一Gram HMM Algorithm for Chinese Word Segmentation Tian Silv Li Dehua Pan Ying ’。 (Institute for Pattern Recognition&Artificial Intelligence.Huazhong University of Science&Technology”.Wuhan 430074) (Information Network Center,Guangxi University2 ,Nanning 530004) Abstract Chinese word segmentation is a basic work for Chinese information processing.2-Gram HMM algorithm for Chinese word segmentation is widely used,but easy to bring on wrong adverb word segmentation.Using reverse directional maximum match method(RDM)can lessen the error rate.In the process of calculating rough segmentation set,the improved algorithm adjusts the weights by the word length and words order and obtains the word segmentation result with the shortest path method.Experiment results show that the error rate of the improved algorith is decreased,and the algorithm performs better than the origina1. Key Wa ̄fls Chinese word segmentation。RMM,2-gram model,HMM model Class Nu|T-,er TP31 1 l 引言 词是最小的能够活动的有意义的语言成 分,是自然语言处理系统中重要的知识载体与基本 计的分词方法;3)基于理解的分词方法。实际使 用的分词系统,都是把机械分词作为一种初分手 段,然后还需通过利用各种其他的语言信息来进一 步提高切分的准确率。 国内最早中文开源分词项目之一的ICTCLAS 开源版系统,它采用的五层隐马尔柯夫模型。此系 操作单元口]。中文分词就是由计算机自动识别文 本中的词边界的过程,它是自然语言理解及中文信 息处理中的一个基础性的工作,是诸如自动翻译、 统在中文分词中取得了良好效果,切分正确率达到 97.96 [4]。文本检索、语音识别、文本校对以及搜索技术中的 重要组成部分。分词就是将连续的字符串或序列 按照一定的规范重新组合成词序列的过程__2]。中 文分词技术主要分为三类_3]:1)基于字符串匹配 的分词方法,此方法又称机械分词方法;2)基于统 但是,它也存在一些问题,例如,对由 “上”、“的”等常用介词或副词组成的词如“登上”、 “的确”,有时会将一个词拆分为二。在此背景下, 本文研究了基于二元统计的HMM中语言分词模 型,并结合逆向最大匹配的思想提出了一种有效改 收稿日期:2010年7月21日,修回日期:2010年8月30日 作者简介:田思虑,女,硕士,研究方向:人工智能、数据挖掘。 2011年第1期 计算机与数字工程 进算法,取得了更好的分词效果。 率密度分布的状态序列产生。 2 N一元统计模型 自然语言可以理解成由一个信源产生的信号 中文分词的~元统计模型中,将信号源抽象 为隐马信号源,也就是采用了二元统计模型。而这 时的Markov模型中的状态是我们观察不到的。 而对应正确的切分词的序列就是此隐马模型的真 实序列,而被分词的文本则是此隐马尔柯夫链的观 测值。则在二元统计模型中,中文分词的过程就转 序列,该信源发出的信号就是语言的最小单位一 词。 假设C 是文本中的一个词,如果已知它在该 词前面的词的序列C …C ,便可以用条件概率P (C I C …CH)来预测C 出现的概率。这就是统 化已知隐马模型观测值(文本)求解其真实序列的 值(分词结果)。 计语言模型的概念 。一般来说,如果用变量C 表示信源产生的词序列,它由顺序排列的 个词组 成,即c—c Cz… ,则统计语言模型就是该词序 列(、在文本中出现的概率P(C)。利用条件概率 的乘积公式,P(C)可展开为: P(0一P( )P(C2 lG)P(G l Cl )…P( GG…G) (1) N元统计语言模型的思想是:一个单词的出现 与其上下文环境中出现的单词序列密切相关,第 个词的出现只与前面72—1个词相关,而与其它任 何词都不相关,即:P(C l c …C )===P(C J Cr. …C )所以式(1)变为: P(C)===P(C1)P(C2 IC1)…P((==, l —N+1… 1)(2) 不难看出,词序C出现的概率在于计算P( I G ・・ 一 )的值,而它的精确值是未知的,所以 我们利用统计估计,用频率近似逼近: P(C IC 一卅1…C 一1)≈_厂( N+1… 一1 ) /f(Cn N+1…C}l一1) (3) 其中厂( —N+ … )和.厂( —N+ … 一 )分别 是词 —N+ … 和C 一N+ … 一 训练语言模 型时出现在训练语料库中的次数。假定大数定理 成立,只要训练语料库的容量足够大,频率便趋近 概率。 3基于二元统计的HMM分词模型 定义l设随机过程{Xe,n∈T},若对任意的 整数 ∈T和任意的i。,i 一,i + ∈j,条件概率满 足 P{X 一i 『X0=io,X1一i1,…,X 1=i一1}一 P{X 一i I 一i )则称{X , ∈T}为马尔可 夫链,简称马氏链l7]。 隐马尔可夫模型是马尔可夫链的一种,它的状 态不能直接观察到,但能通过观测向量序列观察 到,每个观测向量都是通过某些概率密度分布表现 为各种状态,每一个观测向量是由一个具有响应概 记录Markov信源产生的词的序列C的某个 可能分词结果为w一(叫 ,…, ),W对应的词的 隐状态序列C一(f ”, )。我们选择最优的隐状 态序列作为我们的分词结果w : W 一maxP(W) (4) 运用贝叶斯条件公式展开得: W 一maxP(W C)P(C) (5) HMM模型中,向量值序列对应的观测值序列 的一阶响应: P(w c)一lJ P(叫 ) (6) 一1 运用二元统计模型,将式(6)代入式(5)得到: W metx U (叫 )户(c 1) (7) i一1 对式(6)取负对数简化运算: lnw =rain∑[一tnp(w c )--lnp(c 1)] 一1 (8) 对w 求解的问题则转化为求此问题的最小值。 对于已收入核心词典的词,P(叫 I C )一1分词 过程中只考虑未录登词的p(w i C )值_4J。 4 结合逆向最大匹配思想的改进算法 4.1 HMM模型分词结果的不足 使用HMM模型进行中文分词的假设是二元 统计模型。它将自然语言简化为一个词C 只与前 面的一个词CH相关,并且在语料库中出现词组 CHC 的条件概率越高,则赋予取此词的权重越 大。然而在自然语言中,如“的”、“在”、“上”等介词 或副词作为单独一个词的频率较高,因此基于 HMM模型的分词方法会有将包含此字的词拆分 的倾向。例如“他说的确实在理”会被拆分为“他/ 说/的/确实/在/理”。其中“在理”就被拆分了。因 此考虑结合逆向最大匹配的方法,保护长词,使同 等条件下,长词更具优势,并且侧重重心在后的词。 田思虑等:一种改进的基于二元统计的HMM分词算法 第39卷 4.2结合逆向最大匹配方法的改进原理 定义2逆向最大匹配(MM)对于文本中的字 串ABC,C∈W,BC∈W,ABC W,W为字典,那 么就取切分A/BCL 。 逆向最大匹配的主要思想就是从后前面匹配, 且词长越长,越具优势。 对于文本中的字串ABC,在前一个词为A的情 况下,字串分词结果为A/ B或A/BC,不仅需要考虑 语料库中P(BIA)和P(BClA)的条件概率,还应考虑 后面接的词B和BC的词长和位置的因素。多数隋况 下,拆分为A/BC比A/B/C更合适。因此赋予后接 词长的词更小的权值(1m的标记“末#末”不算): ,型 一1nw =min{∑[、 i=1 --lnp(wi J ci)--lnp(ci J ci )] 1 /leng ̄(wi)一l ( { )一1 ( fCn一1)} (9) 但若BC、CD都为一个词,字串ABCD拆分为 A/B/ClD比A/BC/D的确准率更高。因为中文语 言特性,重心在后面,所以逆向匹配的效果较好。 因此,赋予实际分词结果中最后一个词与词长成反 比的权值: , 一lnw =min{∑[、 i=1 --lnp(wi lCi)一l ( l 一1)]  ̄length(wi)一[1 ( ICn)一l ( f 一1)] 1 /lnegth(w.一1)} (10) 结合以上两点分析,因此式(10)即为结合逆向 匹配思想修证后的公值。 4.3改进后的分词过程 以文本“他说的确实在理”为例,说明改进后的 中文分词过程: 1)文本首尾分别加“始#始”及“末#末”。则 分词文本修改为“始#始他说的确实在理末#末”。 这样二元统计时,连接“始#始”及其后面一个词的 有向边(即二元词组)的权值表现“始#始”后面的 词为句首的条件概率,同理连接“末#末”前面一个 词和“末#末”的有向边的权值表现“末#末)前面 一个词为句尾的条件概率。 2)依据词典全切分修改过的分词文本。切分 结果:始蒜始f他/说/鹋/的确/确/确实/实/实在, 在/在理/理/末#末。 3)构造基于二元统计的词法树,如图1所示, 此树的结点为全切分结果的每个词,每个边为二元 逻辑的权值即式(1O)平滑后的值。 图1二元逻辑的词法树 图2改进后的词法树 此树有向边的意义:如节点“确实”和节点“在” 之间的有向边,用“确实@在”表示,此边权值的意 义是在前一个词为“确实”的条件下,后一个词是 “在”的权值(由P(确实l在)转化而来)。 4)依据词长修正边的权值。对于一条边连结 的两词,考虑后一个词的词长影响,对于实际结尾 的词,即“末#末”前面一个词,考虑此词词长影响, 修正权值。修正后的词法树如图2所示。 5)求得此树的最短路径作为粗分集[93。示例文 本被切分为“始#始/他/说/的/确实/在理/末#末”。 6)末登录词识别。 7)最终结果。示例文本被切分为“始#始/他 /说/的/确实/在理/末#末”。 5实验结果分析 表1 改进算法前后实验结果 测试用例 ICTCLAS开源版系结合逆向最大匹配 统 思想的系统 他说的确实在他/说/的/确实/在/他/说/的/确实/在 理 理 理 这人的确实在这/人/的/确实/在这/人/的确/实在 是哪只手推动是/哪/只/手/推动/是/哪/只/手/推动/ 绿豆价格大跌绿豆/价格/大跌/呢绿豆/价格/大跌/呢 呢?正如当初/?/正/如/当初/有/?/正如/当初/有 有人将绿豆售人/将/绿豆/售价/人/将/绿豆/售价/ 价猛涨归咎于猛涨/归咎/于/故弄猛涨/归咎/于/故弄 故弄玄虚的张玄虚/的/张/悟本/玄虚/的/张/悟本/ 悟本和他那本和/他/那/本/畅销/和/他/那/本/畅销/ 畅销的《把吃出的/《/把/吃/出来/的/《/把/吃/出来/ 来的病再吃回的/病/再/吃/回去的/病/i ̄i/吃/回去 去》一样,如今/》/一样/,/如今/也/》/一样/,/如今/也 也南入将绿豆/有人f将7绿豆f大f 7奄人/将7绿豆7大/ 大跌价归功于跌价/归功/于/“/张跌价/归功/于/“/张 “张悟本神话”/N/本/神话/”/的//悟/本/神话/”/的/ 的破灭。 破灭/。 破灭/。 (下转第2O页) 曾琳等:基于RBF神经网络的智能PID控制算法 第39卷 自整定后的仿真结果。 保证其它工艺条件的情况下,提高了产品的质量, 降低了能耗,具有一定的经济技术效益。 参考文献 E1]王耀南.智能控制系统EM].长沙:湖南大学出版社, 2006,7:180~205 E23何克忠,李伟.计算机控制系统[M].北京:清华大学出 版社,2004,1:263 ̄265 (b) E3]刘金琨.先进PID控制及MATLAB仿真[M].北京:电 子工业出版社,2003,1:104--111 图6仿真结果 E4]王学雷,邵惠鹤,李亚芬.一种径向基函数神经网络在 6 结语 从仿真结果图6中可以看出,图6(a)有超调且 在80s之前都有振荡现象存在;而图6(b)在35s左 线训练算法及其在非线性控制中的应用EJ].信息与控 制,2001(6):249 ̄253 Es3余丽平.基于虚拟仪器的电阻炉智能温度控制系统的 研究[D].西安:西安建筑科技大学硕士学位论文,2007 右就可以无偏差的跟踪设定值,这说明本文使用的 控制方法可以给出很好的辩识结果,既消除了系统 E63王春民,刘兴明,嵇艳鞠.连续与离散控制系统EM3.北 京:科学出版社,2008:491 ̄-494 由于大时滞引起的超调振荡现象,得到了很好的动 态特性曲线,而且控制效果稳定、快速。此控制算 法已投放入到温度控制系统的研发中,实验表明, E7]王中杰,柴天佑,邵诚.基于RBF神经网络的加热炉钢 温预报模型EJ].系统仿真学报,1999(6):181 ̄184 E8]葛哲学,孙志强.神经网络理论与MATLAB2007实现 [M].北京:电子工业出版社,2007,9:117 ̄126 本系统有较好的控制和跟踪性能,控制精度高,在 4 k d0 k ‘ 、’ E l Ⅳ (上接第16页) 为了考查改进算法的效果,选取了两常用示例 及从网上任意找的新闻中的一段语句运用基于 参考文献 HMM模型分词算法和运用逆向最大匹配改进后 算法进行分词。实验结果如表1所示。比较两算 法的实验结果,原算法对常用副词、介词有错分、错 拆情况。改进后的算法有效改善了情况,取得到了 更好的分词效果。如上面三例中:“在理”、“实在”、 E1]徐飞,孙劲光.中文分词切分技术研究[J].计算机工程 与科学,2008,30(5):126 ̄128 Ez]朱巧明,李培峰.中文信息处理技术教程EM3.北京:清 华大学出版社,2005 E3]赵泉.信息检索EM].北京:机械工业出版社,2008 E4]刘群,张华平,俞鸿魁,等.基于层叠隐马模型的汉语词 法分析EJ].计算机研究与发展,2004,41(8):1421 ̄1429 “正如”这三词,原算法误分或误拆,而改进后的算 法则得到了正确的切分结果。 E53徐望,王炳锡.N-gram语言模型中的插值平滑技术研 究[J].信息工程大学学报,2002,3(4):13 ̄15 [63高山,张艳,徐波,等.基于三元统计模型的汉语分词及 标注一体化研究Ec]//自然语言理解与机器翻译一全 国第六届计算语言合学术会议论文集,2001 E7]刘次华.随机过程EM].武汉:华中科技大学出版社, 2005 6 结语 中文分词是自然语言处理的基础性工作,本文 在保留HMM中文分词模型的二元逻辑优势的基 础上,提出了一种结合逆向最大匹配方法的中文分 词改进算法,该算法考虑了词长及词序对分词效果 的影响,有效的解决了HMM分词模型中的拆分过 分问题。随机选取的文本分词实验结果表明,算法 取得了良好的分词效果,这为下一步进行文本检索 以及文本聚类的工作奠定了基础。 E83翟凤文,赫枫龄,左万利.字典与统计相结合的中文分 词方法EJ].小型微型计算机工系统,2006,27(9):1766 ~1771 Eg]张华平,刘群.N‘最短路径方法的中文词语粗分模型 [J].中文信息学报,2002,16(5):1~7