搜索引擎中文分词的基础原理 | 张新星的博客 - 《跟我学SEO从入门到精通》作者 | CRAZYSEO创始人
Skip to content

搜索引擎中文分词的基础原理

当搜索引擎蜘蛛将网站内容索引后就会通过中文分词技术进行入库,这是一个庞大的工程,百度搜索引擎对中文分词技术掌握非常熟练,这也就是为什么在中文搜索领域百度搜索引擎一直都是独大的原因,下面CRAZYSEO工程师给大家简单的分析一下百度中文分词的基本原理。
1.字符串匹配的分词方法
首先来看正向最大匹配法,就是把一个词从左至右来分词。举个例子:“不知道你在说什么”,这句话采用正向最大匹配法是如何分的呢?“不知道,你,在,说什么”与正向最大匹配法相对应的是反向最大匹配发。这是第二种分词方法。
其次是反向最大匹配法,来分上面我举的例子是如何分的呢 “不知道你在说什么”。反向最大匹配法来分上面这段是如何分的。“不,知道,你在,说,什么”,这个就分的比较多了,反向最大匹配法就是从右至左。
最后是最短路径分词法。这个什么理解呢 ,就是说我一段话里面要求切出的词数是最少的。还是上面哪句话“不知道你在说什么”最短路径分词法就是指,我把上面哪句话分成的词要是最少的。不知道,你在,说什么,这就是最短路径分词法,分出来就只有2个词了 。好了,当然还有上面三种可以相互结合组成一些分词方法。比如正向最大匹配法和反向最大匹配法组合起来就可以叫做双向最大匹配法。
2.词义分词法
这种其实就是一种机器语音判断的分词方法。很简单,进行句法、语义分析,利用句法信息和语义信息来处理歧义现象来分词,这种分词方法,现在还不成熟。处在测试阶段。
3.统计的分词方法
这个很简单,就是根据词组的统计,就会发现两个相邻的字出现的频率最多,那么这个词就很重要。就可以作为用户提供字符串中的分隔符。这样来分词。比如,“我的,你的,许多的,这里,这一,那里”。等等,这些词出现的比较多,就从这些词里面分开来。
这些分出来的词,把他们都作为你站点的主题页,导入链接权重上来了,竞争力就大了,因为这些页面把他内链起来。用锚链接,指向主页的目标关键词。呵呵,这就是分词的好处。他能够提升目标关键词的排名的竞争力也同时给站点带来一定流量。一旦导入链接权重上来了,竞争力就大了,因为这些页面把他内链起来。
中文分词问题是绝大多数中文信息处理的基本问题,在搜索引擎、推荐系统(尤其是相关主题推荐和基于内容的过滤推荐)、大量文本自动分类等方面是一个关键部件。

Post a Comment

You must be logged in to post a comment.