中文分词 | 张新星的博客 - 《跟我学SEO从入门到精通》作者 | CRAZYSEO创始人
Skip to content

Tag Archives: 中文分词

正确理解搜索引擎内容处理和索引

19-五-16

搜索引擎蜘蛛对网站进行了爬行和抓取后,接下来的一步就是对抓取的内容进行预处理,也被称为“索引”。主要包括提取文字、中文分词、去停止词、消除噪声、去重、正向索引、倒排索引、链接关系计算和特殊文件处理几个方面。

搜索引擎蜘蛛抓取的原始页面,并不能直接用于查询排名处理。搜索引擎数据库中的页面数都在数万亿[......]

Read more

搜索引擎中文分词的基础原理

27-四-16

当搜索引擎蜘蛛将网站内容索引后就会通过中文分词技术进行入库,这是一个庞大的工程,百度搜索引擎对中文分词技术掌握非常熟练,这也就是为什么在中文搜索领域百度搜索引擎一直都是独大的原因,下面CRAZYSEO工程师给大家简单的分析一下百度中文分词的基本原理。
1.字符串匹配的分词方法
首先来看正向最大匹[......]

Read more