捷易通下载,捷易通购买

最新更新
捷易通下载,chainshop浅谈百度的中文分词三点原理

chainshop浅谈百度的中文分词三点原理

(2011-01-26)
捷易通下载,chainshop浅谈百度的中文分词三点原理

分享到:

百度中文分词算法:指搜索引擎为了更好的辨别用户的需求,并且为了快速提供给用户需求性信息而使用的算法。

搜索引擎要在单位时间内处理千万亿级的页面数据量,因此搜索引擎拥有一个中文词库。比如百度现在大约有9万个中文词,那么搜索引擎就可以对千亿级的页面进行分析,按照中文词库进行了分类。

百度分词基本有三种分法

1、基于理解:傻瓜式匹配,小于等于3个中文字符百度是不进行切词的,比如搜索“捷易通”。

2、基于统计:百度把一个词标红的原因:标红的词一般是一个关键词,你搜索“捷”字的时候,百度它自认的把“捷易通”也当成了一个关键词,所以出现这个词标红,这就是百度分词法:基于统计分词。

3、基于字符串匹配(百度的分词法:正向最大切词法)
最大与最小(最大匹配:一直匹配到没词可配;最小匹配:匹配出词了就停止匹配,再从另一个词开始匹配)比如:百度搜索“捷易通自动充值软件”,百度的一个分词算法我们把它当成一个黑盒子,我们通过一些输入关键词,根据百度的输出结果来判定百度的分词算法。

文章标题:

chainshop浅谈百度的中文分词三点原理


来原网址:http://www.jieyt.com/gonggao/zuixin/253.html

上一篇:chainshop讲微博:(三)企业如何通过微博做营销? 下一篇:2011年微博营销趋势


收藏到:

更多