`
gladstone
  • 浏览: 68613 次
  • 性别: Icon_minigender_1
  • 来自: 上海
最近访客 更多访客>>
社区版块
存档分类
最新评论

[全文检索] 庖丁叔叔的逆袭

阅读更多
[全文检索]离开lucene姑娘的日子 里面也有提到. lucene本身自带的StandardAnalyzer对于中文的分词相当弱智。

前段时间试了试庖丁分词:

Paoding Analysis摘要

Paoding's Knives 中文分词具有极 高效率高扩展性 。引入隐喻,采用完全的面向对象设计,构思先进。

高效率:在PIII 1G内存个人机器上,1秒 可准确分词 100万 汉字。

采用基于 不限制个数 的词典文件对文章进行有效切分,使能够将对词汇分类定义。

能够对未知的词汇进行合理解析



实际上试试:




输出:





分词的时候还可以,但是真正替换StandardAnalyzer就遇到点问题。估计是分词器有回写机制,服务器上开5个线程闹的内存不够用...



没有细致理解运行机制,也不好说庖丁同学的不是。还有可能试配置的问题吧。先放着,再议。


 发布时间:2008-11-14 02:00:03 | 阅读:249 | 评论:0 
分享到:
评论

相关推荐

Global site tag (gtag.js) - Google Analytics