设为首页收藏本站

LUPA开源社区

 找回密码
 注册
文章 帖子 博客
LUPA开源社区 首页 业界资讯 软件追踪 查看内容

jcseg-1.9.3发布 - Java轻量级开源中文分词器-maven托管+优化

2014-2-27 11:36| 发布者: 红黑魂| 查看: 2755| 评论: 0|来自: 开源中国

摘要: Jcseg是使用java开发的一款轻量级的开源中文分词器, 并且提供了最新版本的lucene和solr分词接口.Jcseg-1.9.3更新内容:1. 更改为maven托管,同时也支持原始的ant编译,毕竟现在大部分的项目都使用了maven托管。2. 优 ...

Jcseg是使用java开发的一款轻量级的开源中文分词器, 并且提供了最新版本的lucene和solr分词接口.

Jcseg-1.9.3更新内容:

1. 更改为maven托管,同时也支持原始的ant编译,毕竟现在大部分的项目都使用了maven托管。

2. 优化复杂英文组合的二次切分,减少了一些没必要的追加调用。 

3. 更换了复杂英文切分中二次切分词条和原词条的输出顺序,因为同义词追加的功能,二次切分的词条放在前面更合理。 

4. 修复词库加载停止词长度限制判断的bug(老bug了)。 

5. PushbackReader的内存溢出bug。 
    使用JDK自带的PushbackReader需要指定缓冲区的大小,虽然我选择了一个合适的值,但是还是出现了网友报告缓冲区溢出的错误,这次重写了IPushbackReader,提供类似PushbackReader类似的接口,不会再出现该问题。

感谢广大网友的一直关注和反馈。

祝大家工作愉快。


酷毙

雷人

鲜花

鸡蛋

漂亮
  • 快毕业了,没工作经验,
    找份工作好难啊?
    赶紧去人才芯片公司磨练吧!!

最新评论

关于LUPA|人才芯片工程|人才招聘|LUPA认证|LUPA教育|LUPA开源社区 ( 浙B2-20090187 浙公网安备 33010602006705号   

返回顶部