落伍者站长论坛's Archiver

谁知道 发表于 2008-4-23 20:13

ThinkPHP的中英文分词扩展[演示][下载]

ThinkPHP的中英文分词扩展[演示][下载]
[url]http://www.easyustc.com/fenci/[/url]
分词扩展提供下载啦

大家可以试用一下。如果平时使用过程中发现有一些分词不正确,可以到
[url]http://www.easyustc.com/fenci/build_sqlite.php[/url]
来修正字典,帮助我们优化字典。同时你也可以在这里下载最新的字典版本。

可以对全半角混合了标点的中英文句子进行分词。可以自己选择最大词组字长、标点断句最小词组字长、是否保留分词结果中的单个字、是否保留标点符号等功能。更加详细的说明请查看下载包里面的Readme.txt

默认提供一个sqlite的字典文件。如果你的虚拟主机不支持sqlite,你可以将其导入mysql或自己造其他的字典。
由于本人能力有限,可能效率上不能令大家满意,请多包含。
字典的挂载、卸载和查询都将函数分离了,修改起来应该很容易。核心分词算法只需要findinDict返回一个true或者false告诉我字典中是否有这个词就行了。

还有一个需要注意的就是mbstring的扩展是必须的。没办法啊,中英文、全半角混合在一起分词,不用mbstring在计算句子长度等方面都很困难。

程序默认是作为ThinkPHP的扩展提供的,但是你可以去掉extends Base,直接使用分词类。Apache2开源协议,SO,用于商业闭源也无所谓啦,如果你不嫌弃我的程序的话
如果你对分词扩展有什么建议,或者发现程序有问题,请到ThinkPHP论坛来发帖 [url]http://bbs.thinkphp.cn/forumdisplay.php?fid=5[/url]
关于分词算法问题,大家看看程序应该没有太多问题,我都写了注释的。
这里有一篇我很久以前写的关于分词的文章
[url]http://hi.baidu.com/yhustc/blog/item/a8aa334bdcfba0f383025cb1.html/cmtid/e4ff63fa9ef0a1dbb58f31f4#e4ff63fa9ef0a1dbb58f31f4[/url]

谁知道 发表于 2008-4-23 20:29

多谢鱼的支持.

sickog 发表于 2008-4-23 20:33

好动东!分词对我们来说是高科技啊

luheboy 发表于 2008-4-23 20:36

实际用处不知道有什么用
另外,中国的文字博大精深,很多都会不准确的

忘记 发表于 2008-4-23 20:39

不错。。

sunnyv 发表于 2008-4-23 20:44

呵呵
支持一下,尽管俺不懂这个

GoogleSpider 发表于 2008-4-23 22:31

和 hightman的 [url]http://www.hightman.cn/demo/scws/v48.php[/url] 分词有什么渊源吗。

silkroad 发表于 2008-4-23 22:31

学习

loiter 发表于 2008-4-23 22:34

记得1年前见过一个功能一样的网站
我还用它的分词功能整理我采集的文章

netbei 发表于 2008-4-24 00:32

感谢,收了
[url]http://www.codepub.com/software/fenci-11617.html[/url]

maczone 发表于 2008-4-24 01:51

好东西,收下了

小陆橙子 发表于 2008-4-24 05:52

东西不错。收了

软硬兼施 发表于 2008-4-24 06:05

*** 作者被禁止或删除 内容自动屏蔽 ***

软硬兼施 发表于 2008-4-24 06:05

*** 作者被禁止或删除 内容自动屏蔽 ***

软硬兼施 发表于 2008-4-24 06:20

*** 作者被禁止或删除 内容自动屏蔽 ***

软硬兼施 发表于 2008-4-24 06:50

*** 作者被禁止或删除 内容自动屏蔽 ***

boats 发表于 2008-4-24 08:48

暂时不用

yaren 发表于 2008-4-24 08:52

见过,看看词典

renothing 发表于 2008-4-24 09:25

我也想知道,跟hightman的比,有什么优点缺点

yuewolf 发表于 2008-4-24 11:26

[quote]原帖由 [i]sickog[/i] 于 2008-4-23 20:33 发表 [url=http://www.im286.com/redirect.php?goto=findpost&pid=25592743&ptid=2535463][img]http://www.im286.com/images/common/back.gif[/img][/url]
好动东!分词对我们来说是高科技啊 [/quote]

页: [1] 2 3 4 5

Powered by Discuz! Archiver 6.1.0  © 2001-2007 Comsenz Inc.