正在加载...
2009-4
19
发表于: 毕业就业 | 作者: | 目前已阅读: 18,596 次
标签:

由于毕业设计的题目选定了《中文分词》相关的分词工具包设计与开发,现在进入了正式的编码阶段。暂时把之前收集或了解的有关中文分词的信息整理一下。

1.1.什么是分词

分词,从简单意义上理解就是机器通过某些方法把句子中的词汇提炼出来,这些词能够概括地表达出这个句子的含义。比如:“我打算去做分词的研究”这是个完整的句子,分词后为“我/打算/去/做/分词/的/研究”,概括起来就是“打算/分词/研究”。虽然世界上不同语言分词的目的大体相同,但由于语言不同、词汇词典不同,所以对分词的方式方法因语言特色而大不相同。英法语系的分词相对容易,因为他们句子中的单词以空格分开,不像日文这样以标点符号作为分割,存在拆词现象。所以分词算法的设计和词典的研究在中文分词开发中更有难度。

1.2.分词的作用

“词是最小的能够独立活动的有意义的语言成分”[1],所以从模糊的句子通过分词提炼出来关键性质的词汇后,最大的意义就是可以让机器了解句子的含义,从而更贴合语言意义地去进行下一步的操作。于是分词成为自然语言处理、智能处理等领域的基石。比如:信息检索、文本校对,文字识别,机器翻译,以及更深层次上的语音识别、人工智能、机器对话、数据挖掘以及专家系统等方面。所以深入研究和实践中文分词工作,是中文语言处理的决胜性的第一步。

1.3 分词研究相关理论文档

1.Jianfeng Gao, Mu Lin, Andi Wu, Chang-Ning Huang, Chinese Word Segmentation: A Pragmatic Approach. Microsoft Research 2004. 这是微软亚洲研究院对MSRSeg的实现方法的详细描述,内容非常详细。
2.Hua-ping Zhang, Qun Liu, Chinese Lexical Analysis Using Hierarchical Hidden Markov Model. SIGHAN 2003. 这是对中科院计算所的ICTCLAS系统算法的描述,主要利用了分层HMM模型。
3.Hua-ping Zhang, Qun Liu, Automatic Recognition of Chinese Unknown Words Based on Roles Tagging. 这是对ICTCLAS中命名实体和新词的识别做出的解释。
4.Guohong Fu, Kang-Kwong Luke, Chinese Named Entity Recognition using Lexicalized HMMs. 关于HMM在命名实体识别中的描述。
5.A Tutorial on Hidden Markov Models and Selected Applications in Speech Recognition。关于HMM的教程,比较详细。

1.4分词目前研究状况

目前研究中文分词的大多是科研院校,清华、北大、中科院、北京语言学院、东北大学、IBM研究院、微软中国研究院等都有自己的研究队伍。
1.4.1
Google的中文分词技术采用的是美国一家名叫 Basis Technology(http://www.basistech.com)的公司提供的中文分词技术,百度使用的是自己公司开发的分词技术,中搜使用的是国内海量科技(http://www.hylanda.com)提供的分词技术。业界评论海量科技的分词技术目前被认为是国内最好的中文分词技术,其分词准确度超过99%,由此也使得中搜在搜索结果中搜索结果的错误率很低。
1.4.2 计算所汉语词法分析系统 ICTCLAS


中国科学院计算技术研究所在多年研究基础上,耗时一年研制出了基于多层隐马模型的汉语词法分析系统 ICTCLAS(Institute of Computing Technology, Chinese Lexical Analysis System),该系统的功能有:中文分词;词性标注;未登录词识别。分词正确率高达97.58%(最近的973专家组评测结果),基于角色标注的未登录词识别能取得高于90%召回率,其中中国人名的识别召回率接近98%,分词和词性标注处理速度为31.5KB/s。ICTCLAS 和计算所其他14项免费发布的成果被中外媒体广泛地报道,国内很多免费的中文分词模块都或多或少的参考过ICTCLAS的代码。

下载页面: http://www.nlp.org.cn/project/project.php?proj_id=6

由于 ICTCLAS 是由 C 语言写成的,现在主流的开发工具用起来不太方便,于是有一些热心的程序员把 ICTCLAS 改为 Java 和 C# 等其他语言。

(1)fenci,Java 的 ICTCLAS,下载页面: http://www.xml.org.cn/printpage.asp?BoardID=2&id=11502

(2)AutoSplit,另一个 Java 的 ICTCLAS,已经找不到下载页面,点击本地下载

(3)小叮咚中文分词,曾经有下载页面,现在找不到了。据作者介绍,从 ICTCLAS 中改进,有 Java,C# 和 C++ 三个版本,介绍页面: http://www.donews.net/accesine

1.4.3 海量智能分词研究版

海量智能计算技术研究中心为了使中文信息处理领域的研究者们能够共同分享海量智能中心的研究成果,共同提高中文信息处理水平,特此发布《海量智能分词研究版》,供专家、学者和爱好者进行研究。

下载页面: http://www.hylanda.com/cgi-bin/download/download.asp?id=8

1.4.4. 其他

(1)CSW中文智能分词组件

运行环境:Windows NT、2000、XP 或更高,可以在 ASP,VB 等微软的开发语言中调用。

简介: CSW中文智能分词DLL组件,可将一段文本自动的按常规汉语词组进行拆分,并以指定方式进行分隔,且可对其拆分后的词组进行语义、词频标注。其广范应用于各行各业的信息资料检索、分析。
下载页面: http://www.vgoogle.net/

(2) C# 写的中文分词组件
据作者介绍,一个 DLL 文件,可以做中英文分词组件。完全C#托管代码编写,独立开发。
下载页面: http://www.rainsts.net/article.asp?id=48
1) MSRSeg from Microsoft Research
http://research.microsoft.com/~jfgao/
2) Hylanda
http://www.hylanda.com/cgi-bin/download/download.asp?id=8
3) HIT
http://ir.hit.edu.cn/phpwebsite/index.php?module=announce&ANN_user_op=view&ANN_id=106
4) NEUCSP from Northeast University, China
http://www.nlplab.com/download/CIP/neucsp.zip
5) ICTCLAS from Chinese Academy of Science, China
http://www.nlp.org.cn/project/project.php?proj_id=6
6)分词工具链接
http://www.chinesecomputing.com/nlp/segment.html

中文信息处理基础
http://ccl.pku.edu.cn/doubtfire/Course/Chinese%20Information%20Processing/2002_2003_1.htm

1.5.0
本文提供给几个分词工具的开源下载。
多种分词工具 及 词典 下载

: http://www.webryan.net/2009/04/something-about-chinese-seg/

本文相关评论 - 才 15 条评论
vir56k
2009-06-01 19:42:03

顶了,谢了…

[回复]

aa
2009-06-05 10:00:23

谢谢。好东西。

[回复]

小小鱼
2009-06-11 14:42:10

谢谢 学习了

[回复]

2009-06-27 16:06:58

中文分词,好东西啊,我就一直在研究百度的分词切词

[回复]

2009-06-28 12:34:59

To 易水,
不知道你研究的如何? 大家交流下呗? 貌似百度用的分词都比较简单。

[回复]

2009-08-06 14:28:35

分词?很难唉,一下子对你景仰了

[回复]

2009-09-22 23:50:23

分词很强大!看来我堕落了!有没有源码 的?

[回复]

2009-10-22 21:29:37

好文章,最近正在研究Lucene,多系而楼主搜集整理!

[回复]

随便
2010-01-12 15:01:01

中搜的分词最垃圾,怎么说最好???

就拿一句话来测试 “传说中搜索要分词”
中搜完全不能找出语干.GG一向是分词中最好的,自己多测试再发言

[回复]

2010-01-13 17:03:21

博主的才华相当的GOOD

[回复]

2010-01-16 14:39:25

好热闹

[回复]

2010-01-16 17:25:15

还可以

[回复]

2010-01-18 00:05:54

一会改改,我也写一篇去

[回复]

2010-02-23 15:05:23

博主的论文写的怎么样了,我也的论文题目也是跟分词相关的,但是发现无从下手啊。希望博主指点下,有没有简单的开源分词软件的文档和代码学习啊

[回复]

2010-02-23 16:24:40

有算法的流程图就最好了。中科院的ICTCLAS的开源版本,基本上没提供什么文档,这么多的源代码。

[回复]