文献综述标注
1、引言
汉语自动分词和词性标注是汉语信息处理中重要的基础性工作,它与语料库基础资源建设相辅相成,在中文信息处理中起着关键作用。经过将近20 年的研究,自动分词与词性标注技术、语料库的建设都取得了长足的进步,许许多多的系统应用而生;因此,对分词与词性自动标注系统进行公正的评测,将会对这项基础性的工作起到导向性的作用。二者之间有着十分密切的联系, 比如, 切分歧义是汉语分词所面临的一大难题, 其中能用语法知识消解的就约占90%以上,而涉及语义和语用知识的切分歧义则很少,另外,词性标注的质量高低直接影响着自动分词的效果好坏。
2、汉语自动分词
2.1 定义和产生原因
所谓的自动分词就是把连续的字串分割成词的序列。从处理过程来看,把自动分词可以看作是用计算机自动识别文本字符流中的词并在词与词之间加入明显切分标记的过程。
词是最小的能够独立运用的有意义的语言单位,英文单词之间以空格作为自然的分隔符。汉语是以字为基本的书写单位,词语之间没有明显的区分标志,计算机不能通过英文句子之间的空格方法区分汉语词,否则可能会出现错误。
如汉语中“学生”整体是一个词,但计算机不容易理解“学”和“生”两个字合起来才能表示一个词,为了解决类似的问题,中文分词技术应运而生。
2.2 自动分词的分词方法
关于分词方法,苏联学者最先提出了关于“ 6-5-4-3-2-1”的思想,这种方法中的匹配思想成为后来许多分词方法的基础。目前,汉语自动分词方法不下二十种,例如,最大匹配法、知识分词方法、链接法,在参考众多文献的基础上,综合各家之言,大体上可概括为四种类型:基于词典的分词方法、基于统计的分词方法、基于理解的分词方法和基于人工智能的分词方法。这些分词方法各有其特点,分别代表着不同的发展方向。其中基于词典的分词方法具有算法成熟,易于实现的特点,目前是使用最普遍切分方法;基于统计的分词方法由于有的歧义切分能力和低频词识别能力,受到越来越多的研究人员的重视,发展较快,但在实际使用中,很少单独使用,一般都与基于词典匹配的信息进行更多的处理,因而加大了实现的难度;基于人工智能的分词方法是目前理论上最为理想的分词方法,但是该类分词方法的研究还处于初级阶段,并且由于汉语自然语言复杂灵活,知识表示困难,所以对于这类分词技术还需要进行更深入和全面的研究。
2.3 自动分词研究现状
经过十几年的研究,汉语自动分词技术取得了令人瞩目的成果,出现了一些实用的自动分词系统,如:北京航空航天大学的c d w s分词系统,这些系统在分词的精确度和分词速度方面都具有相当的水平,并在一些中文全文检索系统中得到了应用。中文自动分词技术取得了可喜的进步,具体表现在:
“词”是否有了清晰的界定。原来很难精确定义的“词”,现在可通过“分词规范+词表+分词语料库”的方法,使中文词语在真实文本中得到了可计算的定义,界定出词语的边界,这是实现计算机自动分词和可比评测的基础。
未登录词对分词精度的影响。对交集型歧义字串进行的大规模语料库调查,明确提出把分词歧义消解过程分解为侦察和消歧两个子过程的认识,都是近十年来分词研究的重大收获.
基于字的分词新方法.过去的分词方法大都依赖于一个事先编制好的词表或词典。自动分词过程就是通过词表和相关信息来做出词语切分的决策。基于字标注的分词方法实际上是构词方法。即把分词过程视为字在字串中的标注问题。这种方法的一个重要优势在于,它能够平衡地看待词表词和未登录词的识别问题。
2.4 困难和问题
尽管汉语自动分词取得了重大进展和突破,但仍有大量的问题困扰着这一领域的学者们。因为要自由进行汉语自动分词,至少会遇到以下一些困难:
(1) 中文原本没有词的概念 ,至今也没有统一的词的确切定义。汉语词与词之间既没有西文那样有明显的分隔符,也没有日文那样丰富的词尾变化。
(2)汉语迄今为此仍未有一部公认的、确切完备的并适合于计算机自动处理的语法规则。
汉语无标准性的词法、复杂性的句法、模糊性的语法与多样性的语义,如汉语中大量存在多义词、同义词、词性变化、词义转借等现象,使汉语表达具有很大的灵活性,所以任何人都都很难对它进行完备的总结。
(3)中文构词方法的多样性和句法的“意合”性等特点也是造成自动分词困难的重要原因。中文造词的原料,不仅有字,而且有词、词组。造句的方式有以字造词、以词造词,甚至压句成词。如果没有语法、语义知识或语境的帮助就很难对有些句子进行正确切分。
(4)语音中所蕴含的部分有用信息在书面语中无从体现。
(5)新词在不断增加,如人名、地名、新产生的词、外来词等日益充实着汉语词汇。
但最重要的困难还是歧义切分和未登录词的问题。歧义切分有两种类型,一种是交集性切分歧义,另外一种是组合型切分歧义,如汉字串“将来”是一个词,其中“将”和“来”也可以单独成词,这就涉及到如何切分的问题。组合型歧义是切不切开的问题,交集型歧义是切在哪里的问题。未登录词即是指未包含在分词词表中的词,包括各类专名(人名、地名、企业字号和商标号等)、某些术语、缩略语和新词等,由于专用术语繁多,新名词、新概念层出不穷,这些词一般很难全部收录到词典中,但这些词往往在一定时期内呈现较高的检索概率。这就要求分词系统具有一定的未登录词识别能力,从而提高分词的准确性。
对于分词的歧义处理,目前已经进行了比较深入的研究,人们通过统计和规则相结合的方法,使得歧义字段的正确切分达到了较高的水平 ,同时也认识到歧义的解决需要细致的个性化的知识积累,对不同类型的歧义要有不同消歧方法,同时研究汉语的构词规则,增强歧义判别能力;另一方面,无论词表规模多么大,未登录词语的存在是必然的。因此,与分词的歧义处理相比较,未登录词语的处理成为影响分词精确率的最主要、最直接的因素,这也是当前的一个研究的难点和热点。
3 、汉语词性标注
3.1 基本含义和标注方法
词性标注即在给定的句子中判定每个词最合适的词性标记,关键是如何处理兼类词或多义词。词性标注的正确与否对后续的句法分析、语义分析有很大的影响,是中文信息处理的基础性课题之一。常用的词性标注模型有n 元模型、隐马尔科夫模型、最大熵模型、基于决策树的模型等。其中,隐马尔科夫模型是应用较广泛且效果较好的模型之一。
由于同一个词在不同的语境下会产生不同的词性特征,所以就产生了不同的标注方法。目前主要存在以下四种方法:基于规则的方法;统计方法;规则和统计结合方法;基于转换的错误驱动学习方法。基于规则的方法利用规则对多个词性的词进行消歧,利用上下文信息来排除多余词性。它能够利用现有研究成果,通过对语境中的词语、词类和词语的特征做细致描述,起到很好的排歧作用,但主观性较强,覆盖率低;统计方法可以将一些不确定的知识量化,可以获得较好的效果和提高覆盖率,现在一般用统计方法来标注词性,据说可以获得95%以上的正确率,但实际消歧效果究竟怎样,尚不明确;规则和统计结合方法融合了二者的优点;基于转换的错误驱动学习方法是一种这种的方法,它在词性标注中能达到98%的正确率。
3.2 困难和问题
汉语词性标注的困难主要是因为汉语作为一种孤立语,缺乏严格意义上的形态标志和形态变化,词类判定基础是根据词的已实现的句法功能,对上下文的依赖特别严重。
汉语词性标注的困难具体可分为:①汉语缺乏词的形态变化,不能像印欧语那样,直接从词的形态变化上去辨别出词的类别;②常用词的兼类现象普遍。兼类词不仅使用频度高,而且兼类现象复杂多样,覆盖面广,兼类现象分布不均,汉语中大部分词类都有兼类现象,使得词类歧义排除的任务困难重重;③研究者本身的主观因素也会造成兼类词处理的困难。
4、应对策略
正因为在自动分词和词性标注上还面临很多的困难,所以我们今后的研究应着重在某些点上的“有所为”,才能有助于达到我们的想要的结果。结合自己的学习和对其他学者的总结,具体地讲,大概要抓以下一些工作:l)尽快建立一个质量高、易接受的通用词表。这是保证其它一切自动分词研究是否扎实、可靠的先决条件;2)建立一套为学界同仁认同并遵守的汉语自动分词规范和词性标注规范和技术标准,建立词性标注平衡语料库,做好系统评测,各家的工作成果应尽量共享,避免简单重复;3)在通用词表及极大规模语料库的支持下,系统地发现那些频度高、稳定性好的切分歧义,并有针对性地给出解决办法;4)对覆盖型切分歧义的研究目前十分薄弱,统计手段似乎心有余而力不足,应该寻求新的对策;5)促进己有的各种专有名词识别机制向更加精细化方向发展,并增设少数民族人名等特殊字词的识别机制; 6)以已有工作为基础,构造更加合理的自动分词评测模型,争取评测工作的权威化、公开化、持续化。
汉语自动分词已经被研究了二十多年,涉及的内容很多,分词方法层出不穷,取得了不少成就,但目前仍是制约中文信息处理发展的一个瓶颈。词性标注是一个比较活跃的应用领域,它直接影响到语法分析、文本信息检索等诸多领域,它与自动分词相辅相成,词性标注错误必然导致分词错误。就目前情况来看,自动分词和词性标注在许多方面有许多的突破,但同时也都面临着很多的困难和挑战,相信随着科技的发展和知识的进步,这些难题终究会被逐一击破。
文献综述标注相关文章:
文献综述标注
上一篇:诚信与感恩演讲稿
下一篇:2022年安全教育工作总结