oracle仿全文检索切词机制实现文本信息相似度查找,全文检索切词
应用场景:
根据关键字查询与此关键字相似的信息,其中一些关键字要排除掉例如:“有限公司”、“有限责任公司”、“股份有限公司”等,需要创建一个排除词库表;
第一步:词库表
第二部:创建函数p_split_keyword
第三部:关键字处理
第四部:测试
select * from (select '河北沧州东塑股份有限公司',name,
SYS.UTL_MATCH.edit_distance_similarity('河北沧州东塑股份有限公司',name) 相似度 from test_pp t) order by 相似度 desc
待续。。。
大规模中文文本处理中的自动切词和标注技术
--------------------------------------------------------------------------------
Internet网络通信技术和大容量存储技术的发展,加速了信息流通的速度,形成了大
规模真实文本库。这些信息具有规模大、实时性强、内容分布广和格式灵活多样等特点
,从而迫使人们考虑语言信息处理的新理论和新技术。
传统的语言信息处理方法目前已发生了明显的变化。主要表现在:处理对象由少量例
句到大规模的真实文本;处理方法由完全语法分析到部分语法分析;处理范围由典型领域
到开放的实用领域等。
中文信息处理是语言信息处理的一部分,包括汉字信息处理和汉语信息处理。近年来
,在汉字信息处理取得长足进步的基础上,汉语信息处理也开展了一系列的探索性工作。
由于汉语独有的许多难点,如没有词的界限标记、没有形态标记、词类划分和兼类情况复
杂等,面对大规模中文文本的处理任务,作为中文信息处理基础工程的切词、词类标注和
语义标注工作,无论是在理论、方法还是工具方面都面临着如何适应这些变革的问题。
伴随着大规模真实文本语料库的出现,应运而生的语料库语言学(Corpus Linguisti
cs)在80年代崭露头角。山西大学是国内较早建立大规模语料库并从事自然语言处理的单
位之一。1988年受国家语委和国家教委委托,建立了容量为200万汉字的语料库,进行了现
代汉语常用字表的统计。1991~1992年建立了包括新闻、经济、军事、体育、科技和科
普读物等题材的100万汉字的现代汉语语料库,成功地用语料库方法进行了汉语切词和词
类自动标注的研究。在上述两个大规模语料库的基础上,我们从中精选了部分语料进行了
切词、词类标注的精加工,形成了10万汉字的精加工语料库。1995年国家863智能接口评
测小组主持的"现代汉语书面语自动切词与词类标注评测",其中所用的语料就取自该语料
库。
"九五"期间,我们在已有的经过粗加工的1000万字以上语料库的基础上建造了200万
字的平衡语料库,目前正在进行精加工处理,已完成其中50万汉字语料的切词和词类标注
的精加工以及部分段落语义标注试验,发现了很多深层次的问题。
一、研究需要引伸的自动切词技术
1.切词词表建造和未登录词识别
从目前国内计算机界采用的切词技术及其切词结果来看,情况不容乐观。首先是《分
词规范》公布后,尚无一套公认的权威性的切词词表可供使用。为此,1995年全国智能接
口评测大纲规定,选取《现代汉语词典》和《汉语拼音正词法》中的词语作为评测参考。
这实际上是一种临时措施,没有解决根本问题。《现代汉语词典》是国内和国际上公认的
最具权威性的规范词典,1995年重版修订后,增加了9000多条反映新事物、新概念和科技
新发展、社会新变化的新词语,如代沟、反思、特区、离休、信用卡、桑那浴、人工智能
、基因工程等,同时也删去了一些过于陈旧的词语和过于专门的专科术语。作为一部推广
普通话、促进汉语规范化服务的词典,它的水平是很高的,但作为切词用的词表,其词汇的
收集和数量都不能适应语言信息处理的工程性需要,还需进行筛选和补充。从我们已处理
过的几十万语料来看,还有数千个普通词语需要补充。
其次,因为语言的生命力是由人们的使用决定的,它总是以一种动态的面貌展现在人
们的面前。从动态的角度看,人们可以根据表达的需要不断地构造新......余下全文>>
WEB全文信息检索技术
李灿
(华南理工大学图书馆 510641)
摘要:本文探索了在INTERNET网上实现全文检索的技术。计论了从网上信息的标引、分类等预处理到组织信息检索的过程,并就智能检索技术的发展进行了阐述。
关键词:信息检索 因特网 全文检索
一、 前言
Internet网是目前全球最大的、最有影响力的信息网络,它将政府、学校、图书馆、商务场所、研究机构和其它组织中的局域网(LAN)集成为一个单一的、庞大的、跨越全球的通讯网络。越来越多的人们利用这一网络与世界各地的人进行交流。如何利用Internet网获取有价值的信息,已成为科研人员必备的一项基本技能。
因特网是一个开放型的巨大的信息资源库,拥有上千万台以上的主机和过亿的用户;并且由于因特网信息蕴含的无限丰富,信息组织、表达的直观、生动以及信息服务的方便性和多样性,愈来愈多的信息搜索者被其独特的魅力所吸引。而在近几年,因特网用户的数量更是成倍地增长。可见,因特网检索已成为实际上最普及、最受关注、最常涉及的信息检索领域。
二、 概述
网上的信息具有数量大、形式多、内容广、专业性不强等特点,给情报搜集、分类、检索等工作带来了新的问题和挑战。如何充分利用因特网上的信息资源正成为情报科学研究者所关注的热点。全文信息检索就是概据Internet信息的特点而发展起来的一种检索方式。它主要指研究对整个文档信息的表示,存储、组织和访问,即根据用户的查询要求,从信息数据库中检索出相关信息资料。
全文检索的中心环节是文件内容表达、信息查询的获得以及相关信息的匹配。一个好的全文信息检索系统不仅要求将输出信息进行相关性排列,还应该能够根据用户的意图、兴趣和特点自适应和智能化地调整匹配机制,获得用户满意的检索输出。
要实现全文检索,首先必须对WEB信息进行预处理。
三、 WEB信息的预处理
信息预处理的主要功能是过滤文件系统信息,为文件系统的表达提供一种满意的索引输出。其基本目的是为了获取最优的索引记录,使用户能很容易地检索到所需信息。
(1)格式过滤:信息预处理应该能够过滤不同格式的文档,以及图片、声音、视频等信息。这使得搜索引擎不仅能够检索文字,而且能够检索原始格式文件的所有信息。
(2)语词切分:语词是信息表达的最小单位,而汉语不同于西方语言,其句子的语词间没有分隔符因此需要进行语词切分。常用的语词切分方法有按词典进行最大词组匹配、逆向最大词组匹配、最佳匹配法,联想-回溯法、全自动词典切词等。近年来,又出现了基于神经元网络的和专家系统的分词方法和基于统计和频度分析的分词方法。
(3)词法分析:汉语语词切分中存在切分歧异,如句子“网球拍卖完了”,可以切分为“网球/拍卖完了”,也可以切分为“网球拍/卖完了”。因此需要利用各种上下文知识解决语词切分歧异。此外,还需要对语词进行词法分析,识别出各个语词的词干,以便根据词干建立信息索引。对于英语语词,建立索引之前首先要去除一些停顿词(如常见的功能词“a”,“the”,“it”等)和词根(如“ing”,“ed”,“ly”等)。
(4)词性标注和短语识别:在切分的基础上,利用基于规则和统计的方法进行词性标注。在此基础上,还要利用各种语法规则,识别出重要的短语结构。
(5)自动标引:从网页文档中提取出一组能最大程度上概括其内容特征、可作为用户检索入口的关键性信息,用该组信息对文文件进行标引,使用户可以通过输入关键信息检索到该文文件的简要信息,如标题、摘要、时间、作者和URL等,进一步点击可查询......余下全文>>