您的位置:新文秘网>>调研报告/毕业论文/>>正文

自然语言的应用研究

发表时间:2006/2/19 11:58:54


  (朱丽(上海空军政治学院信息管理系))
  摘要作为情报语言学研究对象之一的自然语言,在情报检索中的应用正日趋广泛。本文将其与规范语言进行了比较,重点讨论了其应用中的三个问题,自然语言标引、标引检索用词表及检索语言整体化趋势,并就其未来发展作了阐述。
  主题词自然语言规范语言情报检索
  ***
  自然语言与规范语言
  自然语言()是相对于规范语言()而言的,其本质特征是不受控制。从情报检索的发展历程来看,作为语言保障的规范语言是对自然语言实施控制而出现的;而情报检索的进一步发展必使得曾被否定的自然语言重新得以肯定。
  规范语言的产生
  规范语言是适应情报检索需要而创制的一种人工语言,它在手工检索条件下产生,并得到了充分发展及应用。
  如历史最久远的分类语言,采用比较抽象的类号来表达概念,组织检索系统。它具有良好的系统性,适于学科或专业出发的族性检索。同时,随着学科发展及用户需求的变化,分类语言也由等级体系型日益向分面组配方向发展。
  而规范语言的另一重要分支——主题语言,则以自然语言为基础,经过人为的形
……(新文秘网https://www.wm114.cn省略756字,正式会员可完整阅读)…… 
用的自然语言进行情报检索,符合检索者的习惯,简便易行,对于日益增大的普遍检索用户群而言更是如此。
  ③采用自然语言标引与检索,可达到足够的专指度,且不存在类目或词汇迟滞的问题。
  ④自然语言具有通用性,不存在规范语言的统一兼容问题,在使用自然语言的各数据库间可实现标引、检索成果的共享。
  ⑤自然语言标引为计算机的自动处理创造了条件,其发展将可能取消费时、费力的人工标引。
  因此自、年代进行的二次克兰菲尔德得出最少实施控制的系统较之其它系统优越的结果后,自然语言检索系统得到了迅速发展,发达国家的联机检索已从只能利用受控的叙词语言进行布尔逻辑检索的第一代发展能利用自然语言进行语境逻辑检索的第二代。
  自然语言在标引检索中的应用研究
  如前所述,自然语言较之规范语言更适于当前的信息状况及机检条件,并且数十年来在实践中也得到了相当的应用和发展。同时,由于它本身的不足,以及使用条件的不断变化,自然语言也面临着一些理论及实践方面的不足。以下分三方面进行论述。
  自然语言标引问题
  按照兰开斯特的划分,自然语言标引可分为三种形式,人工标引(含赋词标引和抽词标引)、机器标引(抽词)和不标引(又分全文本和部分文本)。在实际应用中,人工标引虽然效果好,但处理速度较慢,因此较常用且带趋向性的仍是自动标引(即上述的后两种形式)以及部分人工的机助标引。目前国内已实现的自然语言标引方式有以下几种。
  ①无标引,即全文单汉字标引
  这是与全文检索技术相对应的一种典型的自然语言标引方式。它比较完全地实现了自动化,且标引深度大,检索方便灵活,可以检到一些细节性、边缘性的信息。但由于以字为对象进行处理,易产生虚假组配,检索噪声大而筛选负担重,同时检全率较低,扩、缩、改检比较困难。
  ②基于题名或文摘的抽词标引
  这种方式应用较早,至今仍在汉语文献自动标引中占有较大比重。它一般需构造一个抽词词典,然后根据各种算法用文献中的自然语言匹配词典(或相反),匹配或成功即成为标引词。由于采用先组式标引,不像单汉字标引需对字的字间关系进行组配,因此检索速度快。但它所能处理的自然语言受到抽词词典的构造、维护状况限制,且纯机械的抽词也无法完全避免误差。
  ③基于题名的增补关键词标引
  关键词标引是适应科技文献数量剧增及快速简便的检索需要而产生的,早期主要基于题名的情报性,直接抽取其中的自然语词(关键词)并加以轮排而成。然而题名在表达概念的准确性、专指性、完备性方面存在差异,对非科技文献犹甚,因此出现了从文摘、正文甚至著者等方面增补关键词的改进方法,这同时也增加了人工辅助的成分。
  ①词串标引
  词串标引是在对自然语言的理解基础上,由人将用自然语言书写的主题描述句标记成形式化主句(或称词串),然后由机器自动完成相应的索引款目。国外年代末年代初词串标引发展迅速,问世了一批进行词串标引的机编索引系统如、、等。其中最著名的标引专指度高,轮排准确,款目与自然语言贴近。汉语是对其职能号、使用规则进行修正调整后专用于汉语文献的主题标引系统,与之配套的微机软件亦已研制成功。
  自然语言标引与检索词表问题
  自然语言检索的理想模式是标引、检索阶段均使用自然语言,且不使用任何控制手段。然而这将造成检索策略构造困难、检全率的问题,同时也在不同程度上存在一些影响检准率的因素。同时,由于计算机对自然语言的理解力以及汉语语词切分、识别尚存在相当距离,纯自然语言自动标引与检索未获真正意义上的推广及使用。
  这种状况使得自然语言也不得不研究吸取规范语言的某些控制手段或指导思想,以期在保持自然语言的基本特征及固有优点下,最大限度地提高标引、检索效率。由此产生了各种自然语言标引、检索词表(典)。
  ①后控制词表
  以往的规范文语言词表是在文献或情报输入时就对索引词先行加以控制(受控标引),因此又称为前控词表。由于它的控制带有一定的粗泛性 ……(未完,全文共6051字,当前仅显示2125字,请阅读下面提示信息。收藏《自然语言的应用研究》
文章搜索
相关文章