您的位置:新文秘网>>>>正文

基于Office的专书简易语料库制作示例

发表时间:2014/2/17 9:48:57

基于Office的专书简易语料库制作示例

提示:本文原版含图表word版全文下载地址附后(正式会员会看到下载地址)。这里只复制粘贴部分内容或目录(下面显示的字数不代表全文字数),有任何不清楚的烦请咨询本站客服。
提 要:本文主要以图文并茂的形式介绍了基于Office的专书简易语料库制作方法。
关键词:Office 专书简易语料库 示例

  专书语言研究是汉语史研究的基础。王力先生曾多次强调,汉语史的研究,基础研究做得还很不够;应该多做些断代的研究,专书的研究。专书研究强调语料收集的穷尽性与完整性。独立制作语料库是实现这一目的的有效途径。
  关于语料库建立,杨建军先生高屋建瓴地论述了其原则和方法。[ 详杨建军《汉
……(新文秘网https://www.wm114.cn省略547字,正式会员可完整阅读)…… 
图1.1:
  
  图1.1
  搜索引擎便会自动列出所有可用的资料目录。我们只需将其打开、复制,即可轻松粘贴到Word文档中。
  将文本复制入Word时,注意最好使用“选择性粘贴”命令,这样可以去除其中的其他非文字符号、软回车、制表符等,避免出现格式混乱的情况。
  具体步骤:(注:先复制)编辑→选择性粘贴。如图1.2:
  
  图1.2
  当然,将文本输入Word后,校勘与整理是必不可少的。
  2.文本切分
  文本切分一般以句为单位。我们一般以一个句子作为一条语料记录的基础。手动切分太过繁琐。特别是对于较长的文档,处理起来就更加困难。我们可以利用Word的查找与替换功能来快速完成平这一步。
  即利用高级替换功能,将每一个句号替换为一个段落标记和句号。
  具体步骤:(Word)编辑→查找和替换→高级→特殊字符→段落标记。如图2.2:
  
 
  图2.2
  经过段落查找与替换,即形成了以每句为一个段落的文档。当然,个别句子太长,也可再作切分处理;有些地方有连续的空白段落,可以依照上面的方法,用把连续段落替换为单个段落的方法处理。
  3.重新转换为文本
  使用“另存为”命令将标志完毕的Word文档转存为T*T文本。在转存的过程中,Word文档的格式设置将丢失。
  具体步骤:(Word)文件→另存为→保存类型:纯文本(孙子兵法)。如图3:
  
  图3
  4.将文本导入E*cel
  新建一个E*cel空文档,再导入t*t文本。E*cel将自动将每个句子(即段落)在电子表格中形成一个记录。
  具体步骤:(E*cel)文件→打开→文件类型:文本文件(孙子兵法)。如图4:
  
图4
  5.标识文本出处
  用E*cel的自动复制单元格功能,可以实现快速重复填充。如图,只需在表格第二栏输入一个篇名,再将鼠标放在所在方框右下角,按住并持续下拉,即可为所有语料快速填充所需信息。如图5:
  
  图5
  当然,在电子表格中,研究者也可以按实际需要增加其他项目,为每条记录提供更加丰富、全面的信息。
  6.导入、合成
  将制作好的E*cel表格导入ACCESS即成。先建立一个空导ACCESS文件,再导入E*cel表格内容。
  具体步骤:(Access)文件→获取外部数据→导入→文件类型:Microsoft E*cel(文件名)→打开→下一步(4次)→完成。如图6:
    
  图6
  7.专书语料库的使用
  利用Access的筛选功能查找、筛选,主要可以满足以下两方面的研究。
  (1)筛选词语(或关键词)研究:研究者可根据需要,对特定的对象进行穷尽搜索。分两步完成:先用“查找”功能找到搜索对象,再用 “筛选”功能搜 ……(未完,全文共3039字,当前仅显示1535字,请阅读下面提示信息。收藏《基于Office的专书简易语料库制作示例》