【#文档大全网# 导语】以下是®文档大全网的小编为您整理的《语料库的类型》,欢迎阅读!
语料库的类型
[作者:李文中 转贴自:Corpora and the ELT 点击数:97 文章录入:neilruan ]
语料库来自拉丁词 corpus,原意为"汇总”、"文集”等,复数形式为 corpora或corpuses。语料 库是“作品汇集,以及任何有关主题的文本总集” (OED)是“书面语或口头语材料总集,为语言学分 析提供基础” (OED)。语料库是“按照明确的语言学标准选择并排序的语言运用材料汇集,旨在用作 语言的样本” (Si nclair, 1986:185-203)。语料库是按照明确的设计标准, 为某一具体目的而集成的大型 文本库(Atkins and Clear, 1992:1-16)。
或html)格式转换为纯文本。另外,语料库具有一定的容量。语料库的大小取决于语料库的设计原则 和研究
需求,以及建库过程中语料资源的获取难度及其它因素。计算机语料库实际上提供了一种人机 交互,这种交互方式随着语料库工具的发展而逐步加强其自动化特性。 Leech认为这种人机交互有以 下四种渐进的模式:(1)'数据检索模式’。计算机以便利的形式提供数据,人进行分析。 (2)'共生
模式’。计算机提供部分经过分析的数据,人不断改善其分析系统。 (3)'自我组织模式’。计算机分
Renouf认为,语料库是“由大量收集的书面语或口头语构成,并通过计算机储存和处理,用于语 言学研究的文本库” (Renouf, 1987:1)。
Leech指出,大量收集的可机读的电子文本是概率研究方法中获得“必需的频率数据”的基础, “为获
得必需的频率数据,我们必须分析足量的自然英语(或其它语言)文本,以便基于观测频率 (observed freque ncy)进行合乎实际的预测。
因此,就需要依靠可机读的电子文本集,即可机读的语料库” (Leech, 1987:2)。综上所述,语料
库
具有以下基本特征:
1〕语料库的设计和建设是在系统的理论语言学原则指导下进行的,语料库的开发具有明确而具 体的研究目标。如二十世纪六十年代初的 BROWN语料库主要目的是对美国英语进行语法分析,
而随
后的LOB语料库基本按照 BROWN语料库的设计原则收集了同年代的英国英语,目的是进行美国英 语和英国英语的对比分析和语法分析。
2〕语料库语料的构成和取样是按照明确的语言学原则并采取随机抽样方法收集语料的,而不是 简单地堆积语料。所收集的语料必须是语言运用的自然语料( naturally-occurred data )。
3) 语料库作为自然语言运用的样本,就必须具有代表性
(representativeness)。Chomsky曾经批评
语料库不过是试图用很小的样本代表巨量的甚至无限的实际语言材料,其结果必然存在偏差,缺乏代
表性,“自然语料库存在如此严重的偏差, 以至于对其所进行的描述将不过是一个词表而已” (Chomsky,
1962:159)。这种批评对任何以概率统计为基础手段的研究都是有价值的( McEnery, 1996:5)。 但是,目前的计算机语料库可以通过控制抽样过程和语料比例关系来缩小偏差,增强语料的代表 性。决定语料代表性的主要因素不外乎样本抽样的过程和语料量的大小。语料库抽样一般采取随机抽 样方法。一种做法是在抽样前首先确定抽样的范围,如 BROWN语料库和LOB语料库分别是以1961 年全年的美国英语和英国英语出版物作为抽样范围 i[i];再就是确定语料的分层结构,进行分层抽样, 如把语料按文类(genre)和信道(channel,如书面语和口语等)进行分层,如图 2.1所示。从各种语 料的抽样比例上又可分为’均衡抽样’ (balaneed)和’塔式抽样’(pyramidal)。前者对各种语料按平 均比例抽取,而后者对不同的语料进行不等比例抽取。
4) 语料库语料以电子文本形式储存并且是通过计算机自动处理的。巨量语料以纯文本形式存储
在磁盘上,以便语料库索引软件检索和处理。也可以通过转换软件把其它格式的文件如超文本(
h
tm
析数据并不断改善其分析系统,人提供分析系统参数及软件。 (4)'发现程序模式’。计算机基于数据
自动划分数据范畴并进行分析,人提供软件( Leech, 1991: 19)。 计算机自动处理包括自动词性附码( tagging )、自动句法分析(parsing )等。其基本处理和分析
过程包括以下几个步骤:
语音分析(phonetic analysis)指音段分析,主要用于语音识别和语音合成。
正字分析(orthographic analysis )指对文本中各种非文字符号、标点、大小写问题等进行处理和歧 义消
除。
形态分析(morphological analysis )即词性指定和附码。语料库自动附码软件通过概率统计和分析, 对所给句子每一个词指定一个或多个词性码。结果显示分列显示和行显示两种。目前语料库自动词性 附码准确率一般在 97%以上。
句法分析(syntactic analysis)是指句子成分切分、 句法关系识别、以及句法分析。语义分析(semantic
an alysis)和语用分析对语篇进行语义指定和意义解释。
5) 基于语料库的研究以量化研究为基石,以概率统计为基本手段,以“数据驱动”为基本理念。 其基本
方法是通过对实际语言运用的抽样,确定其对语言整体的代表性,通过对样本特征的描述概括 整体特征。在
量化分析中,首先对特征进行分类,并统计各个特征的频率,通过建立复杂的统计模型 对观测到的数据进行解释。分析结果可对研究对象总体进行概括。量化分析能够使我们发现在某一种 语言或语言变体中哪些现象反映了语言的真实特征,那些现象仅属于偶然的个例。针对某一语言变体
而言,我们还可以确切地知道某一语言现象的显著性, 从而确认该现象是规范的还是异常的 (McEnery,
1997:3)。 6)
语料库既是一种研究方法,又代表着一种新的研究思维,并以当代先进的计算机技术为技术手 段
7)语料文本是一连续的文本或话语片断
(running text or continuous stretches of discourse),而不是
孤
立的句子和词汇。在语料库研究中,对某一搜索词的语法关系、用法、以及搭配的观察是通过分析提 供的语境(con text)进行的。语料库索引提供的语境可分为以下几种: (1 )指定跨距,即使用者指
定
以搜索词为中心左右相邻的词数; (2)意元语境,即以某一意义单元结束为一微型语境,在语料库索
引中意元的确定是以意义结束符号如“, ;”等为标识的;(3)句子语境,即以句子终结符号如“ .!”
等为标识;(4)可扩展语境,即对搜索词所在语境可无限扩展。
这对研究词汇的语法关系、
词汇用
法、
词汇搭配、词丛(word cluster)、词汇在连续语篇中呈现的范型( 义
关系提供了可靠而方便的途径。如“ 为一个单独的词条,给出的定义为“ 的
necessarily” 一词在《新英汉词典》中作为“ necessary”词条下该 adv as a necessary result; inevitably” ;各种英语教科书中对该词
JDEST)中搜索“ necessarily"这个 pattern) >以及主题词汇之间的意
词的副词形式,定义为“必定,必然” ;Oxford Advaneed Learner s'Dictionary of Current English 把它列
定义和解释也大同小异。在上海交大科技英语语料库(以下简称 频数为136。全库中出现5次以上的三词词丛有 词,发现该词在全库中出现 264次,频率最大的搭配词“ not”出现在该词左边第一个位置,观察搭配
20组,同时含有“ not”和“necessarily”的词丛有18
组。通过索引行统计和词丛统计可以看出
2.4示例),“ not”
necessarily” 一词最典型的用法是与(见图“
搭配使用,表示含有否定意义的主观评价,意为“未必” ,“不一定”。如果把这个词看成是一个孤立 词条并确定其定义,很难概括该词在用法中的真实行为和典型特征。
除此之外,现代计算机语料库还具有以下重要优势: 1〕资源优势。可获得的语料资源丰富,获得 渠道方便。传统的语料库建设,语料输入工作极为浩繁,基本输入手段要靠手工键盘输入以及扫描输 入。靠这种输入方式收集的语料存在大量输入错误,需进一步人工校对。如今大量的在线语料资源, 光盘资料,因特网资源,包括新闻、邮件列表、电子邮件等使得语料库的建设和扩充变得非常快捷方 便。2〕速度优势。早期的语料库是通过手工处理来完成分析过程的,不仅费时费力,而且误差很大, 严重影响分析结果的可靠性。后来出现了在 DOS环境中运行的语料库软件,提高了语料处理的自动
化。但每次处理语料量受到限制,且不易操作。另外,传统的语料库软件大多与库本体集成开发,软 件不易剥离,且适用平台少。如今,不少语料库索引软件可以在不同的操作环境中运行,且每次处理 的语料量不受限制。通过专用索引软件,使得大型语料库计算机分析更加快捷。例如,只能在 DO
S
环境中运行的索引分析软件 TACT2.1每次只能处理1兆字节左右的语料,而如今在 WINDOWS环境 中运行的WORDSMITH TOOLS可以同时处理的语料量只受计算机硬件的限制, 即内存和硬盘的大小 以及CPU的速度。3〕精确度提高。现代语料库索引软件内嵌各种统计和检验功能,使各种统计误差 更精确地体现出来
文章来源:中国计算机辅助语言教学研究
本文来源:https://www.wddqxz.cn/8644012ccad376eeaeaad1f34693daef5ff71312.html