【#文档大全网# 导语】以下是®文档大全网的小编为您整理的《语料库研究初探》,欢迎阅读!
龙源期刊网 http://www.qikan.com.cn
语料库研究初探
作者:齐芷玥
来源:《文存阅刊》2018年第11期
摘要:本文将从语料库的定义、类型、内容、规模设计、标注原则、建库方法等角度对语料库进行分析,目的是通过展现语料库相关基础知识,向语料库初学者提供帮助。 关键词:语料库;建库一、语料库定义
语料库就是大量语言材料的集合。语料库(Corpus)是指一个由大量的语言实际使用的信息组成的,专供语言研究、分析和描述的语言资料库。在计算机网络技术和信息技术快速发展的现代社会,语料库主要指经科学取样和加工的大规模电子文本库。[3] 二、语料库类型
语料库有多种类型,确定类型的主要依据是它的研究目的和用途。有学者曾经把语料库分成四种类型:(1)异质的(Heterogeneous);(2)同质的(Homogeneous);(3)系统的(Systematic);(4)专用的(Specialized)。[4]参考此种分类方法,可进一步将国内语料库进行分类,种类包括以下五种:
1.通用语料库 (general):主要用于一般性的语料库研究;
2.专用语料库 (specialized):是为了对某个特定领域语言变体进行研究而建立的语料库;
3.平行语料库 (parallel corpus):为对比某种语言的原文文本和其对应的译文文本之间的差异、研究翻译行为而建的语料库;
4.可比语料库 (comparable corpus):是由具有某些相同或相似属性的文本构成的语料库;
5.学习者语料库 (learner corpus):如中国英语学习者语料库(CLEC)、中国英语学生口笔语语料库 1.0 版 (SWECCL1)等。 三、语料库的内容及建库用途。
如果说规模是针对量的问题,那么,内容就是要解决质的问题。对于内容,最根本的是要真实,它包括:1.要收集实际使用中的文本,而不能是研究者杜撰的;2.要收集符合条件的文本。如要建立的是学习者语料库,要分析的是学生的真实语言能力,就不能把学生抄袭书本的东西收进来。
本文来源:https://www.wddqxz.cn/8baabe58a4e9856a561252d380eb6294dc882244.html