时间:2014-03-11 11:55 文章来源:http://www.lunwenbuluo.com 作者:陈鹤 点击次数:
语料库语言学以大量采集而来的真实文本为研究素材,主要通过概率统计的方法得出结论,因此,我们可以说,语料库语言学在本质上讲是实证性的。也就是说,如果研究者涉及到语料库语言学,那么非常重要的部分就是对语言现象的观察和描述。但同时我们进行实证性的研究并不意味着我们完全抛弃理论研究,理论型的语言学家和实证型的语言学家之间的合作应该是双赢的结果。
语料库语言学研究的是语料库的建设、标注、评估。Lemnitzer对语料库语言学的界定是:语料库语言学是对自然语言,其组成部分,结构的描述以及通过对语料库中真实语料的分析所建立起来的理论。语料库语言学是一种科学活动,它必须遵循一定的科学原则,满足一定的科学要求。基于语料库的语言描述可以为语言教学、语言资料汇编、词典编纂和机器语言处理等不同用途服务。
三.利用语料库语言学研究方法研究学习者错误
错误的种类有很多,对学习者语言进行的错误分析可以涉及到语言学的各个层面。对于过渡语中出现的错误现象的分类,不同的语言学家有不同的见解:Richards认为偏误有语际错误、语内错误和发展性错误。Corder根据偏误出现的系统性把错误分为以下三种:第一种是形成系统前的错误,这类错误主要出现在学习者并不知道在目标语中存在着相应的规则的情况下;第二种是系统性错误,主要出现在学习者已经发现了目标语中存在着某个规则,但没有把它正确地使用;第三种情况是形成系统后的偏误,出现在学习者知道正确的目标语规则,但不能总是正确使用。Dulay,Burt和Krashen从评价的角度,根据错误对交际产生的影响把偏误划分为全局性偏误和局部性偏误。James认为语言学习者的偏误常出现在3个语言层面:本体层面,文本层面和语篇层面。本体层面是指单词拼写,标点符号错误等,本文层面主要是本论文研究的词汇错误,以及语义,句法等方面出现的偏离目标语结构的错误,语篇层面则是上升到了篇章语言学的层次,主要是针对衔接连贯方面出现的问题。
很多语言学家曾建议对学习者错误的研究应该通过量化的方式,分组进行对比和分析。语料库语言学的研究方法是通过软件的标注和搜索功能,对语料进行实证性的研究,通过数据的展现直观地说明结论。对于语料的处理主要有三个阶段:标注、搜索和统计。在每一个阶段都使用不同的软件,本文推荐使用以下三个针对语料库语言学研究的软件,在网络上都可以免费下载使用。
语料库标注是指利用各种标签对语料库中的文本的各种属性加以标记。标注的母的是为了方便开展不同目的的研究。经过标注的文本增加了很多对语言研究十分有价值的信息,对文本进行标注的价值正在于此。经过人工或者自动处理后,原来的文本会得到“增值”。在标注阶段使用的工具是Annotool,正如它的命名一样,它主要是负责标注的工具。它操作界面友好,支持.doc文档格式,只需要将语料库中.txt格式的文件在word文字编辑工具中打开就可以使用。在使用前将实证研究所需要的所有标注类别输入编辑页面,就可以显示在Annotool的工具条中,这样在对语料进行标注的过程中,就不用每次手动输入标注,而是直接点击Annotool中实现输入好的对应的标注,就可以添加到语料中。这样做的好处不仅节省了标注的时间,更是保证了标注的准确率。这样一来就不会因为重复手动输入标注而导致的错误,例如标点符号、字母代码等,能够尽可能地保证标准阶段的准确性,对搜索得到科学的结果打下基础。
标注的设计和研究的问题是紧密相关的,这样才能在之后搜索统计的时候得到准确的结果。对赋码设计的原则首先是简洁,用字母缩写和数字组成的代码方式;其次是全面,根据错误分析理论的预测,涵盖错误类型,即使某种错误出现的频率可能比较低,也要考虑到;最后是实用,有些错误类型是几乎不可能出现的,在设计标注的时候,就可以把这类情况排除在外,这样一来会减少很多不实用的标注,使得标注页面清晰明了,标注过程也少了很多干扰,能够保证标注标准的统一性,减少出现有歧义的情况。
搜索工具AntConc对已经利用标注Annotool加工过的语料进行搜索和统计。它的巨大优势在于能够高速地在庞大词次的语料库中快速地找到研究需要的信息,并且能够在词、字符串、词组、词块、搭配、标注这些不同的层面上进行检索、统计和对比。它的主要功能有七项,如下图操作界面的菜单栏所示:词频、词距、词的列举、词的常见搭配、词的固定搭配、所有词汇列表以及关键词汇列表。概括来说AntConc的基本功能主要有三项:1.能够快速找到某个词及其附近词的频率;2.能够快速找到所有词和所有词块的频率;3.能够快速找到所有词在另一个库中的频率差别。
在用搜索工具进行搜索对比后,还需要对统计结果进行t值的检验,以确保不同组数据之间的差异性是否真正存在。因为语料的长度和篇数都各自不同,因此各类错误的分布都不能只看它出现的次数来决定,而且取平均值进行对比也不是科学的统计方法。因此,在标注统计后,建议利用计算机统计软件SPSS对统计结果进行t值的检验,来看不同的分组之间是否存在明显的差异性。
联系方式
随机阅读
热门排行