论文部落小编回答:
本研究的语料来源于中国学位论文全文数据库和美国数据库。其中,中国学位论文的全文数据库,是万方数据股份有限公司受国家法定学位论文收藏机构一中国科技信息研究所委托而建立的“学位论文全文数据库”。该数据库收录我国500多家学位授予单位的学位论文,内容涵盖人文的科学、社会的科学等各学科领域,是我国收录数量最多的论文全文数据库,论文数量逐月递增,年增3万篇。PQDT是美国公司出版的硕博论文数据库。该数据库是目前世界上最大和使用最广泛的学位论文数据库。它收录了欧美国家2000余所大学各学科领域硕博士学位论文200多万篇,目前中国图书馆集团可共享的语言、文学和语言学学位论文有15,036篇。
这两大数据库中的英语硕士学位论文是本研究十分重要的信息资源。我们从中国学位论文数据库随机抽取50篇英语硕士学位论文作为主要研究样本,并从PQDT数据库随机抽取50篇国外高校英语硕士学位论文作为参照语料。语料选择的标准是:EMT和PQT均为2000年以来高校外国语言学及应用语言学研究方向的硕士学位论文,其中PQT论文作者为英语本族语者。
为便于分析,并使用FineReader将所有样本的PDF文件转换为word文档,并对照源文件对转换后的文本进行调整,以校对文本转换后产生的乱码或其他识别错误问题。然后,运用语步结构分析和Coh-Metrix分析了解文本的组织结构形式和语言特征。此外,除样本论文外,本研究还收集了有关学科期待以及学位论文写作中存在的问题之访谈语料。