中国学生英语口笔语语料库2.0
1970-1
外语教学与研究出版社
文秋芳,王金铨 著
123
早在1996年,Svartvik在Thomas&Short编著的《用语料库研究语言》(1996)一书中撰文写道:“语料库(研究)正在变成主流。”十年之后,International Joumal of Corpus Linguistic的主编Wolfgang Teuben自豪地写道:“语料库是几乎所有有关语言的研究中默认的数据源”(Teube~~2005)。换言之,在如今的所有语言研究中,若无特别说明,研究中所使用的数据皆为某种类型的语料库。 20世纪90年代后期,比利时学者Sylviane Granger率先建立了英语学习者国际语料库(International Corpus of Learner English,ICLE)。ICLE的建立标志着语料库正式步入第二语言习得研究领域。此后,学习者语料库建设在国际上掀起了一个热潮。 在我国,继桂诗春和杨惠中两位教授主持的《中国学习者英语语料库》(Chinese Learners’English corpus)2003年出版后,我们联合多方力量建成的《中国学生英语口笔语语料库1.0》(Spoken and Wiitton English Corpus of Chinese LearTiers,SWECCL 1.0)于2005年由外语教学与研究出版社出版。该语料库中包含我国英语专业学生口语和笔语语料各百余万词,是国内第一个英语专业学生语料库,其中的口语子库也是国内第一个学习者口语语料库。自该语料库建成以后,国内外基于该语料库进行的各类研究越来越多;基于该语料库进行研究并公开发表的学术期刊论文和硕士、博士学位论文累计达百余篇。
《中国学生英语口笔语语料库(2.0版)》共有五章。第一章介绍了SWECCL 2.0的特色及包括的内容;第二章介绍了SECCL 2.0的基本信息、库结构、文本的头部信息及语音文件转换方法;第三章说明了WECCL 2.0中的变量类型与子语料库的自动生成方法;第四章详细介绍了自行设计的文本分析工具Colligator,并说明如何使用Colligator进行类联接分析;第五章描述了自行设计的文本特征分析工具PatCount,并说明如何将其应用于学习者语料的分析。
文秋芳,北京外国语大学中国外语教育研究中心主任,教授,博士生导师,研究领域为应用语言学,研究兴趣包括:二语习得,英语学习策略,口语测试,学习者语料库研究,先后发表论文60篇,出版专著7部。学习经历:1985年获印度孟买大学硕士学位,1993年获香港大学博士学位,1999-2000年在美国哈佛大学访学工作经历:1976年南京师范大学留校任教,1993年南京大学外国语学院任教,历任英语系副主任、主任、副院长受到表彰:先后3次获国家级教学成果奖,先后4次获江苏省教学成果奖,2001年获国务院政府特殊津贴,2003年获江苏省“三八”红旗手称号相关著作:《英语语言学导论》、《英语学习策略论》、《外语口语测试与教学》、《应用语言学研究方法与论文写作》、《英语学习的成功之路》、《学习者可控因素与英语成绩的关系》、《英语学习策略实证研究》。
第一章 SWECCL 2.0概述1.1 引言1.2 SWECCL 2.0简述1.2.1 SWECCL 2.0简述1.2.2 WECCL 2.0简述1.2.3 SWECCL 2.0的配套工具1.3 SWECCL 2.0的特色1.4 SWECCL 2.0的运行环境第二章 SECCL 2.0的容量、结构、文件格式及语音文件格式的转换2.1 SECCL 2.0的库容量和库结构2.2 SECCL 2.0中的文件格式和文本的头部信息2.3 SECCL 2.0语音文件格式的转换2.3.1 mp3-2-wav converter的安装2.3.2 语音文件的格式转换2.3.3 wav格式语音文件的标注第三章 WECCL 2.0中的变量类型与子语料库的自动生成3.1 WECCL 2.0文本的头部信息与语料库中的变量3.1.1 学习者变量3.1.2 任务变量3.2 根据不同变量自动生成子语料库3.3 WECCL 2.0中文本的不同版本第四章 使用Colligator进行类联接分析4.1 类联接及Colligator的开发背景4.2 Colligator的运行环境及Colligator使用前的准备4.3 Colligator的使用方法4.3.1 Colligator的主界面4.3.2 Colligator的操作方法4.4 Colligator的分析结果及其保存4.5 Colligator的局限第五章 文本特征分析工具PatCount的应用5.1 引言5.2 PatCount的主要功能5.2.1 PatCount的主界面及其对正则表达式的支持5.2.2 PatCount与词汇分析工具Range的比较5.2.3 PatCount的设定5.3 PatCount在学习者语料库研究中的应用5.3.1 文本特征提取及文本特征定量分析5.3.2 学习者语言错误分析参考文献附录一 2003-2006年全国英语专业四级口试试题A.2003年全国英语专业四级口试试题B.2004年全同英语专业四级口试试题C.2005年全围英语专业四级口试试题D.2006年全国英语专业四级口试试题附录二 2003-2007年全国英语专业八级口试试题(任务3)A.2003年全罔英语专业八级口试试题(任务3)B.2004年全国英语专业八级口试试题(任务3)C.2005年全围英语专业八级口试试题(任务3)D.2006年全国英语专业八级口试试题(任务3)E.2007年全国英语专业八级口试试题(任务3)附录三 WECCL 2.0中的作文题目A.议论文B.说明文附录四 CLAWS 4赋码集
《中国学生英语口笔语语料库(2.0版)》包含近10,000分钟口语录音及其转写文本。120万词的作文语料。多种自主开发的研究工具。《中国学生英语口笔语语料库2.0》(SWECCL2.0)是一个全新的语料库,包含口语子库和笔语子库。 口语子库的主要特色: 全新语料,共100万余词,源于2003-2007间全国英语专业四、八级口试; 文本按照不同任务类型切分,便于研究的开展; 语音文件采用mp3格式保存,便于使用者浏览、编辑、加工和标注。 笔语子库的主要特色 全新语料,120万词,源于高校扩招以来的学生作文; 包含27个不同题目的学生英语议论文和说明文; 配有多种自主开发的研究工具,包括: 1)用于从总库中抽取子库的Sub-corpus Generator: 2)可以快速提取多种语言特征的Pat Count 3)专门用于分析类联接的Colligator。 本项目得到教育部人文社会科学重点研究基地北京外国语大学中国外语教育研究中心的资助。