6月16日下午,日语系邀请上海外国语大学毛文伟教授作题为《数据挖掘在语言文学研究中的应用》学术讲座。本次讲座由日语系主任尹松老师主持,日语系多位老师以及来自上海交通大学的老师,日语系以及英语系的众多硕士研究生与博士研究生聆听了此次讲座。

  尹松老师首先向大家隆重介绍了毛文伟教授。毛老师是上海外国语大学教授,博士生导师,研究方向为认知语言学、语料库应用研究以及二语习得研究。迄今为止,毛老师先后主持多项国家社科基金项目、教育部人文社科项目等各类科研项目,出版专著4部、译著2部,发表核心期刊论文20余篇。在座师生以热烈的掌声欢迎毛文伟教授的到来。

  讲座伊始,毛老师对数据挖掘技术做了详细的阐述,明确了数据分析在语言学研究中应用的前提。他指出,所有技术都是为了服务于研究,数据可以为研究提供有力支撑,但研究中真正有价值的东西是需要我们深入思考才能挖掘出来的。真实的语料是破碎的,因此语料库中的数据具有大量、不完全、模糊等特征,虽看似复杂,却仍有规律蕴藏其中。数据挖掘技术的运用,可以帮助我们从海量的数据中提取可信度高、具有潜在价值的有效信息。

  接着,毛老师为大家介绍了数据挖掘的基本方法以及数据分析的准备工作。数据挖掘的常用算法有机器学习型,如Python、R等编程语言;还有统计型,如SPSS、KH Coder等现有工具。各种手段门槛不一,无论采取哪种手段,都离不开词频统计、词表变化、关键词检索、相似度计算、判别分类、聚类分析等基本方法。

  随后,毛老师通过具体研究实例生动形象地介绍了数据挖掘技术在语言学中的具体应用。如基于词频统计分析高频副词的分布特征、利用MI-score、T-score等指标来检验特定词汇的共现强度以及搭配关系等。他指出,相关研究可以为高频词的导入及近义语言知识点辨析等提供参考,更好地服务于日语教学。

  最后,毛老师还为大家介绍了数据挖掘技术在文体学研究领域的应用。毛老师以夏目漱石、村上春树等著名作家以及《源氏物语》等经典著作为例,介绍了数据挖掘技术在个人文体研究及类型文体研究中的研究成果。此外,毛老师还介绍了数据挖掘技术在新闻媒体领域的具体应用,如舆情监控等。毛老师通过丰富的研究案例、应用实例娓娓道来,在座师生纷纷表示受益匪浅。

  提问环节场面异常热烈。数名研究生、博士生相继就课题的疑惑、毕业论文方向等向毛老师请教。英语系博士生就听力材料的选择、听力测试参数的设置等问题,日语系研究生就翻译语料库的构建问题、高频词汇的选取等问题,询问了毛老师的建议;乔老师就微型翻译语料库构建中面临的技术难题,唐权老师就文体学研究的具体问题,杨敬老师就日语学习者语料的收集问题,上海交大的老师就契丹语的分词技术问题等与毛老师进行了广泛而深入的交流。整个会场洋溢着浓浓的学术气息,提问的声音此起彼伏,毛老师一一为大家耐心解答。

  运用数据挖掘技术开展语言文学方向的研究,是当前学科交叉融合背景下极具前瞻性的重要课题。此次讲座为在场的师生的学习、教学、科研提供了一种全新的方法与崭新的思路。持续了近三个小时的讲座干货满满,在热烈的讨论中,在大家的意犹未尽中圆满结束了。


您的位置:
校友返校接待常规方案
发布时间:2018-04-25 浏览次数:3204