2021年8月7日下午,北京大学中文系教授项梦冰应邀做客360环球在线注册,于教学三楼3141会议室做了题为“聚类分析在汉语方言研究中的运用”的学术报告。本次报告线上线下同时进行,设3141会议室为主会场,3134、3247两个分会场。报告由360环球在线注册邵燕梅教授主持,360环球在线注册部分师生以及2021届汉语方言田野调查高级研修班全体学员相聚云端,共同聆听。
报告伊始,项梦冰教授从“聚类分析”这一概念切入,指出聚类分析是将样品或变量按照它们性质上的亲疏程度进行分类的一种多元统计分析方法。即将一组研究对象分为相对同质的群组的统计分析技术。聚类分析也叫分类分析或数值分类。其特点是:对象的类别是未知的。做聚类分析时,出于不同的目的和要求,可以选择不同的统计量和聚类方法。聚类的基本要求是群组内部尽可能相似,群组之间尽可能有较大区别。如何算一个群组并无固定的标准,取决于聚类的目的。而不同的计算方法导致聚类结果有差异也较为常见。
随后,项教授给大家推荐了NTSYSpc软件。这款软件是美国应用生物有限公司开发的非自由软件,目前可使用网友共享的2.10e作为学习之用。目前包含聚类分析功能的优秀统计软件有很多种,例如SPSS(Statistical Product and Service Solutions,统计产品与服务解决方案)。选择NTSYS是因为它灵活小巧。
紧接着,项教授介绍了聚类分析的实例,并利用汪锋、王士元(2005)的数据具体说明了NTSYS的操作。他指出聚类分析的特征选择和特征量没有一定之规,可以侧重原始数据进行全面的计算,也可以谨慎选择少量的特征进行特定的计算。例如王士元(1996)仅用四个观察项(见晓组逢二等是否腭化;古平声是否分化;古全浊声母的演变;古塞音韵尾的演变)对七个汉语方言进行计算。汪锋、王士元(2005)则用13个语义创新特征来进行计算。
报告最后,项梦冰教授谈到对聚类分析工具应有的态度问题,认为汉语方言学搭上计算机技术发展的顺风车,把聚类分析作为自己的工具,是完全必要的,也是完全可能的,因为各种统计软件的设计越来越人性化,非常利于普及。不过,对于新工具的效能和局限也要保持清醒的认识,不可产生崇拜和迷信心理。如果以为有了聚类分析手段,方言研究中的一切分类问题就迎刃而解了,恐怕多少有些不切实际。聚类分析是一种倚重数量关系的分析,采用的方法不同,结果也往往有差异。聚类分析可以给分类工作提供重要的参考,但倘若奉之为圭臬则未免失于偏颇。
邵燕梅教授高度评价了项梦冰先生的报告,认为其实操性非常强,在汉语方言研究中具有验证性和提升性作用。并希望广大青年方言学者能够在夯实专业理论的基础上,学会使用聚类分析的软件并付诸于方言实践,使汉语方言学习和研究锦上添花。在交流互动环节,各会场师生积极地与项梦冰教授交流讨论。项教授就“软件使用的困惑”“个人数据选择与处理”等一系列问题进行了详细且耐心的解答。报告在热烈的掌声中圆满结束。
主讲人简介:
项梦冰,闽西客家人,北京大学中文系教授,北京大学中国语言学研究中心、计算语言学教育部重点实验室兼职研究人员,长期从事汉语方言学的教学和研究工作。
撰稿:牛兰翠
摄影:高可
审核:邵燕梅
终审:贾振勇