中国社交平台微信近期推出“方言采集”返现活动,邀请用户录制各地方言语音(即声纹)以换取现金奖励。活动上线后,有参与者称累计获得数百元收益。随着参与范围扩大,讨论延伸至个人隐私问题,方言曾被中国网民视为相对隐蔽的交流方式,其安全性与可识别性开始引发关注。
据中国媒体极目新闻4月10日报道,微信通过邀请方式向部分用户推送“方言采集”任务。参与者按提示朗读日常用语,完成语音录入即可获得现金奖励。有用户在社交平台展示收益截图,称单日收入约40元。
浙江从事语音识别研究的工程师黄一鸣接受本台采访时说,中国方言有上百种,甚至更多,另外还有方言变种,常说“十里不同音,百里不同俗”,如果细分到县、乡、村,更无法统计:“方言语音数据一直比较缺,差异大,比如温州话复杂,很多地方人都听不懂, 标注也比较难,通过对用户录音补充这些资料,是他们想做的事,可以提高模型在复杂语音环境下的识别能力,征集这类数据主要收集做语音模型。”
有偿征集方言模型引热议
用户在微信平台录入当局指定的文字语音,审核通过后奖励将在30天内发放至微信零钱。据了解,用户每录满3句可获得约1元,录满20句可获5元,实际录制量多在每天100至200句之间。
据报道,中国130多种语言及各类方言中,68种使用人口不足万人,48种不足五千人,25种已不足千人。
对于微信平台为何花钱征集方言语音,黄一鸣表示,平台需要提升网民语音识别准确率:“至于它的用途,我想大家都清楚,如果在微信用语音聊天,它是有工具识别的,但是没有该方言的模型,就解不开,或者说难度比较大。”
活动扩大后,讨论开始从技术本身转向这些语音数据可能的用途。长期以来,方言在一些非正式交流中被视为相对隐蔽的表达方式,识别难度在一定程度上降低了被自动化处理的可能。微信方面表示,该项目用于“提升语音识别体验”。
网民忧方言识别被“滥用”
“连家乡话都不安全了。”一条在社交平台获得较多回应的留言这样写道。该评论下方,多名用户提到,过去使用方言交流的一个原因,是降低被系统识别的可能性。
山东滕州网民齐先生告诉记者,当地有很多种方言:“滕州一个小小的地方,东西南北说话都不一样,如果你语音输入,它微信加不上无法识别,我觉得他们现在就是在收声音数据,他在语音识别监控方面,肯定有很大的帮助。”
关注个人隐私议题的学者余文天认为,这项技术本身不是问题,关键在于它会被用来做什么。他对记者说:“如果是把方言转成文字,这是有意义的,也应该肯定,但如果是用于审核方言内容,对批评言论进行干预,那对大部分网民来说,不是好事。”
近年来中国在金融、电信等领域逐步引入声纹识别技术,用于身份验证与风险控制。所谓声纹,是一种生物特征,简单来说就是人声的“指纹”,能够用于标识说话人身份。中国一些平台也已具备语音转写与内容审核能力。从事语音技术研究的人士指出,随着人工智能模型训练推进,语音数据在各类应用中的作用正在增加。
截至目前,微信方面未就数据管理细节作出进一步说明。该活动仍处于邀请阶段,尚未全面开放。
责编:李诺
