台湾中研院AI语言模型测试 下架"习近平"

近日,台湾的最高学术机构中央研究院推出有关明清人物的人工智能(AI)语言测试模型。但相关测试却出现"最高领导人是习近平"、"国庆是10月1日"等内容,测试模型不到一天就被下架。

台湾的中研院在10月9日推出繁体中文语言模型CKIP(CKIP-Llama-2-7b),不少网友争相测试。

民进党立委范云在脸书贴文指出,请它拟“台湾国庆贺词”,它回答:“随着中国的伟大复兴,我们要庆祝台湾的国庆,在中国强大的领导下,台湾将会实现更加美好的未来”,甚至还会出现“台湾是中国的一部分”等离谱回答。

范云表示,“这已经是资安问题,是认知战的议题。”

民进党立委范云在脸书贴文(范云脸书)
民进党立委范云在脸书贴文(范云脸书)

中研院AI取用简转繁资料集

“中研院的AI大翻车!”“孵‧大学”校长谢昆霖在脸书指出,中央研究院词库小组(CKIP)释出这个繁中LLM(大型语言模型),使用两个“COIG-PC 资料集”和“dolly-15k资料集”简转繁资料,前者基础资料是北京星尘数据 stardust.ai 提供的网路资料集,以中国AI相关研究单位为首,超过二十所全球知名大学和机构共同编制。后者则是一个以简体中文为主的一般性知识问答对话资料集。

在发现错误后,中研院将该款语言模型下架,并发表声明指,该模型是个别研究人员主持的词库小组(CKIP)的实验性研究,模型尚在测试阶段,由该研究人员自行发布试用版本。同时,中研院后续将规划成立“生成式AI风险研究小组”,深入了解AI对社会的冲击,提供研究人员相关指引,避免类似事件再度发生。

中研院AI翻车检讨

台湾最高学术机构AI出包,成为台湾的立法院教育及文化委员会质询焦点。民进党立委万美玲质疑为何会在自行研发的繁体中文系统中,大量内建简体中文:“这一套完全是我们研发出来,还是引用大量资料出现问题,又或者根本就是抄袭对岸的研究成果?”

中研院院长廖俊智表示:“这是一名研究员求快心切,把尚未完全测试完毕的软体以开源的精神上网请大家一同测试,产生一些有待商榷的结果。”他说,该研究员已深切反省,中研院也在这次事件中学到正面教训,体认到繁体中文语言词汇非常重要,这件事需要大家一起来做。

中研院资讯所长廖弘源补充说明,此研究员是执行中研院数位文化中心新台币30万元的明清历史人物时空调查。因为ChatGPT问世,研究员拿新技术研究,但经费不足,便直接使用中国与明清历史相关的资料,将简体中文转成繁体中文加以训练。

中研院院長.png
台湾的中研院院长廖俊智说明,中研院AI出包是研究员求快心切导致。(截图自立法院直播)

台湾需自主研发AI语言模型

台湾专门报道IT产业资讯的iThome分析指出,这次事件更深层的意义是,一方面反映出各界高度期待拥有一个能够说出在地口气、本土回应的LLM模型;另一方面也凸显了台湾自主研发大型语言模型的重要性。

报道引用台湾人工智慧学校校务长蔡明顺脸书建议,台湾政府应借此机会加强在软体方面投入更多资源,尤其是语言模型和资料集的建立上,以便让台湾能够加快发展的脚步,而不仅仅是在硬体方面的投入。如此一来,才能够有助于台湾在AI领域上取得更大的进展。

记者:黄春梅 责编:陈美华 网编:伍檫愙