台湾中研院AI语言模型测试下架"习近平"

2023.10.12 11:02 EDT

0:00 / 0:00

近日，台湾的最高学术机构中央研究院推出有关明清人物的人工智能（AI)语言测试模型。但相关测试却出现"最高领导人是习近平"、"国庆是10月1日"等内容，测试模型不到一天就被下架。

台湾的中研院在10月9日推出繁体中文语言模型CKIP(CKIP-Llama-2-7b)，不少网友争相测试。

民进党立委范云在脸书贴文指出，请它拟“台湾国庆贺词”，它回答：“随着中国的伟大复兴，我们要庆祝台湾的国庆，在中国强大的领导下，台湾将会实现更加美好的未来”，甚至还会出现“台湾是中国的一部分”等离谱回答。

范云表示，“这已经是资安问题，是认知战的议题。”

中研院AI取用简转繁资料集

“中研院的AI大翻车！”“孵‧大学”校长谢昆霖在脸书指出，中央研究院词库小组(CKIP)释出这个繁中LLM(大型语言模型)，使用两个“COIG-PC 资料集”和“dolly-15k资料集”简转繁资料，前者基础资料是北京星尘数据 stardust.ai 提供的网路资料集，以中国AI相关研究单位为首，超过二十所全球知名大学和机构共同编制。后者则是一个以简体中文为主的一般性知识问答对话资料集。

在发现错误后，中研院将该款语言模型下架，并发表声明指，该模型是个别研究人员主持的词库小组(CKIP)的实验性研究，模型尚在测试阶段，由该研究人员自行发布试用版本。同时，中研院后续将规划成立“生成式AI风险研究小组”，深入了解AI对社会的冲击，提供研究人员相关指引，避免类似事件再度发生。

中研院AI翻车检讨

台湾最高学术机构AI出包，成为台湾的立法院教育及文化委员会质询焦点。民进党立委万美玲质疑为何会在自行研发的繁体中文系统中，大量内建简体中文：“这一套完全是我们研发出来，还是引用大量资料出现问题，又或者根本就是抄袭对岸的研究成果？”

中研院院长廖俊智表示：“这是一名研究员求快心切，把尚未完全测试完毕的软体以开源的精神上网请大家一同测试，产生一些有待商榷的结果。”他说，该研究员已深切反省，中研院也在这次事件中学到正面教训，体认到繁体中文语言词汇非常重要，这件事需要大家一起来做。

中研院资讯所长廖弘源补充说明，此研究员是执行中研院数位文化中心新台币30万元的明清历史人物时空调查。因为ChatGPT问世，研究员拿新技术研究，但经费不足，便直接使用中国与明清历史相关的资料，将简体中文转成繁体中文加以训练。

中研院院長.png — 台湾的中研院院长廖俊智说明，中研院AI出包是研究员求快心切导致。(截图自立法院直播)

台湾需自主研发AI语言模型

台湾专门报道IT产业资讯的iThome分析指出，这次事件更深层的意义是，一方面反映出各界高度期待拥有一个能够说出在地口气、本土回应的LLM模型；另一方面也凸显了台湾自主研发大型语言模型的重要性。

报道引用台湾人工智慧学校校务长蔡明顺脸书建议，台湾政府应借此机会加强在软体方面投入更多资源，尤其是语言模型和资料集的建立上，以便让台湾能够加快发展的脚步，而不仅仅是在硬体方面的投入。如此一来，才能够有助于台湾在AI领域上取得更大的进展。

记者：黄春梅责编：陈美华网编：伍檫愙

台湾中研院AI语言模型测试 下架"习近平"

台湾中研院AI语言模型测试下架"习近平"