EMC易倍委员:大模型中文语料仅占13%若持续用西方数据来训练中国式认知将被湮没

2024-03-08 19:21:49
浏览次数:
返回列表

  EMC易倍委员:大模型中文语料仅占13%若持续用西方数据来训练中国式认知将被湮没全国伊始,全国政协委员、中央广播电视总台新闻中心副召集人张勤提出了《关于推动人工智能赋能中华优秀传统文化传播的提案》。

  当前,全球人工智能新技术、新产品加速涌现。一方面,文生图、文生视频等一系列新技术给各行各业带来发展的想象空间;另一方面,快速变化的形势也给中国大模型发展提出了挑战,使其面临到底什么是中国自有的大模型、如何在模型语料训练等层面体现中国特色等一系列问题。

  张勤委员在提案中指出,文生视频,关键在文,对于人工智能而言,输出什么关键还是看输入了什么。但是目前,对于国内外大模型而言,对中国优秀传统文化的学习还是严重不足。当前全球通用(国内也在使用)的大模型数据训练集里,中文语料仅占1.3%,中国企业使用的语料中,由美西方主导的英文语料占绝大多数,如果我们训练的大模型持续用西方价值观数据、西方应用场景来训练中国大模型,中国式的认知将被湮没。以OpenAI的ChatGPT为例,它对于中国文化的理解非常有限。比如,让它列出著名的七绝,它给出的回答里却有杜甫的《春望》、王之涣的《登鹳雀楼》等五言绝句。在全球新的技术变革中,如果不加以引导,中华优秀传统文化容易被人工智能抛下甚至抹去。

  张勤认为,中华优秀传统文化本身具有领域广、数据量大、理解难度高等特点,对于与人工智能结合而言,这既是优势,也是挑战。优势在于中华优秀传统文化积淀深厚,是人工智能学习的巨大语料宝库,仅以古籍举例,中国是全球拥有古籍最多的国家,国内现存汉文古籍300万部,散居在海外的古籍超过40万部,已完成数字化的古籍为7.4万部。而挑战则在于目前这方面的数据结构化程度不高、理解难度极高。这需要有大量团队持续投入精力开展语料建设相关工作,甚至需要建设针对文言文、古汉语等优秀传统文化的机器算法与编码系统,把“道”“德”“善”等核心价值观根据语境条理化和清晰化,让人工智能能够准确理解中华优秀传统文化的丰富内涵。

  张勤介绍,作为音视频语料库最丰富的机构,中央广播电视总台已与高校、科研机构、国内企业联合在人工智能领域开展了卓有成效的探索,并与多家机构共同发起成立“中国大模型语料数据库联盟”,联合发布“央视听媒体大模型”,并牵头发起成立大模型研发共同体,在科研攻关、需求应用、安全发展、产业生态等方面开展合作,联动产业链上下游,为总台和中国媒体行业高质量发展打造新质生产力。

  为了加快新技术更好赋能文化传播,张勤委员建议集聚资源打造中央广播电视总台牵头重大原创平台,具体内容如下:

  第一,国家发展改革委和财政部以重点项目和专项资金,支持中央广播电视总台牵头推进中华优秀传统文化与人工智能等现代技术结合的工作。建议将相关工作纳入到国家关于人工智能的整体规划中,加快推动中华优秀传统文化与主流价值相关语料库建设,开展以主流价值为导向的数据分类、汇聚与运行工作,并将中华优秀传统文化语料的建构与人工智能大模型训练等有机结合起来,为中国人工智能发展提供真正的中国智慧。

  第二,国家数据局牵头制定有关政策,鼓励主流媒体、文化机构有序有效开放其所属的文化数据资源。推动中华优秀传统文化相关数据要素在认知安全的前提下转化为生产要素,进一步支持数据所有者采用市场化方式运作,鼓励通过招投标、联合规划、联合应用、联合验收、合资公司等多种方式,与相关主体建立数据共享与使用机制,并从协调数据汇聚、约定形成数据产权与收益分配机制等层面提供指导帮助。

  第三,教育部加快培养中华优秀传统文化与人工智能相关的跨学科专项人才。增设相关专业、课程,构建高校与建设单位之间的人才联合培养与选拔渠道。结合计算机、人工智能与人文社科等专业方向,在一批试点高校增设相关专业或课程易倍EMC官网,推动设立一级学科,以中央广播电视总台开展的中华优秀传统文化人工智能项目为试点,构建高校与建设单位之间的人才联盟,联合培养和选拔,推动人才培养与国家战略需求有效接轨。

搜索