新闻中心 /News
易倍EMC官网Sora“横空出世” 如何“科技向善”?
易倍EMC官网Sora“横空出世” 如何“科技向善”?●Sora实现了从文字能力向多模态能力的重大提升,可能成为OpenAI整合旗下各模型、构造人工智能模型服务体系的开始,是其向通用人工智能迈进的重要一步
●大众传媒可能是最先受Sora影响的领域,它强大的语言理解能力极大降低了视频的制作门槛,普通人也可以将内心的构思体现在连续的画面中。同时,电影行业、创意产业、数字娱乐和仿真产业同样应当关注Sora的潜力
●Sora的出现可能带来一定的知识产权侵权问题。当前,有关输入端数据涉及他人知识产权的,是否属于合理使用范围;输出端生成内容的知识产权归用户还是归模型方的问题尚存争议,各国未达成统一认识
一名穿着时尚的女士在繁华的街道上散步、两艘海盗船在咖啡杯里航行……只要输入一段这样简单的文字,就能一键生成一段效果逼真的高质量视频。近日,美国开放人工智能研究中心(OpenAI)推出的视频生成模型Sora一经发布,便引发了全球震惊和广泛热议。Sora的发布意味着什么?将会影响哪些行业?存在哪些风险和隐患?中国妇女报全媒体记者就此采访了相关专家。
Sora在其技术报告中表示模型可以生成最长一分钟的视频,并且展示了数个画面连贯、逻辑清晰的片段。中国信息通信研究院政策与经济研究所高级工程师程莹认为,Sora实现了从文字能力向多模态能力的重大提升,可能成为OpenAI整合旗下各模型、构造人工智能模型服务体系的开始,是其向通用人工智能迈进的重要一步。
程莹认为,Sora展现出了优异的视频生成性能,可能应用于媒体行业、创意产业、游戏产业、元宇宙等领域,“有观点指出Sora或许能同时参与到电影行业的脚本编写、选角协助、镜头规划和剪辑辅助等领域中。”目前,Sora已经能模拟一定的物理交互性EMC易倍,并成功表现出与世界的一定互动,可能会从虚拟中创造出无限接近现实的内容。
中国政法大学数据法治研究院教授、博士生导师张凌寒表示,Sora在生成时长和质量的表现超越了pika、runway等类似模型。开发团队披露Sora结合了两种模型架构,并且采取了独特的训练数据组织方式,可见Sora的问世建立在技术创新的不断积累上。OpenAI将Sora定位为“对物理世界的模拟”,这意味着OpenAI不仅想要占据多媒体生成领域的技术优势地位,还意图整合旗下各模型功能创造出完整的虚拟世界、继续探索通用人工智能的技术进路。
张凌寒认为,大众传媒可能是最先受Sora影响的领域,它强大的语言理解能力极大降低了视频的制作门槛,普通人也可以将内心的构思体现在连续的画面中。同时,电影行业、创意产业、数字娱乐和仿真产业同样应当关注Sora的潜力。“Sora开发团队透露,Sora能够模拟出数字游戏,在控制游戏角色进行操作的同时渲染游戏世界,这对小团队开发者而言是降本增效的利器。”
“除了关注到它生成的视频时间长、质量高、对于物理世界的模拟表现好以外,Sora呈现出多模态能力,文字、图像、视频等综合能力都很强,其整合模型还可能进一步具备强大的声音能力。”同济大学法学院助理教授、上海市人工智能社会治理协同创新中心研究员朱悦认为,在如今内容消费碎片化背景下,它在短视频行业的发展会有很大潜力,但如果将其用于时长更长、更严肃的生产,还需要待完全对外发布后才能进行判断。
那它是不是完美的呢?朱悦认为,从细节分析,Sora仍然存在一些明显问题,如对于物理规律并不能完全准确地反映,光线阴影等细节设计并不完美,一些与生活认知不一致的情况仍然会发生等。程莹也同样认为,Sora的表现固然让人兴奋,但它不是完美的。Sora生成的视频虽然在大体上符合逻辑,但同样会出现如“人物咬过饼干后饼干仍然保持完整”的常识性错误。开发团队也承认Sora还欠缺精确推理事件发展的能力,例如电影中流畅的镜头变换对Sora而言就相对困难。
Sora可能会有哪些风险和隐患?专家们一致表示,可能会存在侵犯知识产权、侵犯隐私、虚假视频等隐患。
张凌寒认为,图像生成模型的训练数据集包含大量图像素材,如果未经审查就任意收集、使用相关素材的确可能侵犯知识产权和个人隐私。Sora生成的视频虽然还不能完美地反映真实物理关系,但其已经表现出使人误解的可能。通常认为修改和伪造视频的技术难度较高,高性能视频生成模型的问世无疑降低了这种门槛。“眼见为实”的观念即将面临更大的挑战。
例如近日,据香港媒体报道,中国香港警方发现有分子利用人工智能深度伪造技术,通过公司的YouTube视频和从其他公开渠道获取的媒体资料,成功地仿造了英国公司高层管理人员的形象和声音,在网上会议中冒充多名人士,骗取财务职员2亿港元。
“深度合成的内容越逼真,虚假视频的风险就越高。”朱悦认为,从以往经验来看,还有可能存在侵犯隐私、商标侵权、出现冒犯性内容等问题,“如果在生成视频中的训练素材中包含构成隐私或者个人信息的真实生活的视频,这些视频是否会在后续输出中完全重现是值得关注的问题。”
程莹表示,Sora的出现可能带来一定的知识产权侵权问题。当前,有关输入端数据涉及他人知识产权的,是否属于合理使用范围;输出端生成内容的知识产权归用户还是归模型方的问题尚存争议,各国未达成统一认识。例如OpenAI因知识产权问题已受到纽约时报等多家企业诉讼,国内法院近期也针对大模型服务侵权问题作出探索。程莹也认为,Sora可能被滥用于虚假信息生成,进而影响生态、加剧电信的规模化精准化等问题。OpenAI公司承认,2024年美国总统大选前,参选各方有可能利用Sora等大模型技术,释放“烟雾弹”迷惑各地选民。
Sora是否存在性别歧视问题?在张凌寒看来,内容歧视向来备受人工智能治理界的关注,性别歧视和偏见问题则或多或少地存在于很多模型中,这并不以视频生成模型为限。在不加干预的情况下,模型会接纳事实上存在的歧视与偏见,并可能在生成内容中体现。Sora的开发团队承诺会着手解决内容歧视、偏见问题,待模型向公众开放后便可见其成效。
我们应该如何应对这些风险和隐患?程莹认为,一是进行定期审查评估。包括在数据标注、清洗等训练数据处理环节进行可信、公平性、准确性等审查。二是提升透明度。推动企业探索研发稳定、不可篡改的数字水印技术,在生成图片或视频中嵌入“AI生成”显性水印,提示用户辨别虚假信息,同时在内部嵌入人类肉眼不可见的隐性水印,用于追踪虚假内容、版权侵权来源等。同时向政府披露训练数据来源、安全评估、模型权重等信息,加强政企间风险交流和互动。三是采用以技治技思路。利用红队测试、人类反馈强化学习等技术工具手段,广泛发动跨学科专家力量,有效发现并优化漏洞风险问题。同时创新“版权盾”“人工智能宪法计划”等企业责任方案,优化治理生态。
在张凌寒看来,从训练数据这个关键点出发,建立开放、可信的训练数据审计制度和数据正向干预机制是值得探索的方向。生成内容管理上,敏感提示词过滤器和图像判别器通常被认为是模型服务必不可少的安全机制,Sora团队同样表示会在模型服务开放前持续改进相关机制的判别准确率。
朱悦认为,目前从法律层面来看,国内已有法规出台对各项风险进行回应,如《生成式人工智能服务管理暂行办法》《互联网信息服务深度合成管理规定》等,在技术层面,目前仍在探索在模型上进行价值对齐,让它更接近于人们对公序良俗和良善的理解。同时,还可以通过对关键词进行识别与屏蔽,对输出内容进行识别和拦截,提高用户的素质素养等方式进行治理,“我们可以期待更多相关案例的出现,从而导向更完善和全面的人工智能立法,让人们在依法依规、符合公序良俗的底线之上发挥想象和创意,向善使用人工智能技术。”