首页> 报告> 文稿> 社会> 正文

曹三省:人工智能赋能信息社会、可控创新与新质传播(4)

当今,人工智能技术已广泛应用于各个领域。在信息社会的发展与信息传播中,生成式人工智能(AIGC)格外被人们关注。人工智能能够源源不断地生产出质量日益精进的多模态数字内容。这些数字内容是推动信息社会持续发展、构建良好信息环境与传播环境重要的血液和基石。在传统媒体时代,业界常言“内容为王”。步入人工智能时代,尽管生成式人工智能实现了媒体内容的快速生产,但内容的质量仍然是关键因素。

生成式人工智能技术的实现,依托于人工智能领域两大重要的技术基石:生成对抗网络(GAN);以大语言模型为起点,延伸至推理模型等一系列大模型技术。基于这两大基石,我们构建起一套融合模型、算法与底层数据资源的机制,赋予了强大的媒体内容生产能力。

生成式人工智能的基础原理遵循人工智能的基本逻辑,即让智能系统有效学习现有数据,认知既有媒体内容,通过语义理解构建自身的知识库。在这一过程中,我们运用了预训练技术与多模态模型,采用了扩散算法、生成算法等先进技术。正是这种机制,使得智能系统能够协助我们生成文字、声音、音乐、图像、视频等内容。

从政策层面看,2022年11月,国家互联网信息办公室、工业和信息化部、公安部联合发布《互联网信息服务深度合成管理规定》。

该规定第十七条明确要求,“深度合成服务提供者提供以下深度合成服务,可能导致公众混淆或者误认的,应当在生成或者编辑的信息内容的合理位置、区域进行显著标识,向公众提示深度合成情况”,具体包括以下四类场景:智能对话、智能写作等模拟自然人进行文本的生成或者编辑服务;二是合成人声、仿声等语音生成或者显著改变个人身份特征的编辑服务;三是人脸生成、人脸替换、人脸操控、姿态操控等人物图像、视频生成或者显著改变个人身份特征的编辑服务;四是沉浸式拟真场景等生成或者编辑服务;五是其他具有生成或者显著改变信息内容功能的服务。

在此基础上,2023年7月,国家网信办联合国家发展改革委、教育部、科技部、工业和信息化部、公安部、广电总局公布《生成式人工智能服务管理暂行办法》(以下简称《办法》)。这是直接针对生成式人工智能领域的国家政策。该办法旨在大力推动与以OpenAI为代表的基于大模型的新一代生成式人工智能的差距,形成我国自主可控创新的生成式人工智能体系。《办法》第五条明确指出:“鼓励生成式人工智能技术在各行业、各领域的创新应用,生成积极健康、向上向善的优质内容,探索优化应用场景,构建应用生态体系。”

此外,第五条还指出,“支持行业组织、企业、教育和科研机构、公共文化机构、有关专业机构等”参与生成式人工智能的创新与发展。具体路径包括四个方面:一是技术创新。科研机构作为主阵地,需基于现有理论方法,提出自主算法创新。二是数据资源建设。高质量数据资源与信息社会的生产生活紧密相连,关键在于将全社会数据资源有效融入生成式人工智能的发展。三是转化应用。各行各业要共同推动技术落地应用。四是风险防范。这是重中之重,相关机构、行业、需在其中扮演关键角色。上述内容构成了发展生成式人工智能的基本政策底色,即如何健康有序地推动其发展。

《办法》第六条提出,“鼓励生成式人工智能算法、框架、芯片及配套软件平台等基础技术的自主创新”。自2023年起,我们已吹响自主创新的号角。面对芯片、配套软件可能遇到的“卡脖子”问题,实现全链路自主可控显得愈发重要。同时,我们坚持开放态度,鼓励平等互利开展国际交流与合作,参与生成式人工智能相关国际规则制定。

另外,我们还积极推动生成式人工智能基础设施和公共训练数据资源平台建设;促进算力资源协同共享,提升算力资源利用效能;推动公共数据分类分级有序开放,扩展高质量的公共训练数据资源;鼓励采用安全可信的芯片、软件、工具、算力和数据资源。

《办法》第七条强化了针对生成式人工智能服务提供者应当依法开展预训练、优化训练等训练数据处理活动的规定。比如,“使用具有合法来源的数据和基础模型”,“涉及知识产权的,不得侵害他人依法享有的知识产权”,“涉及个人信息的,应当取得个人同意或者符合法律、行政法规规定的其他情形”,“采取有效措施提高训练数据质量,增强训练数据的真实性、准确性、客观性、多样性”。

此外,《办法》虽然以“暂行”形式出台,但其背后的法律支撑十分丰富,包括《中华人民共和国网络安全法》《中华人民共和国数据安全法》《中华人民共和国个人信息保护法》。

《办法》第八条进一步明确了“人”的要求,指出:“在生成式人工智能技术研发过程中进行数据标注的,提供者应当制定符合本办法要求的清晰、具体、可操作的标注规则;开展数据标注质量评估,抽样核验标注内容的准确性;对标注人员进行必要培训,提升尊法守法意识,监督指导标注人员规范开展标注工作。”

2025年3月,国家互联网信息办公室、工业和信息化部、公安部、国家广播电视总局联合发布《人工智能生成合成内容标识办法》(以下简称《标识办法》)。《标识办法》为生成式人工智能的发展明确了交通规则,旨在清晰界定哪些内容需要明确标识,以便公众能够准确认知。

《标识办法》第三条规定:“人工智能生成合成内容是指利用人工智能技术生成、合成的文本、图片、音频、视频、虚拟场景等信息。”这意味着,在当下广泛运用人工智能辅助生成各类内容的过程中,无论是全由人工智能生成的内容,还是融合了现实素材、传统工具创作,并借助人工智能进行辅助与合成的产物,均属于这一办法的约束范围。

在认识人工智能生成合成内容的标识时,需要理解其包含的两个标识系统:一是显式标识;二是隐式标识。显式标识是每一位创作者、每一个应用场景中的个体,乃至千行百业的普通生成式人工智能用户都应该了解的概念。它是指在生成合成的内容或交互场景界面中,以文字、声音、图形等方式添加,并能够被用户明显感知到的标识。隐式标识则是由生成式人工智能底层平台、工具在算法层面实现的、不易被用户感知的隐性标识。它是指采取技术措施在生成合成内容的文件数据中添加的不易被用户明显感知到的标识,俗称“水印”。

责任编辑:李天翼校对:王瑱监审:刘斌最后修改:
0
京公网安备京公网安备 11010102001556号