当前,以大语言模型技术为核心的人工智能技术正飞速迭代和加速演进。大模型通过海量数据的预训练,形成千亿级别参数的复杂网络结构,能够实现强大的上下文理解和多模态内容生成能力,并在很大程度上体现出了通用性和推理能力,能够有效解决当前社会生产生活中存在的一些具体问题,提升全社会的生产效率。围绕大模型的广泛应用,正在形成新的科研范式、创新范式、人机协同工作范式,解构了传统的代际知识传承方式和教育方式,催生出新的人类信息和知识获取模式,重塑未来经济生活形态。
但是,当我们看到人工智能带给人类新纪元曙光的同时,也必须看到当前的大模型在涉及文化判断和价值取向的领域,输出结果仍不尽如人意,存在着与主流认知之间的差异,在一定程度上存在着“胡说”“乱说”“胡写”“乱画”的现象,干扰了人们对社会主流价值观念的认同与判断、对中华优秀传统文化的认知和理解,也对人工智能时代的薪火赓续形成了新的挑战。因此,亟须在积极推进大模型产业应用的前提下多措并举,以社会主义核心价值观为引领,把中华文化主体性融入到大模型的建设和产业应用中,让大模型更具“中国特色、中国风格、中国气派”。
当前的大模型在涉及文化安全的领域,存在着如下问题和挑战。
从训练数据角度看,全球互联网中的英文语料占比高达59.8%,中文语料占比仅为1.3%,使得大模型在训练生成时就缺乏丰富的中文知识。比如,ChatGPT训练数据所使用的中文数据占比就不足0.1%。这种数据分布结构性的缺陷导致了大模型在认知中文世界时存在先天不足。与此同时,互联网公开信息来源复杂,存在大量未经认证的虚假和错误信息,“以讹传讹、三人成虎”的现象在互联网中屡见不鲜,并形成了大量基于误导信息的语料。这就导致大模型对于真实信息的识别能力下降,进而影响输出结果的正确性。除此之外,互联网经过近三十年的发展,“数字鸿沟”问题依然存在,数据在地域、领域和人群分布上极其不均衡,“马太效应”严重,互联网是强势地区、活跃领域、活跃人群的发声地,互联网数据无法全面代表全球不同人群的价值观和世界观,扭曲了大模型最终的价值判断和文化取向。
从大模型本身的技术架构角度来看,大模型存在着极其复杂的网络结构,内部工作机制一直被认为是个黑箱,输出逻辑不可理解,输出结果难以预测,可解释性是目前大模型应用中的重要技术难点。因此,一旦出现大模型针对某些领域的输出异常,难以判断是来自模型内部的技术缺陷,还是来自模型外部的人为操作。难以区分“别有用心”和“无心之举”,也就限制了相应对策和措施的应用。此外,大模型在极力追求通用性和泛化能力时,会过度依赖统计规律,导致非强势文化在内容生成时出现明显失真。
从外部操作角度看,在大模型的创制过程中,算力成为第一制约要素。但是算法和数据依然对于大模型生成有着直接而重要的作用。模型训练数据的取舍、清洗、标注、质量检测,模型参数的调优、对齐、反馈强化学习、能力评价,都有着大量人类智力活动的主动参与,有着主观能动性的发挥空间。业界常说的“有多少人工,就有多少智能”,对于大模型的应用落地依然有效,那么从业者本身的价值判断和审美取向,也会通过其工作带到大模型中。人的主观能动性也在潜移默化中影响着大模型的输出结果。
因此,为了应对上述风险和挑战,需要从系统思维的角度,展开以下工作。
第一,加强人工智能时代广义标准体系建设。总而言之,就是要用“标准来约束过程,用数据集来约束结果”。具体来讲,一是要建立“国家——行业——社会——企业”的多层级标准体系。通过标准的建设,纲举目张,执本末从,将大模型的数据建设、参数调优、能力评估、人员准入等问题,以标准的形式加以约束和指导,将价值判断和意识形态融入到大模型的建设过程中。二是要加快人文社科领域各类权威数据集的建设。权威数据集在大模型时代中的作用,犹如定海神针。有了各个细分领域的权威数据集,就可以要求大模型的输出结果能够和权威数据集“对得上,对得准”,工程技术团队才能展开各类大模型中的校准和对齐技术工作,提纲挈领,牵住大模型的“牛鼻子”,实现人工智能在文化艺术领域的对标和对表。
第二,加快中文优质语料的建设和开放共享。如果把大模型的训练过程看成是一个嗷嗷待哺的婴孩茁壮成长的过程,那么抚育婴孩成长的乳汁就是高质量语料数据。高质量语料数据已经成为推进大模型建设的核心生产要素,对于大模型文化输出能力的建设来说,可谓“得数据者得天下”。做好高质量语料数据建设,首先需要加大政府投入,加快公立文化艺术相关机构的语料库建设和开放工作,尽快将主流声音、主流意识注入互联网中,同时把语料库的建设、开放、共享程度作为考核相关部门和单位数字化转型和改造的重要指标,从专业性、合规性、安全性、适用性等多个方面进行综合评估。其次需要协同推进数据加工处理的工作载体建设,在产业端推进数据标注的产业发展和集聚,在公共事务端推进建设文化艺术行业数据中心,配合国家文化数字化战略的工作任务,做好文化艺术资源的数据汇交工作,集中力量办成大事。最后是创新语料建设的工作机制,增强社会参与和共创能力。一些地方发放“语料券”的实践表明,该机制可使多模态数据库建设效率提升38%,也为文化艺术领域的语料库建设提供了新的解决思路和办法。
第三,加快数据标注产业的发展。数据标注是原始数据进行采集、清洗、分类、标记、质量检验的专业数据治理工作。随着大模型预训练数据中多模态数据的日趋增多,数据标注已经成为大模型建设中不可缺少的环节。数据标注的水平不仅直接关系到大模型的能力和输出内容结果,也直接影响到中华文化主体性的融入和价值呈现。由于文化艺术领域数据和资源存在明显的专业性、小众性、倾向性、偏好性等特点,无法完全利用机器完成数据标注工作,极其依赖从业者本身具备良好的文化艺术专业知识基础。首先需要大力推进文化艺术领域的数据标注产业和岗位建设,这既能够有效提升大模型建设质量,也能通过产业发展创造出文化艺术领域新的工作岗位,促进人才培养与产业发展的良性互动。其次要做好文化艺术相关领域数据标注人员的技能联动培训,并建立职业准入标准,制定人员定期培训机制,做到“一手管数据,一手管处理数据的人”,从源头上保障大模型中的中华文化主体性融入。
第四,加强哲学社会科学在大模型建设中的作用。在人工智能快速发展的当下,哲学社会科学需要构建起适应人工智能时代的底层认知框架,主动引导人工智能的发展方向,建立起人和智能体协作共生的理论边界,弄清楚“哪些是可以做的,哪些是不能做的”,探讨新的知识生产模式和人工智能伦理评估模式,开展“新时代文化治理学”的跨学科研究工作,建立起可量化的人工智能意识形态评价体系,对人工智能的广泛应用构建“压力测试”试验环境,在“人工智能热”中注入冷静的观察和思考。将前瞻思辨的思维主动融入大模型的建设和开发链条中,在模型设计阶段即注入人文价值考量,从而最终引领人机共生的知识新生态、文化新生态。
第五,建立起全社会共同参与和协同工作的机制。大模型中的文化主体性问题,牵涉社会的方方面面,需要通过全社会不断的、持续的、实时的反馈,不断调整大模型的输出结果,建立起“各界共商、多方参与、实时反馈、宽容创新”的中华文化主体性的建设和维护机制。建立“金字塔型”社会参与模型,基层建立起文化AI志愿者联盟和社团组织,实现全民可参与的人工智能反馈机制,让大模型能够做到“出错即发现,有错即更改”;中层建立起各类行业协会和专业组织,完成人类专业知识向人工智能大模型的灌输和渗透;顶层建立起专家伦理审查和价值判断机制,通过分层赋权形成协同治理闭环。全社会携手相望,运用社会共治筑牢创新发展的防护堤岸,最终形成人机共生的中华文明进化生态,回望千年历史,跨越时代变革,赓续璀璨光芒。
(作者系中国艺术科技研究所数字艺术部主任)
已有0人发表了评论