把科技赋能转化为艺术丰盈（坚持“两创”·关注新时代文艺·聚焦文化新业态）

　　近期，通过人工智能大模型赋能影像创作，多部AI短片陆续面世，受到各界关注。作为一项重要技术，人工智能大模型推动影视行业从胶片成像、数字成像进入算法成像时代，大幅提升影像生产效能。很多读者想了解，新技术具体怎样改变影像制作流程，将给影视行业带来怎样的变革，“投进一部小说，还你一部电影”的愿景会实现吗？我们约请一线创作者和研究者撰文，分享创作体会和前沿观察。

　　——编者

　　人的创造力依然至关重要

　　彭宽

　　近一段时间，借助人工智能生成的百万字长篇小说、近90分钟时长的电影先后面世，前者创作生成仅用时一个半月，后者凭借50人的团队只花费3个月时间。人工智能赋能艺术生产，在单体作品规模上取得新突破，在降本增效上释放新潜力，展示出新质生产力在文艺领域的新动能和新优势。

　　人工智能是互联网和数字科技加速发展过程中出现的集成性技术。从文生文、文生图到文生视频，人工智能与艺术正在碰撞出越来越多的可能。在人工智能助力下，人民日报社推出的短片《江山如此多娇》、中央广播电视总台推出的系列动画片《千秋诗颂》等受到好评，清华大学团队推出的科幻小说《机忆之地》参评文学奖项并获奖，中国文艺网推出的国宝文物拟人化形象“中华器灵”引发关注……人工智能艺术创作可谓话题不断、热点频出。这背后是众多平台加速开发生成式人工智能应用的热潮，智能工具如雨后春笋般接连涌现。在人工智能推动下，用户生产机制叠加人机协同的生产模式，艺术创作的前景令人充满期待。

　　人工智能已经成为丰富文艺表达的新介质、新工具，而将新技术的介质属性充分转化为新兴文艺形态的审美属性，则需要一个复杂的过程。我们知道，互联网和数字技术的发展催生了网络文艺。互联网自身的交互、沉浸、虚拟等技术特征，也随之迁移转化，影响着网络文艺的审美表征。一方面，要将新技术的优势通过创作生产渲染和强化出来；另一方面，又要将新技术吸收和融合进审美特性中，以艺术的显性取代技术的显性，最终达到新兴文艺形态的稳定和成熟。今天，人工智能的加速发展和有力介入，让技术特征再次凸显，必然触发新一轮“技”“艺”融合过程。

　　当下，人们对人工智能创作产品的认识和接受，普遍还停留在技术体验的新奇性上。这说明人工智能的技术特征在艺术生产中还处于显性地位，产品的审美特性还没有充分发育形成。一些人工智能生成的长篇小说，还存在叙述或跳跃或冗余、情感描写较为生硬、人物形象和故事设计套路化等问题，在阅读体验和情感代入上都有不足。一些人工智能设计的艺术形象，风格较单一，识别度与美感都不够，暴露出受语料和算法限制的短板。

　　新技术的介质特征并不会自动转化为新兴文艺形态的审美质感。这依赖人的充分介入，依赖人将机器不具备的生命体验、生活经验、情感感知、精神能量和审美想象持续融入。一位网友感慨地说，他用5分钟时间让人工智能生成了一个设计作品，却花了5个小时才去掉作品中的“AI味”。技术特征向审美质感的转化之难，可见一斑。《千秋诗颂》节目团队在海量国画、古诗词语料基础上，进行了大量人机沟通，经历无数次艺术语言与代码语言的碰撞，才使作品呈现出工笔、水墨等中国审美风格。人工智能的涌现不可能取代人在艺术创作中的主体地位。技术是人的延伸，艺术由人来定义，其转化融合必然通过人来完成。

　　有人工智能科学家形象地把相关软件比喻为“画家的新画布”。从必须掌握一定的艺术技巧才能挥毫泼墨，到只需给出个人的艺术创意即可“指令生成”，我们应当认清，人在运用新“画布”的过程中，让渡给机器的是什么，从机器那里换回的又是什么。人工智能通过进一步剥离“技”“艺”分工以提升效率，人则必须努力克服技术在追求效率过程中带来的问题，让技术始终为内容服务，回归“技”“艺”融合。

　　人工智能创作生产越是只需要“指令”和“语料”，使用人工智能的人就越需要把生活的丰富内涵、精神的拓展升华融入其中，保持艺术与生活的互动关系，保持艺术与人的根本性关联。唯其如此，科技赋能才能最大程度转化为艺术的丰盈，带给人类以精神的充盈。

　　（作者为中国文联网络文艺传播中心副主任）

　　人工智能再造视听内容创作流程

　　沈阳

　　“所思即所见，所见即所想”，将心中所想直接转化为眼前可见的内容是人类孜孜以求的梦想。作为AI微短剧《中国神话》创作者，我们融合文生文、文生图、文生音乐和文生视频等人工智能技术，实现了从创意构思到视听呈现的人工智能全流程再造，探索人类与机器智能合作的新模式。

　　智能化策划，让人工智能成为创意策划的“智囊团”。故事策划是视听内容创作的首要环节，传统编剧的灵感往往受限于个人阅历和知识结构，而大语言模型因为学习了万亿数量级的文字内容，相比于个体创作者，对古今中外的“人情世故”更为了解，有推理能力的人工智能还会组合创新，因而成为故事脚本撰写的好帮手。利用人工智能工具，可以高效完成剧本方案、人物设定、作品世界观架构等工作。以《中国神话》的创作为例，创作团队利用智能应用对中国古代神话资料进行智能检索、关联分析，快速梳理出角色谱系、情节脉络等关键信息，在此基础上生成数十个走向的故事候选方案，分集故事框架的搭建过程仅需20分钟，前期策划的人力投入减少70%左右。事实上，在清华大学团队近期创作的200余条AI视频中，人工智能辅助生成的选题方案已涵盖文史、科技、美食、旅行、教育等多个垂直领域，人工智能帮助策划者快速获取灵感、系统化拓展思路，为视听内容策划与制作的“想什么”赋能。

　　自动化生产，用人工智能丰富“怎么拍”的路径。在影视画面制作阶段，人工智能技术的引入带来流程再造。我们采用文生图、文生视频技术，通过输入文字指令让人工智能自动生成相应风格的图片素材与视频素材，极大简化了视觉创意从构思到呈现的流程。这其中的关键技术在于将自然语言文本与视觉内容建立精准映射，利用大规模多模态预训练模型，实现图片和视频内容的智能生成。这一技术打破了传统动画影视制作中分镜绘制、三维建模、动作捕捉等环节对专业技术的高度依赖，把传统视听创作对“心—目—手”的高要求转换为“心—目—言”的新要求，实现了从文字脚本到视觉画面的直接转化，使影视创意的呈现更加高效灵活。这是视听内容创作的一次重大范式转变。由于语料丰富，人工智能可以快捷制作出包括写实、抽象等在内的近130种不同艺术风格的影像内容，拓展了视觉创意的可能性，为视听内容创作提供更多灵感。

　　智能配音和剪辑，以人工智能替代大量基础性工作。音乐是视听作品的情感载体，对渲染气氛、引发共鸣起着关键作用。我们调用人工智能工具，对短剧的故事情节、画面节奏、情绪基调进行分析并提取关键信息点；再将文本信息输入音乐模型，使其实时输出与影片风格、情感氛围相匹配的音乐素材；最后再通过人工优选与整合润色，配制出风格一致、节奏流畅的影片配乐。文生音乐的创作模式实现了人工作曲到智能生成的转变，大幅提升了创作效率，降低了生产成本。

　　配音是视听作品的重要组成，对角色塑造、情感表达都起到不容忽视的作用。人工智能语音合成技术可自动匹配对白语气，再现角色的音色特点与情感状态。基于深度学习的人工智能配音系统还可捕捉真人配音的韵律特点与情感变化，生成更加接近真人的配音效果。目前，我们利用人工智能技术，可实现配音流程的全自动化。

　　后期制作向来是影视制作中耗时耗力的环节，我们在视频剪辑时采用智能镜头分类、自动拆条、片段标引、智能字幕、一键调色等方法，可让人工智能“剪刀手”代劳80%的粗剪工作。6分钟时长的影片粗剪仅需20分钟，是传统手工剪辑速度的5倍。整个视频全部交付的综合人力时间成本是传统制作流程的1/16左右。在人工智能代劳大量基础性工作后，人类创作者能够将更多精力投入对作品的宏观调度与艺术把控上，并对内容进行选择和优化。

　　整体而言，人工智能技术将成为提升视听内容生产力的重要工具，人工智能与人类智慧的交织融合正在重塑视听艺术的边界。未来，合成视频、对话和交互式视频、无编辑视频、跨风格视频等新类型内容，将极大丰富视听产品的品类和形态，提升内容的个性化水平，提高内容制作的实时性。同时，新的创作生产方式也对创作者的角色定位和知识结构提出了新的要求，审美和想象力将变得更加重要。当然，人工智能也会犯错，输出无中生有的内容，带来穿帮镜头等问题，随着技术的发展，这些问题将逐步得到解决。

　　当人工智能技术进一步成熟之后，视听内容创作效率将提升百倍千倍。人类提供一个初始想法，人工智能就能创作出一部中短篇小说，根据这部小说又能创作出一部影片，整个过程也许只需要数分钟即可完成，这种前所未有的视听创作的梦幻场景，有很大概率在不久的将来实现。届时，只要输入创作诉求甚至输出脑电波，人们就可进行多模态优质内容创作，在人工智能协助下实现艺术表达。《中国神话》等作品只是一个起点，人工智能赋能文艺创作的更多可能性，正等待着我们去探索和实现。

　　（作者为清华大学新闻与传播学院教授）

　　版式设计：蔡华伟

　　《人民日报》（ 2024年06月11日 20 版）

(责编：卫嘉、白宇)

相关推荐