首页/资讯/2万字长文助你快速入门AIGC：包含底层原理、应用场景、热门工具、行业现状…

2万字长文助你快速入门AIGC：包含底层原理、应用场景、热门工具、行业现状…

资讯 2024.03.18 39

长期来看，我们认为闲聊型文本交互将会成为重要潜在场景，例如虚拟伴侣、游戏中的NPC个性化交互等。...

长期来看，我们认为闲聊型文本交互将会成为重要潜在场景，例如虚拟伴侣、游戏中的NPC个性化交互等。2022年夏季上线的社交AIGC叙事平台 Door以及基干GPT 3开发的文本探索类游戏均已获得了不错的消费者反馈。

随着线上社交逐渐成为了一种常态，社交重点向转移AI具有其合理性，我们预估未来1-2年内就会出现明显增长。目前较为典型的包括小冰公司推出的小冰岛，集中在精神心理领域的聆心智能、开发了的.io等。

音频及文字—音频生成

整体而言，此类技术可应用于流行歌曲、乐曲、有声书的内容创作，以及视频、游戏、影视等领域的配乐创作，大大降低音乐版权的采购成本。我们目前最为看好的场景是自动生成实时配乐，语音克隆以及心理安抚等功能性音乐的自动生成。

TTS(Text-to-)场景

TTS在AIGC领域下已相当成熟，广泛应用于 *** 及硬件机器人、有声读物制作、语音播报等任务。例如倒映有声与音频客户端“云听”APP *** 打造AI新闻主播，提供音频内容服务的一站式解决方案，以及喜马拉雅运用TTS技术重现单田芳声音版本的《毛氏三兄弟》和历史类作品。这种场景为文字内容的有声化提供了规模化能力。

目前技术上的的关键，在于如何通过富文本信息(如文本的深层情感、深层语义了解等)更好的表现其中的抑扬顿挫以及基于用户较少的个性化数据得到整体的复制能力(如小样本迁移学习》。基于深度学习的端到端语音合成模式也正在逐步替代传统的拼接及参数法，代表模型包括、Deep Voice及等。

目前的垂直代表公司包括倒映有声、科大讯飞、思必驰(DUl)、、和。

随着内容媒体的变迁，短视频内容配音已成为重要场景。部分软件能够基干文档自动生成解说配音，上线有150+款包括不同方言和音色的AI智能配音主播。代表公司有九锤配音、加音、、剪映等。

在TTS领域，语音克隆值得特别关注。语音克隆是本质上属于指定了目标语音(如特定发言人)的TTS。技术流程如下:

该技术目前被应用于虚拟歌手演唱、自动配音等，在声音IP化的基础上，对于动画、电影、以及虚拟人行业有重要意义。代表公司包括标贝科技、、、、、Lovo、Voice mod. Ai、、、、、。

乐曲/歌曲生成

AIGC在词曲创作中的功能可被逐步拆解为作词(NLP中的文本创作/续写)、作曲、编曲、人声录制和整体混音。目前而言，AIGC已经支持基于开头旋律、图片、文字描述、音乐类型、情绪类型等生成特定乐曲。

其中，AI作曲可以简单理解为“以语言模型(目前以为代表，如谷歌、、AIVA等)为中介，对音乐数据进行双向转化(通过MIDI等转化路径)”。此方面代表性的模型包括、Music 。据介绍，为提升整体效率，在这一过程中，由于相关数据巨大往往需要对段落，调性等高维度的乐理知识进行专业提取，而节奏、音高、音长等低维度乐理信息由AI自动完成提取。

通过这一功能，创作者即可得到AI创作的纯音乐或乐曲中的主旋律。2021年末，贝多芬管弦乐团在波恩首演人工智能谱写完成的贝多芬未完成之作《第十交响曲》，即为AI基于对贝多芬过往作品的大量学习，进行自动续写。

Al编曲则指对AI基于主旋律和创作者个人的偏好，生成不同乐器的对应 *** (如鼓点、贝斯、钢琴等)，完成整体编配。在这部分中，各乐器模型将通过无监督模型，在特定乐曲/情绪风格内学习主旋律和特定要素间的映射关系，从而基于主旋律生成自身所需 *** 。对于人工而言，要达到乐曲编配的职业标准，需要7-10年的学习实践。

人声录制则广泛见于虚拟偶像的表演现场(前面所说的语音克隆)，通过端到端的声学模型和神经声码器完成.

可以简单理解为将输入文本替换为输入MIDI数据的声音克隆技术。混音指将主旋律、人声和各乐器 *** 的音轨进行渲染及混合，最终得到完整乐曲。该环节涉及的AI生成能力较少。

该场景下的代表企业包括、网易-有灵智能创作平台、Amper Music、AIVA、Landr、IBM、 Music、、、Brain.FM、、Flow 。其中，自动编曲功能已在国内主流音乐平台上线，并成为相关大厂的重点关注领域。以 *** 音乐为例，就已成为Amper music的API *** 伙伴。

对这一部分工作而言，更大的挑战在于音乐数据的标注。在标注阶段，不仅需要需要按时期、流派、作曲家等特征，对训练集中乐曲的旋律、曲式结构、和声等特征进行描述，还要将其有效编码为程序语言。此外，还需要专业人员基于乐理进行相关调整润色。以为例，音乐标注团队一直专注在存量歌曲的音乐信息标注工作上，目前已经形成了全球最精确的华语歌曲音乐信息库，为音乐信息检索(MIR)技术研究提供数据支持。

- 场景推荐

我们认为，以乐曲二创、辅助创作等场景为代表，Al编曲将在短期内成为AI音频生成中的快速成长赛道。特别是由于可以指定曲目风格、情绪、乐器等，AIGC音乐生成对干影视剧、游戏等多样化，乃至实时的背景音乐生成有重要意义。

图像生成

基于对不同技术原理的梳理，我们将图像生成领域的技术场景划分为图像属性编辑、图像局部生成及更改、以及端到端的图像生成。其中，前两者的落地场景为图像编辑工具，而端到端的图像生成则对应创意图像及功能性图像生成两大落地场景。

图像属性及部分编辑

属性编辑部分，可以直观的将其理解为经AI降低门槛的。目前而言，图片去水印、自动调整光影、设置滤镜(如、Versa、Vinci和)、修改颜色纹理(如)、复刻/修改图像风格(DALL·E2已经可以仅凭借单张冬像进行风格复刻，等)、提升分辨率等已经常见。

关于此类场景，初创公司数量庞大，Adobe等相关业务公司(Adobe )也在进入这一领域。我们认为，对于此类业务而言，引流渠道和与技术流程挂钩的产品使用体验非常重要。现有的代表公司包括美图秀秀(美图AI开放平台)、、、、、.bg、 (Mask Al)、。

图像部分编辑部分，指部分更改图像部分构成(如英伟达支持将图内的斑马和马进行更改)、修改面部特征(，可调节自身照片的情绪、年龄、微笑等;以为代表的图像换脸)。由干技术限制，图像的各部分之间需要通过对齐来避免扭曲，伪影等问题，目前GAN还难以直接生成高质量的完整图像。2019年，曾宣传能够直接生成完整模特图的日本公司目前已无动向。但同时，也出现了由局部生成并接为完整冬像的生成惠路。典型代表为选入的，该模型由Adobe推出。

同时，细粒度、分区域的图像编辑能力也较为关键，代表为英伟达的。该模型将需要编辑的原图像x嵌入到的潜空间，借助语义分割冬的相同潜码，将原冬x分割成高度精细的语义块( mask)并得到分割冬v。接着，使用简单的交互式数字绘画或标签工且进行手动修改。模型最终会共宣潜码的优化，以保持新分割图与真实图像的RGB外观一致。如图所示:

图像端到端生成

此处则主要指基于草图生成完整图像(、谷歌可画出怪物、英伟达可画出风景、基于草图生成人脸的)、有机组合多张图像生成新图像()、根据指定属性生成目标图像(如.ai支持生成虚拟的模特面部)等。

该部分包含两类场景，分别为创意图像生成与功能性图像生成。前者大多以NFT等形式体现，后者则大多以营销类海报/界面、loao、模特图、用户头像为主。

垂直代表公司/产品包括、.ai、、、、、wombo、、、阿里鹿班、ZMO.ai、、诗云科技、道子智能绘画系统等。

由干冬像的生成复杂度远高干文字，在整体生成上，目前仍然难以达到稳定可靠的生成高质量图像。但据高林教授评价，人脸生成的应用将预计有更快的发展。从VAQ、VAE等技术选型开始，人脸生成的技术研究已经有了较好的效果，同时人脸数据集也较为充足。同时，单张的人脸生成价值相对有限。

要进一步发挥其价值，可以考虑将其与NeRE、也即3D内容生成相结合，支持从不同的视角和动作还原特定对象面部，能够在发布会、面见客户等场景中有重要作用。而对于近年视频换脸效果不佳的情况，高教授认为这与底层设计优化，例如除纹理相似度之外，在解编码中考虑更多的时间、动作、甚至情感等因素，并叠加考虑数据、渲染能力等因素。

视频生成视频属性编辑

例如视频画质修复、删除画面中特定主体、自动跟踪主题剪辑、生成视频特效、自动添加特定内容、视频自动美颜等。代表公司包括、、Adobe 、、帝视科技、CCTV AIGC、影谱科技、Versa(不咕剪辑)、美图影像研究院等。

视频自动剪辑

其干视频中的画面，声音等多模态信息的特征融合进行学习，按照氛围，情绪等高级语义限定，对满足条件片段进行检测井合成。目前还主要在技术尝试阶段。典型案例包括Adobe与斯坦福共同研发的A视频重标系统、自动前标电影饰告片，以及Flow 。我国的影谱科技推出了相关产品，能够其干视频中的画面，声音等多模态信息的特征融合进行学习，按照氛围，情绪等高级语义限定，对满足条件片段进行检洳并合成。

视频部分生成(以为典型代表)

技术原理：视频到视频生成技术的本质是其千目标图像或视频对源视频进行编辑及调试，通过其干语音等要素诼帧复刻，能够完成人脸替换，人脸再现人物表情或面部特征的改变)，人脸合成(构建全新人物)其至全身合成，虚拟环境合成等功能。

其原理本质与图像生成类似，强调将视频切案成师，再对每一帧的图像进行外理。视频生成的流程通常可以分为三个步骤，即数据提取，数据训练及转换。以人脸合成为例，首先需要对源人物及目标人物的多角度特作数据提取，然后基于数据对模型进行训练并进行图像的合成，最后基干合成的图像将原始视频进行转换，即插入生成的内容并进行调试，确保每一帧之间的流程度及真实度。目前的技术正在提升修改精准度与修改实时性两方面。

落地分析

在我们看来，该场景的底层商业逻辑与虚拟偶像类似。本质上是以真人的肖像权作为演员，实际表演者承担“中之人”的角色。其主要落地场景包含两方面:

一方面，可以选择服务于明星，在多语言广告、碎片化内容生成等领域使用，快速提升明星的IP价值。例如为制作的广告，通过使用改变其嘴部动作，就能够将原始广告匹配到另一品牌。

另一方面，则可以服务干特定商务场景，例如培训材料分发(如WPP的全球培训视频)，素人直播及短视频拍摄等。

由于技术要求，需要对最终脸部所有者进行大量数据采集，需要相关从业公司获取大量面部数据授权，对针对市场需求进行相关运营，完善后续的配套监管和溯源措施。

除了之外，我们还观察到了在视频中的虚拟内容植入，也即利用计算机图形学和目标检测在视频中生成物理世界并不存在的品牌虚拟元素，如logo、产品、吉祥物等。以国外公司为代表，该公司目前已经为腾讯视频服务，后者准备在插入虚拟资产的基础上，个性化展示广告。这将极大的简化商业化内容的生成过程。

图像、视频、文本间跨模态生成

模态是指不同的信息来源或者方式。目前的模态，大多是按照信息媒介所分类的音频、文字、视觉等。而事实上.在能够导找到合适的载体之后，很多信息，诸如人的触觉、听觉、情绪、生理指标、甚至于不同传感器所对应的点云、红外线、电磁波等都能够变为计算机可理解可处理的模态。

对人工智能而言，要更为精准和综合的观察并认知现实世界，就需要尽可能向人类的多模态能力靠拢，我们将这种能力称为多模态学习MML(Multi-modal )，其中的技术分类及应用均十分多样。我们可以简单将其分为跨模态理解(例如通过结合街景和汽车的声音判断交通潜在危险、结合说话人的唇形和语音判定其说话内容)和跨模态生成(例如在参考其他图画的基础上命题作画:触景生情并创作诗歌等)。

架构的跨界应用成为跨模态学习的重要开端之一。

架构的核心是Self-机制，该机制使得能够有效提取长序列特征，相较于CNN能够更好的还原全局。而多模态训练普遍需要将图片提取为区域序列特征，也即将视觉的区域特征和文本特征序列相匹配，形成架构擅长处理的一维长序列，对的内部技术架构相符合。

与此同时架构还且有更高的计算效率和可扩展性，为训练大型跨模态模型奠定了基础。将架构首次应用于图像领域。该模型在特定大规模数据集上的训练成果超出了。

随后，谷歌的尝试了将拓展到“视频-文本”领域。该模型能够完成看图猜词和为视频生成字幕两项功能，首次验证了+预训练在多模态融合上的技术可行性。基于的多模态模型开始受到关注，、、、Oscar等纷纷出现。

CLIP模型的出现，成为跨模态生成应用的一个重要节点。

CLIP.-Image Pre-，由在2021年提出，图像编码器和文本编码器以对比方式进行联合训练，能够链接文本和图片。可以简单将其理解为，利用CIP测定冬片和文本描述的贴切程度。

自CHP出现后，“CLP+其他模型”在跨模态生成领域成为一种较为通用的做法。以Disco 为例，该模型将CLIP模型和用于生成图像的模型进行了关联。CLIP模型将持续计算模型随机生成噪声与文本表征的相似度，持续迭代修改，直至生成可达到要求的图像。

除去图像领域，CLIP后续还在视频、音频、3D模型等领域扮演了关联不同模态的角色。例如入选.基于文本生成3D参像的(类似工作还包括CP-Forae)。不过目前，已经出现了在所需数据量和算力上表现更为优秀的匹配模型。例如南加州大学的。

在此基础上，大型预训练模型的发展重点开始向横跨文本、图像、语音、视频的全模态通用模型发展。通过计算策略、数据调用策略、深度学习框架等方法提升模型效果成为目前研究的进展关键。与此同时，覆盖更多模态的训练数据同样值得关注。例如，提供了包括10个模态的数据集，提供了360度视频数据，X-World提供用于自动驾驶的各类模态数据。目前，华为诺亚方舟已经开源了全球首个亿级中文多模态数据集“悟空”。

跨模态大型预训练模型的代表包括:开启了跨模态预训练模型的Open ·E及CLIP、 .微软及北大 NÜWA女娲、、的Gato、百度ERNIE-ViLG、及Meta 的AV-(基于语音和唇语输出文本)及(横跨CV、NIP和语音)、中科院“紫东太初”、哥大及开发的(基干视频、音频等输出文本)。

多模态能力的提升将成为AI真正实现认知智能和决策智能的关键转折点。在未来1-2年，“文字一图像”的生成将快速落地。目前，“文字-视频”的生成也已有相对理想的实验效果，三个模态的跨模态生成也已经开始尝试。

接下来，我们将区分具体模态，对跨模态生成领域的代表模型进行介绍

文字生成图像

2021年，的CLIP和DALLE开启了AI绘画重要的一年。同年，收录的VQGAN也引发了广泛关注。2022年被称为“AI绘画“之年，多款模型/软件证明了基于文字提示得到效果良好的图画的可行性，受到广泛关注。

首先，推出了GLIDE。GLIDE全称 to Image for ，是一种扩散模型，参数仅35亿。支持CLIP引导(经训练后的噪声感知64x64 ViT-L CLIP模型)和无分类器引导，支持部分P图和迭代生成。

随后为Disco ，该免费开源 *** 搭载在 Colab上，需要一定的代码知识，更擅长梦境感的抽象田面，在具象生成和较多的描述语句上效果较差。随后，Disco 的作者之一推出了AI绘画聊天机器人。该软件搭载在上，商业化和产品化更为成熟，并提出了明确的分润模式(商业变现达到两万美金后需要20%分润)。

类似的软件及公司包括Bia Sleep、、WOMBO Dream。国内相关软件则包括，以及百度文心ERNIE-ViLG、小冰框架、悟道文澜、阿里M6等跨模态生成模型。

更擅长具象、对文本指令还原度更高的DALL。E2和 Al证实了AI绘画的实际应用价值。但需要注意的是两者的技术思路并不相同。尽管扩散模型等引发了巨大关注，但不同的技术思路同样呈现出了较好效果。目前尚无法确定未来AI绘画的关键技术里程碑。

文字生成视频

在一定程度上，文本生成视频可以看作是文本生成图像的进阶版技术。我们预估，AI绘画和AI生成视频将分别在3年和5年后迎来较为广泛的规模应用。

一方面，两者的本质比较接近。文本生成视频同样是以Token为中介，关联文本和图像生成，逐帧生成所需图片，最后逐帧生成完整视频。而另一方面，视频生成会面临不同帧之间连续性的问题。对生成图像间的长序列建模问题要求更高，以确保视频整体连贯流程。从数据基础来看，视频所需的标注信息量远高于图像。

按照技术生成难度和生成内容，可以区分为拼凑式生成和完全从头生成两种方式。

拼凑式生成的技术是指基干文字(涉及NLP语义理解)搜索合适的配图、音乐等素材，在已有模板的参考下完成自动剪辑。这类技术本质是“搜索推荐+自动拼接”，门槛较低，背后授权素材库的体量、已有模版数量等成为关键因素。目前已经进入可商用阶段，国外有较为成熟的产品。代表公司/产品方面，2C的包括百度智能视频合成平台

，彗川智能，. video..2B端代表公司为.

完全从头生成视频则是指由AI模型基于自身能力，不直接引用现有素材，生成最终视频。该领域目前仍处于技术尝试阶段，所生成视频的时长、清晰度、逻辑程度等仍有较大的提升空间。以为例.该模型基于预训练文本-图像模型打造，一共分为两个模块。之一部分先基于，通过文本生成几帧图像，这时候合成视频的帧率还很低;第二部分则会基于双向注意力模型对生成的几帧图像进行插帧，来生成帧率更高的完整视频。

由于从静态内容生成进入到了动态生成阶段，需要考虑其中时序性、连续性的问题。视频生成对于内容生成领域将具有节点性意义。同时，由于视频中会包括文本中难以表现的逻辑或尝试，相较于图像或纯文本训练，视频预训练模型有助于进一步释放语言模型的能力。

其他相关预训练模型还包括推出的、微软亚洲研究院推出的、清华及智源研究院提出的、TGAN、 Truth等。

图像/视频到文本

具体应用包括视觉问答系统、配字幕、标题生成等，这一技术还将有助于文本一图像之间的跨模态搜索。代表模型包括METER、ALIGN等。除了在各个模态之间进行跨越生成之外，目前，包括小冰公司在内的多家机构已经在究多模态生成，同时将多种模态信息作为特定任务的输入，例如同时包括图像内的人物、时间、地点、事件、动作及情感理解、甚至包含背后深度知识等。以保证生成结果更加精准。

策略生成游戏AI

以腾讯AI Lab在游戏制作领域的布局为例，人工智能在游戏前期制作、游戏中运营的体验及运营优化、游戏周边内容制作的全流程中均有应用。

我们将其中的核心生成要素提炼为Al Bot、NPC相关生成和相关资产生成。

Al Bot，也即游戏操作策略生成。可以将其简单理解为人工智能玩家，重点在干生成真实对战策略。2016年在围棋中有所展示，随后，AI决策在Dota2、、德扑、麻将等游戏领域中均展现出了良好的实力。

技术关键在于强化学习方案优化设计，体现为多智能体使用、可适应游戏/环境复杂度、具体策略多样性等。目前，包括网易在内的我国主流游戏公司已经形成共识，除去直接以陪玩等形式服务C端玩家，也在通过游戏跑图。

平衡度等方式服务于游戏开发/运营等B端。

相关业务场景

游戏策划会根据具体的游戏内容，为角色本身的属性、技能、状态等，以及道具、环境、货币等参数，设定一系列的数值。平衡性测试能够充分地模拟玩家在某一套数值体系下的游戏体验，提出优化策略，为玩家带来更加平衡的多样性游戏交互。

之前需要在测试服上邀请人类玩家试玩1-2个月后才能得到结果。现在由AlBot直接在内部完成相关工作即可。

通过Albot针对性的找出游戏中所有交互的可能性，通过发现潜在漏洞辅助游戏策划

包括平衡匹配、冷启动、玩家掉线接管等

在绝悟中，AI通过模仿职业选手，掌握他们的典型个人风格，玩家则感觉像在与真实的职业选手对抗

在游戏内“绝悟试炼”玩法中，在玩家发出各种指令后，AI会根据而量、距离等实际情况，评估指令的合理性，选择执行或拒绝，身兼队友及老师，与玩家在真实对战环境中交流协作，并在过程中向玩家传授职业级的策略与操作技术，帮助玩家迅速熟悉英雄操作与游戏玩法。在引入王者绝悟AI教学后，玩家单局游戏主动沟通的次数有明显提升，提高了PVE玩法的可玩性。

代表机构:腾讯Al Lab (腾讯“绝悟”)

「绝悟、AI通过强化学习的方法来模仿真实玩家，包括发育、运营、协作等指标类别，以及每分钟手速、技能释放频率、命中率、击 *** 数等具体参数，让AI更接近正式服玩家真实表现，将测试的总体准确性提升到95%。

目前腾讯绝悟在环境观测、图像信息处理、探索效率等方面的创新算法已经突破了可用英雄限制(英雄池数量从40增为100)，让 AI完全掌握所有英雄的所有技能并达到职业电竞水平，能应对高达10的15次方的英雄组合数变化。基干绝悟，王者荣耀的数值平衡性偏差已经从1.05%下降到0.68%，其所涉及的“多智能体”决策过程中，可以在高达 10 的 20000 次方种操作可能性的复杂环境中进行决策。

目前，腾讯AI Lab还与腾讯 Al Lab 还与王者荣耀联合推出了AI开放研究平台「开悟」，并积极举办相关赛事。

代表公司:超参数

估值已达独角兽，业内率先实现在3D FPS(游戏的帧数)领域的大规模商业化落地，服务对象包括数款千万级日活的游戏产品。超参数科技的AI服务已经为数款年流水超过10亿元的游戏产品贡献了巨大的商业价值，涵盖沙盒、开放世界、FPS、MOBA、休闲竞技等多个品类。

其Al Bot支持玩家陪玩、多人团队竞技、非完美信息博弈A，并提供了自研小游戏《轮到你了》中的虚拟玩家。目前，Albot已在多款千万日活的产品中上线:每日在线数峰值将近百万。游戏Al平台“Delta”三具备跨云调度超过50万核的计算能力，承载超过50万个AI并发在线:每天服务全球40余个国家的上亿玩家、提供数千亿次调用。

在我国，网易伏养，商汤科技也已在其业务布局中提及该部分业务。

NPC逻辑及剧情生成，也即由AI生成底层逻辑。此前，NPC具体的对话内容及底层剧情需要人工创造驱动脚本，由制作人主观联想不同NPC所对应的语言、动作、操作逻辑等，这种动态的个性化匹配背后依旧是不同的静态分支，创造性及个性化相对有限。

而以rct AI的智能NPC为例，其NPC能够分析玩家的实时输入，并动态地生成交互反应，从而构建几乎无限目不重复的剧情，增强自户体验并延长游戏生命周期。特别是在养成类游戏中，Al所提供的个性化生成能够带来画面，剧情及具体交互的个性化全新游戏体验。而实时剧情生成则有助于在特定框架内生成全新的可能性，增加游戏整体的叙事可能性。

虚拟数字人

虚拟数字人指存在于非物理世界(如图片、视频、直播、一体服务机、VR)中，并具有多重人类特征的综合产物。

目前“深度合成+计算驱动”型的虚拟人，综合运用文本、图像、音频等生成技术，打造综合外观、面部表情、发声习惯等产出全面拟人化的数字内容，属于AIGC领域。

此种多模态生成技术的聚合应用在虚拟偶像、虚拟主播等领域已有广泛应用。在《量子位虚拟数字人深度产业报告》中，我们将虚拟人按照产业应用划分为两种，即服务型虚拟人及身份型虚拟人。

计算驱动型/AIGC型虚拟人制作流程

1.设计形象：扫描真人形态及表演、采集驱动数据，利用多方位摄像头，对通用/特定模特进行打点扫描，采集其说话时的唇动、表情、面部肌肉变化细节、姿态等数据。

2.形象建模，进行绑定：设计所需的模型，或基于特定真人进行高还原度建模，进行关键点绑定。关键点绑定的数量及位置影响最终效果。

3.训练各类驱动模型：决定最终效果的核心步骤利用深度学习，学习模特语音，唇形，表情参数间的潜在映射关系，形成各自的驱动模型与驱动方式。

充足的吸动关键占配合以精度较高的驱动模型，能够高还原度的复原人脸骨骼和肌肉的细微变化，得到逼真的表情驱动模型。

4.内容制作：基于输入的语音(或由输入文本转化的语音)，预测唇动、表情等参数核心的技术流程是基于输入的语音，或首先基于TTS技术(Text-to-，语音合成技术)。

将输入的本文转化为语音。基于语音，结合第3步得到的驱动模型，并利用生成对抗模型GAN选出更符合现实的图片，推理得到每帧数字人的图片。通过时间戳，将语音和每帧的数字人图片进行结合。

5.进行渲染，生成最终内容：直播时进行实时渲染。为保证在特定场景下能够实现实时低延迟渲染，计算框架的大小、算力供给等技术问题同样会影响到虚拟数字人的最终生成效果

综合来看，我们认为虚拟人生成代表着从文本/音频等低密度模态向图像/视频/实时交互等信息密度更高的模态的转化。其中，视频是短期的发展重点，而长期来看，乃至在元宇宙阶段，通过实时交互成为社交节点，都将是虚拟人重要的应用场景。

在AIGC领域，我们将虚拟人生成分为虚拟人视频生成和虚拟人实时互动。

虚拟人视频生成是目前计算驱动型虚拟人应用最为广泛的领域之一，不同产品间主要的区分因素包括:唇形及动作驱动的自然程度、语音播报自然程度、模型呈现效果(2D/3D、卡通/高保真等)、视频渲染速度等。

我们在此关注到了小冰公司与每日财经新闻 *** 的虚拟人实时直播，除虚拟人的自动生成外，还包括了摘要、图示、表格等的自动生成，在虚拟人的基础上，交付了更为完整的AIGC内容播报产品。此外，倒映有声的TTSA除虚拟人外，还包括整个画面中的素材呈现，相较于市面上嘴形、面部和身体律动的有限覆盖，虚拟人播报的整体效果也有所提升。

代表公司:倒映有声

一家以技术为核心的创新型公司和无人驱动数字分身技术解决方案供应商。通过自研神经渲染引整和TTSA技术，实现基于文本实时生成高质量语音(音频)和动画(视频)。

在试用了倒映有声的产品后。我们发现其虚拟人自然度高于市面产品，倒映有声将其归结于神经渲染()、TTSA(基于文本和语音合成实时生成音频和视频)、ETTS(富情感语音合成)、 Twin(数字孪生)。通过神经渲染技术快速构建AI数字分身，通过语音+图像生成技术，生成和驱动教字分身的唇形、表情、动作、肢体姿态，创造表情自然，动作流畅，语音充满情感的高拟真度数字分身IP。

而虚拟人的实时互动则广泛应用于可视化的智能 *** ，多见于APP、银行大堂等。在AIGC的虚拟人领域，由于更能够体现AI在个性化、高并发性等方面的优势，我们更强调虚拟人的实时交互功能。我们可以将这一功能理解为以人为单位的数字变生，其中会进一步涉及思维及策略相关的生成。但由于文本生成的局限性，该场景目前只能适用于特定行业。

该领域的代表公司包括:.ai、、.ai、小冰公司、倒映有声、数字王国、影谱科技、科大讯飞、相芯科技、追一科技、网易伏羲、火山引擎、百度、搜狗等。

除了基干NLP进行问答外，以小冰公司和腾讯Alab(A虚拟人艾灵)为代表，部分公司也在尝试将不同的生成能力融合在虚拟人下，使虚拟人能够更好的融入现实世界。

以小冰公司的小冰框架为例，虚拟人不仅在人格化形式上涉及了虚拟面容生成，虚拟语音定制、交互等，并进一步被赋予了写诗、绘画、演唱、音乐创作等AI内容创作能力，以虚拟人为接口，对外提供全栈式的AIGC能力。

虚拟人及综合性AIGC代表公司:小冰公司

小冰是全球领先的人工智能科技公司，旗下小冰框架是全球承载交互量更大的完备人工智能框架之一，在开放域对话、多模态交互、超级自然语音、神经 *** 渲染及内容生成领域居于全球领先。

作为“”派虚拟人。小冰的产品始终是人+交互+内容。具体包括虚拟人(夏语冰等、虚拟男友等和国家队人工智能助判与教练系统观君等在乖直场景中工作的虚拟人类)，音精生成(主攻超级语言及歌声，在线歌曲生成平台与歌手歌声合成软件)、视觉创造(毕业作品集《或然世界》、为国家纺织品开发中心、万事利等数百家机构提供了图案和纹样设计)、文本创造(2017年即推出小冰诗集)、虚拟社交、Game Al( Game )等。

商业客户已覆盖金融、智能车机、零售、体育、纺织、地产、文旅等十多个垂直领域，并提出了以“人力”的逻辑去进行商业报价的虚拟人商业模式。

五、国外AIGC工具

国外AIGC产品导航：代表产品1：（文本生成领域）

官网：#

国内可使用这个入口进行体验（国内团队搭建的独立站，暂时可以 *** ）：

代表产品2：（图像生成领域）

官网：

作品分享社区：

代表产品3：（视频生成领域）官网：

六、国内AIGC工具

国内AIGC产品导航：#term-24代表产品1：（应用型文本生成领域）

官网：

代表产品2：（文本辅助生成领域）

秘塔写作猫：

代表产品3：（文字生成图像领域）

站酷梦笔官网：

百度文心一格官网：

代表产品4：皮卡智能（图像编辑领域）

官网：

发展趋势

总体而言，我们将AIGC产业划分为内容领域和延展领域。内容领域是目前已经能够、但并未有效实现商业化的领域。

预估未来1-2年之内会有相对完整的产业生态发展。而延展领域，由于对AI生成的自由度和稳定性有更高的技术要求.在国内的应用落地相对内容领域会更晚。分析师认为，由于能够更加充分体现AIGC系统联动及要素拆解两大关键优势延展领域后期将成为AIGC创造价值的主阵地，提供AIGC的想象空间天花板。

我国AIGC行业目前是尝试阶段，重点在于技术完善+需求探索，研究机构的作用明显。大部分情况下AIGC尚未进入业务场景，变现能力有待增长。具有编辑优化功能的AIGC将成为这段时期的发展重点。

在主要场景中，Al能够遵从明确的指令或素材，完成有助于最终生成的工作，例如虚拟人播报，语音克降等。

我们将行业发展阶段进行了如下划分。其中，关键节点包括:

AIGC技术能力的成熟。体现在特定模型在大规模测试后指标能够稳定在理想状态，可以以论文发表及反馈等作为关键指标。但需要强调，该阶段的技术能力成熟往往距离实际应用仍有一段距离，不能直接作为判定标准。

产品形态的成熟。不仅包括低代码/零代码等低门槛要求，还需要符合创作者的使用习惯，例如，能够中途及时介入修改，多种形式的，有充足的介入接口等。分析师认为后者更为重要，除去产品设计之外也与本身的技术架构相关。

核心场景的确定。目前，尽管许多AIGC能力已经进入实际使用，但尚未寻找到能充分体现其核心价值的关键场景，应用价值无法得到充分发挥。

产业方的接纳态度。包括底层接口开放、业务流程融通、产业基础设施完善等。可以以行业头部公司的接纳/自研态度作为重要参考指标。

需要强调的是，由于各内容领域的生成技术之间发展差距较大，该阶段评价仅基于AIGC行业整体。相关指标也可用于衡量不同AIGC赛道目前的成熟度，用干预测其未来发展路径。

在国内，布局最多的赛道是AI写作和语音合成领域，虚拟人赛道刚刚开始兴起基本均停留在内容领域。而在国外延展领域得到了更为充分的挖掘，例如个性化文本生成、合成数据等赛道均是重点布局领域。据相关公司披露，这两个赛道均已获得了明确业务价值和收入验证，但在国外目前进展较少。

技术部分导致了这一原因，但分析师认为，更大的原因在于此类业务拓展的综合性要求较高，需要客户方的数字化程度以及对对应行业的充分了解，预计国内外在这两个赛道上存在2-3年差距。

最后，我国的AIGC行业尚未建立起明确的变现方式。以写作机器人、自动配音等场景为例，大部分产品仍处在免费试用的“流量吸引+平台改良”阶段，收费空间相对较小。此外，多家公司提及，由于服务B端客户时话语权较弱，会考虑向2B2C领域、乃至直接2C领域延展。但作为工具，能否在互联网流量相对稳定的前提下有效接触C端用户，设计好产品转化路径，依旧是一项挑战。

国外AIGC现有变现方式

GPT-3对外提供API借口，采用的四种模型分别采用不同的按量收费方式

包括DALL·E、Deep Dream 等AI图像生成平台大多按照图像张数收费

例如个性化营销文本写作工具AX 则以约1900人民币/月的价格对外出售，并以约4800欧元/月的价格提供支持定制的电子商务版本。大部分C端AIGC工具则以约80人民币/月的价格对外出售

例如版权授予(支持短期使用权，长期使用权，排他性使用权和所有权多种 *** 模式，拥有设计图案的版权)，是否支持商业用途(个人用途、企业使用、品牌使用等)、透明框架和分辨率等

AIGC面临的挑战：

版权、安全、伦理等问题。AIGC在引发全球关注的同时，知识产权、技术伦理将面临诸多挑战和风险。同时AIGC距离通用人工智能还有较大的差距。

1）知识产权争议。AIGC的飞速发展和商业化应用，除了对创作者造成冲击外，也对大量依靠版权为主要营收的企业带来冲击。

2）关键技术难点。AIGC距离通用人工智能还有较大差距，当前热门的AIGC系统虽然能够快速生成图像，但是这些系统未必能够真正理解绘画的含义，从而能够根据这些含义进行推理并决策。

3）创作伦理问题。部分开源的AIGC *** 对生成的图像监管程度较低，数据集系统利用私人用户照片进行AI训练，侵权人像图片进行训练的现象屡禁不止。一些用户利用AIGC生成虚假名人照片等违禁图片，甚至会制作出暴力和性有关的画作。由于AI本身尚不具备价值判断能力，一些平台已经开始进行伦理方面的限制和干预，但相关法律法规仍处于真空阶段。

— END —

本文转载自互联网，如有侵权，联系邮箱删除：25538@qq.com！