Reimagining creativity with artificial intelligence

Mar 24, 2023

算法

GPT

Generative Pre-trained Transformer （GPT）是 OpenAI 的一个语言模型系列，一般在大型文本数据语料库上训练，以生成类似人类的文本。它们是使用转化器架构的几个模块建立的。它们可以针对各种自然语言处理任务进行微调，如文本生成、语言翻译和文本分类。其名称中的 "预训练 "是指在大型文本语料库上的初始训练过程，在这个过程中，模型学会了预测一段话中的下一个词，这为模型在下游任务中以有限的特定任务数据量表现良好打下了坚实的基础。

DALL-E

DALL-E 是 OpenAI 开发的深度学习模型，用于从自然语言描述中生成数字图像，称为 "prompts"。DALL-E是 OpenAI 在2021年1月的一篇博文中披露的，它使用了经过修改的GPT-3的一个版本来生成图像。2022年4月，OpenAI 宣布了 DALL-E 2，这是一个继任者，旨在以更高的分辨率生成更真实的图像，"可以结合概念、属性和风格”

Stable Diffusion

Stable Diffusion 是一个深度学习算法，在2022年发布的文本到图像模型。它主要用于生成以文本描述为条件的详细图像，尽管它也可以应用于其他任务，如内画、外画，以及在文本提示的指导下生成图像到图像的翻译。它可以在大多数配备了至少8GB VRAM的适度GPU的消费硬件上运行。这标志着与以前的专有文本-图像模型（如 DALL-E 和 Midjourney）不同，后者只能通过云服务访问。

Midjourney

Midjourney 是一个人工智能程序，由位于旧金山的独立研究实验室 Midjourney, Inc. 创建。Midjourney 从自然语言描述中生成图像，称为 "prompts"，类似于 OpenAI 的 DALL-E 和 Stable Diffusion，底层技术是基于 Stable Diffusion。

核心重点

算法

算法能力，坦白来说基础的算法模型从公开的论文中即可得知算法的上限和核心逻辑，但工程化算法还是需要持续的投入更多的研究，OpenAI、Microsoft、Nvidia 和 Google 都已经持续的投入多年，才能在爆发的时候在潮流的顶尖。

目前，算法的训练和垂直领域分枝简直是按照分钟来进化的，如今每天睁开眼睛就能看到各种算法的更新，目前算法的明显缺陷都在极速的得到修复。现在算法的演进分为以下几种：

美学能力

美学能力的演进，MidJourery V5版本相比之下带来的质量提升等，对美学的认知，大规模用户交互带来的行为反馈都可以对算法进行优化。

闪烁控制

视频生成目前最大的困扰在于闪烁，原因是每一帧的生成都是随机的，ControlNet和TemporalNet都在这个领域。

性能提升

如今大部分的能力都是基于云完成的，性能是最大的瓶颈，即使如支持本地部署的 SD 也需要较顶级的 GPU 才可以运行，性能的提升会极大的增加使用场景。（注意到 Apple 在这个浪潮中似乎没有任何声音么？Apple 认为用户的数据隐私神圣不可侵犯，所以 Apple 反对云计算的方式，但是目前设备端处理几乎不可能实现。但是 Apple 肯定会变的，Siri 不也是云端处理的么？只是 Apple 以后不能再这么标榜自己而已）

垂直领域模型包训练

二次元、游戏CG、排版、场景、摄影、服装、色情等都有很多参与者在训练自己的模型包，在相同算法底层下，模型包的质量决定了生成的质量。

数据

数据指的是在一个领域内的内容积累，算法的训练还是离不开真实有效和干净的数据，目前每家公司都有属于自己特有的数据，例如 Google、Bing 和 Baidu 拥有的检索数据、Facebook 和 Tencent 拥有的社交与对话数据、Microsoft 和 Tencent 拥有的游戏数据等。

拥有核心数据积累是和算法能力是缺一不可的，虽然大多数公司都多多少少拥有一些数据，如何利用好这些数据，并结合算法做好工程化产品化也是很重要的一环。例如，Tencent 拥有海量的对话模型，结合自己的游戏业务，他可以做出来非常拟真的 NPC，或者非常符合玩家自身对话风格的对话选项。

算力

超大型公司拥有更强的算力，但是基于云平台，算力的竞争主要在成本上，成功的转化用户为客户，才能弥补昂贵的算力成本。而同时，性能的优化也会逐渐降低算力成本。

版权

使用公开内容训练的算法同样无法获得版权，目前 AI 生成的内容暂时无法获得版权，但是 Adobe、Getty Images 和 Shutterstock 等采取使用自有版权的内容进行训练来获得结果的版权。但这些对于法律界还是有一些挑战，目前并没有明确的法律条文来界定生成内容的版权。

中国要求使用 AI 生成的内容必须明确标注为生成内容。

产品

Microsoft

事实上Microsoft是非常早的AI关注者，在收购 Github 后，很早就推出了 Github Copilot，这应该是最早的面相消费者的生成工具，它不仅可以根据上下文生成代码，甚至已经有了初步的文本创作能力。Microsoft 也因为早期对 OpenAI 的投资，所以在 GPT 较为稳定的时候，已经迅速布局了自己的 AI 版图。同时 Microsoft 基本上已经成为最流行的 AI 产品公司，在极短的时间内练习发布了多款 AI 集成产品，也吸引了媒体的极大关注。

Microsoft 和 OpenAI 有一份协定：

第一阶段，作为交换，微软有权获得OpenAI 75%的利润，直到它收回这100亿美元，以及微软已投资于该公司的额外30亿美元(2019年公开投资的10亿美元，以及当年微软又低调投入OpenAI的另外20亿美元)。
第二阶段，当OpenAI的利润达到920亿美元后，微软获得OpenAI利润的比例降至49%。与此同时，其他风险投资者和OpenAI的员工将有权获得该公司49%的利润。
第三阶段，在OpenAI的利润达到1500亿美元后，微软和其他风险投资者在OpenAI的股份将归还给OpenAI的非营利基金会。

这份协定也可以看出 OpenAI 的非公益属性。

Microsoft Azure OpenAI 依靠Microsoft的Azure云服务，快速推出的基于OpenAI的服务。

Microsoft 365 Copilot 办公套件 Word Excel PowerPoint等基于GPT的归纳整理写作助手

New Bing 基于ChatGPT的对话式搜索引擎助手，可以根据搜索引擎返回的结果，归纳整理重点，呈现精简重要信息给用户。

Microsoft Edge with ChatGPT 基于GPT的归纳整理写作助手，帮助用户在浏览网页时，填写或者整理页面重点信息。

GitHub Copilot 基于OpenAI Codex的代码创作或补全助手。

Microsoft Designer 基于OpenAI DALL-E 的图像模版创作工具。可以根据用户指令生成图形和图像。

Bing Creator 基于OpenAI DALL-E的图像生成工具。

Google

在更早期，Google才是当时AI领域最大的玩家，从图像图像创作到内容生成，Google的研究总是能够最先出现，但是因为后续公司组织内部的问题，导致了OpenAI的出现。

Google 当时非常注意训练 AI 带来的隐私问题，同时，有传闻说生成对话 AI 会影响到 Google 的主业务，Google 选择了暂缓和雪藏这些技术，这导致了大量研究人员的不满，愤而离职。

Google现在已经在算法和应用上落后于OpenAI和Microsoft了。相比较Microsoft的AI产品发布，Google在媒体上也没有得到足够的关注。

Google Bard 对话式搜索引擎助手，可以根据搜索引擎返回的结果，归纳整理重点，呈现精简重要信息给用户。

Google Workspace AI 办公套件 Docs Gmail Sheet Slide 等基于GPT的归纳整理写作助手。

Adobe

在数年前，Adobe 推出了Sensei智能平台，致力于美学设计的AI能力建设，在每年的Adobe MAX大会上都会有专门的环节展示Adobe的旗舰产品与AI的结合。如今Adobe也迅速推出了自己的生成产品Firefly，与其他产品不同的是，Firefly更多的关注于专业领域，主要解决版权问题。

Adobe Firefly 基于自有版权图库训练的拥有版权的图像生成工具。

Nvidia

在当年AI研究领域，能和Google相媲美的只有Nvidia！Nvidia发布了大量的研究，并且在这一轮AI浪潮中牢牢的占据了重点位置。硬件上，给予所有的运算都需要GPU，而Nvidia对于AI的支持是最好的；软件上，Nvidia掌握了大量的算法能力，Nvidia有能力推出Text-to-Image、Text-to-Video和Text-to-3D，并且Nvidia作为背后技术公司支持了Adobe、Getty Images、Shutterstock、Runway和WOMBO的产品。

Nvidia Picasso Text-to-Image、Text-to-Video和Text-to-3D生成产品。

Baidu

百度在几年前宣布 all in AI，但事实上直到Open AI的ChatGPT火起来之后，百度才开始发布了号称自研的类GPT产品文心一言，并且其中的图像生成能力已经被证明使用的是Stable Diffusion。

文心一言百度全新一代知识增强大语言模型，文心大模型家族的新成员，能够与人对话互动，回答问题，协助创作，高效便捷地帮助人们获取信息、知识和灵感。

Runway

Runway是Stable Diffusion的研究者之一，该公司主要的产品是基于机器学习和AI生成的新一代视频编辑工具。Runway 是一家非常会营销的公司，尽管具体的产品化效果非常差，但是他们依靠自身的宣传还是每次都能获得很多的关注。

Runway Gen2 ：视频生成产品，在内测中，效果不尽人意。

场景

日常办公

如今 AI 拥有极强的对信息的归纳整理能力，相比较人类，它拥有无尽的精力能够快速从巨量的数据中进行检索和总结，这对传统文员的工作将产生巨大的替代。

主要行为

检索、归纳和写作。

主要场景

行政文员、秘书、律师助理、翻译和部分新闻创作者将会被取代。

典型产品

Microsoft 365 Copilot、Google Workspace AI、Notion AI。

创意创作

事实上，AI 并不会取代创意者，因为迄今为止 AI 还无法创作风格，她只是具有更强的学习能力，和对自己学的到技法进行重组的能力。它将成为创意工作者高效的助手，帮助创意者完成更多复杂的工作，而不是取代。

主要行为

图像生成、风格转移、音乐生成、3D生成。

主要场景

创意创作者的提效、参考和材质以及重复脚本创作。

典型产品

MidJourery Runway

游戏娱乐

过往的游戏中，毫无灵魂的 NPC 终于有机会变得“有情有义”了，这点带来的想象力要比仅仅是生成原画和场景来的大。成人产业也会得到极大的想象力空间：可对话的 doll、根据用户诉求的 porn 等等。

主要行为

对话生成、台词生成、图像生成、音乐生成、3D生成。

主要场景

游戏NPC对话、基于用户的图像视频生成、音乐创作，视频辅助创作。

典型产品

Wombo Lensa AI

编辑器的升级

作为提升效率的助手，我们和计算机之间的输入和输出都有很多的环节可以被 AI 接管；

输出

浏览器等信息查看搜索等，AI 整理和归纳信息，对产品的形态不会产生较大的影响，不过AI区域应该会成为标配。

输入

文字编辑器、图片编辑器、视频编辑器和三位编辑器等产品形态会迎来较大的变化，面向初级用户的功能不再按照传统的面板交互方式呈现，而是切换成自然语言交互；面向高级用户的功能不再按照传统的多步骤多层级面板呈现，而是切换成指令交互。传统的调参和控制面板，将转变成调参+指令形态。

模块化

在复杂的编辑器中，每一个专门的领域都将会有专门的模型训练，那么未来一个编辑器将变成能力的中台，各项功能分别接入不同的AI能力模块。

AI 的时代

你一定听说过 AI 如同工业革命这个说法，从某种角度来说，确实是一次革命，每次革命都会带来生产结构的变化，重复性的劳动在每次革命都会被无情地取代。而这次，一些初级的逻辑性的工作也将被取代。但是真正有创造力的角色，是不会被取代的，至少现在不会被取代。