Pioneering research on the path

Jun 24, 2018

在AI和ML的驱动下，图片领域的发展非常的令人惊喜，Microsoft，Google 和 Adobe 等都在这个领域中取得了让人振奋的成果，也有更多小型的技术团队把这些实验室技术带到用户面前。

内容分析

Google和Microsoft的云计算部门都已经提供了成熟的技术方案，Adobe Sensei尚在测试中。他们的VISION API其中包括图片分析，内容识别，能够分析识别出图片中的内容，并为之生成标签，包括对视频的实时内容识别（技术上和每一帧的图像识别是一样的），这项技术是在机器学习驱动下图片领域的最基本功能了。

基于这项技术，通过对已在数据库中内容收集，既可以实现人物识别，在上个层级，机器只能识别到图中是一个人，男人或者女人，老人或小孩，在这里即可直接识别出是此人是谁，这是什么种类的花，什么品种的狗。

而通过对内容的识别，可以将图片中的内容自动生成一句话描述。

Microsoft Azure还提供了简单的图片裁剪，原理上是通过识别图片的主要物体，并尝试将主要物体置于不同比例尺寸中最重要的位置来实现的（同时会自动留出文字位置）。Adobe Sensei驱动的Photoshop中的内容识别变形也是同样的技术。

在识别这个领域，这些技术已经非常成熟，如今我们在任何图片服务中，几乎已经不需要手动去给图片添加标签，全部靠机器自动去分析了。图片内容，描述都可以很轻松的被机器完成。

图像处理

移除和补全

这个团队提出了一种新颖的图像完成方法，可以使图像在本地和全局上都保持一致。借助全卷积神经网络，我们可以通过填充任何形状的缺失区域来完成任意分辨率的图像。为了训练该图像完成网络的一致性，我们使用经过训练的全局和局部上下文区分符来区分真实图像和已完成图像。

Satoshi Iizuka - Globally and Locally Consistent Image Completion

Demo

satoshiiizuka/siggraph2017_inpainting

背景移除

Background removal with deep learning

Remove Background from Image - remove.bg

Background Remover | Create Transparent Background

图像合成

Deep Image Matting

foamliu/Deep-Image-Matting-PyTorch

图像上色

Learning Representations for Automatic Colorization

智能处理

机器学习通过对内容识别后，便可以真正去处理编辑这些照片，这和传统意义上的添加滤镜有着本质的区别，这项技术的原理是，通过已知的照片内容，比如背景的天空使用什么样的参数去调整对比度和颜色，前景的人像需要怎么的参数来突出等，已经初具新手摄影师的水平。

目前Skylum提供了这样的产品。

Luminar

Luminar AI - AI photo editing for Mac & PC | Skylum

Photolemur

Photolemur 3 - Great Photos Automatically!

风格学习

来自俄罗斯的Prisma让人们了解到DeepDream技术是如何拯救你的照片的，让你凌乱毫无美感的照片变成世界名画的风格。这就是DeepDream的风格学习，简单来说就是通过机器学习让及其把图片A变成图片B的风格。目前已经有多种算法来实现这样的效果。

让第一张图片学习第二张图片的风格，第三张是结果输出

google/deepdream

luanfujun/deep-photo-styletransfer

具体成熟的产品目前已经非常多了，不过Prisma还是最实用的。

Prisma Labs

美学分析

位于柏林的Eyeem已经提供了这样的API，Adobe Sensei也有这样的技术，他们通过以下纬度来计算每张图片的整体质量。

质量 quality
平衡元素 balancing_element
色彩和谐 color_harmony
有趣的内容 interesting_content
景深 depth_of_field
有趣的照明 interesting_lighting
对象强调 object_emphasis
重复 repetition
三分法 rule_of_thirds
对称性 symmetry

EyeEm Vision - Leading Computer Vision Technology API

机器创造

照片拍摄

机器学习掌握了以上这些评判标准后，加上对抗网络（GAN）的加持，Google使用一套算法让机器自己去Google Street View中拍摄美丽的照片。

Using Deep Learning to Create Professional-Level Photographs

Google的AI拍摄的照片，这个水平已经轻松超越了大部分普通人了。

人物生成

A Style-Based Generator Architecture for Generative Adversarial Networks

Which Face Is Real?

物品生成

Large Scale GAN Training for High Fidelity Natural Image Synthesis

图像转译

phillipi/pix2pix

junyanz/CycleGAN

nvidia-research-mingyuliu.com

人像转译

yunjey/stargan

run-youngjoo/SC-FEGAN

文本图像转译

AttnGAN: Fine-Grained Text to Image Generation with Attentional Generative Adversarial Networks

当产品交互设计进入追求效率化和快速迭代的时代，算法开始为交互设计赋能强大的处理，设计师需要提前了解算法驱动的设计和未来由AI主导的设计中，设计师的价值和AI的边界。

布局

布局是设计中最重要的工作之一。Wix声称他们依靠AI来完成这项工作，但是仔细观察发现，所谓的AI驱动不过也是通过预制的模版来完成组合，与传统的主题接近，不过可能更为细节：可以为每一个局部或整体替换模版。虽然并不觉得这个究竟有多么智能，但是仍然是了不起的进步。

目前我们能够接触到的，已经被实际产品中使用的AI布局工具中，几乎全部是按照预制的变量（设计元素或者模版），来根据具体的场景自动过滤掉不合适的变量来实现。

Flipboard Duplo

Flipboard Duplo详细的讲解了实现的逻辑，先进的算法会自动的从预制的布局中选择合适的布局方式；内容的图片会自动取裁剪，并优先保留图片的重要内容；字体根据布局预留的空间和自身的长度自动选择合适的字重和尺寸；文字的排布始终按照合适比例的大小和行间距。

Automating Layouts Bring Flipboard's Magazine Style To Web And Windows

颜色

iTunes 11 Artwork auto color

iTunes 11 and Colors

从Apple 2012年发布iTunes 11的时候使用自动取色开始，自动化颜色工具和应用开始被大量的使用，通过对颜色直方图的计算，获取并自动计算出背景色，前景色，对比色来自动完成颜色的生成已经是非常成熟的技术了。

字体

2017年Google和Production Type合作推出的Spectral是一款参数化字体，允许你自定义这套字体的所有参数，这个字体的字重和字高，衬脚和间距等等所有属性都允许你自定义。

同时当你的设计在不同的区域或条件下，字体将自动去更改自己的一部分参数来适应这些改变。

Spectral, the first parametric Google font by Prototypo.

内容处理

Netflix在这方面做了很多探索，并且他们将研究结果也应用在实际的项目中。

[https://miro.medium.com/proxy/0*5flD8c8sG6m5FgOh.](https://miro.medium.com/proxy/0*5flD8c8sG6m5FgOh.)

Netflix使用自动的算法来做海报和宣传Banner的多语言处理，这要比我在另一篇专门讨论图片设计的文章中的Banner排版要复杂一点，但逻辑基本上是一样的。Netflix有一篇文章来阐述他们的思路。

Extracting image metadata at scale

他们写了这样的算法：通过每个人的喜好算法将为每个人制作不同的海报。

Artwork Personalization at Netflix

总结

现阶段的AI是无法取代设计师的工作，但是会逐渐取代一些基础设计师的工作。AI更合适的定位是设计师的合作伙伴，帮助设计师完成大量机械式，通用式的工作。

1 预制内容变量 需要专业设计师干预创作变量或者提供变量逻辑

2 过滤合适变量 专业设计师提供变量过滤条件和规则

3 选择最佳变量 用户选择变量

4 测试变量反馈 自动化测试用户对结果的使用习惯来优化变量过滤

这种合作的边界在于：

设计师必须拥有更为全局观念，能够给出1和2的逻辑和规则，作为规则和逻辑的制定者，其他的具体工作交由AI完成。

1中的内容创作，需要专业设计师保持对风格或潮流趋势的把握，因为机器无法发现和创造新的设计风格和语言，至少目前还不能。

在某些条件下，3的工作还是由专业设计师来做抉择，弥补用户（或客户）的不专业。

对用户的行为有足够的理解，才能完成4中的优化逻辑。

最后

用户界面设计在近十年来的发展轨迹是符合工业化进程的：从单一化手工化逐渐步入统一化标准化；即风格迥异的拟物化界面逐渐变为效率优先的扁平化，扁平化最大的优势便是组件可以更快的标准化统一化，市场的竞争核心脱离设计之后，同类产品的设计更趋于统一，AI的设计才能够真正介入。

未来

猜想未来有能力的公司或者机构都将会拥有自己一套完整的算法驱动的设计语言，专业设计师来制定设计语言和使用规则，其他具体的功能设计交由AI完成；小型或创业者会选择采用领域通用的模版来完成自己的设计；总之，基础的设计工作几乎不再需要人工干预。