AGI 前夜,聊聊 AI 会如何改变 UI 设计

AGI 前夜,聊聊 AI 会如何改变 UI 设计

在 2022 年 10 月 AI 生成艺术爆发的时候,我们写了一篇文章《从起因到争议,在 AI 生成艺术元年聊聊 AI》,展望了 AI 在设计领域的前景,当时我们对 AI 在设计的未来已经很乐观了,当时预测是:「短期内会出现一批基于 AI 的设计工具,虽然不会达到取代人力的程度,但会提高设计师的生产力,而更大的变革可能会出现在下一个十年」。

而 ChatGPT 尤其是 GPT-4 的出现让我们大吃一惊,我们之前还在现有的游戏规则下想象 AI 会如何提高设计的生产效率,但是 GPT-4 让我们感到游戏规则很可能要改变了,不仅关乎于设计的生产力,人机交互的形式都会发生改变,对于人机交互而言一个堪比 1980 年 GUI 诞生的变革来了。

GUI,从 1980 的 Xerox 到 2023 的 macOS Ventura
GUI,从 1980 的 Xerox 到 2023 的 macOS Ventura

我们之前的思考都是 AI 会如何以生产力提升的形式改变设计领域,例如设计师的生产效率会得到很大的提升、设计流程和职业分工会被改变。

但 ChatGPT 的出现让我们意识到,我们还是低估了 AI 技术的发展速度,它展现了 AGI(通用人工智能 )的曙光,曾经遥不可及的 AGI 可能就在不远的将来能就会出现,对于人机交互而言这会是革命性的改变。

本来人们都认为在 GUI(图形用户界面)诞生后下一个即将会改变人机交互格局的技术是 VR(虚拟现实):用户界面将从 2D 切换到 3D ,并且身体也变成交互的一部分(动作、表情、视觉焦点),尤其是前些时间元宇宙受到追捧,业界对 VR 技术的研发投入大幅增加, VR 的变革看起来越来越近了,而 AGI(通用人工智能) 应该算是排到下下个时代的技术,甚至在 BMI(脑机接口)之后。在之前它太过于科幻令人难以想象,看起来是个和可控核聚变一样是个遥遥无期的技术,一个例证是很少有什么技术的能像 AGI 那样的引起如此多的哲学和社会学思考。

Stable-Diffusion、Midjourney 这样的图像生成模型的出现虽然也非常惊艳,但还可以在传统认知的统计学模型之下去看待,而 ChatGPT 越过了人们原本对统计学模型的认知,他出现的「理解」、「归纳」与「推理」的能力非常超越了人们原本的想象,虽然还有很多不足之处,但是看起来解决这些问题并走向成熟非常有希望, 通往 AGI 的道路变得从未有过的清晰可见。

人机交互的变革

那么 ChatGPT 或者未来的 AGI 会给人机交互和 UI 设计带来怎样的改变呢?设计的工作流程甚至分工被改变是必然的了,这在 Stable-Diffusion、Midjourney 这样拥有强大生成能力的工具诞生后可以预见了,而这仅仅是在 UI 设计的「目标」没变的情况下,实现目标的过程将要发生的改变。而 AGI 的来临意味着 UI 设计的「目标」改变了,自然语言会真正运用在人机交互中去,不久的未来的 UI 将被 AGI 技术的特性所重塑。

从命令到审阅

ChatGPT 展现了的建立因果链接和推理的能力,当这个能力成熟意味着软件可以根据少量命令或已有的操作自行延展(或者说预测)出接下来的操作,命令与结果的比例从 1:1 大幅增加到 1:N,人机交互的逻辑可能从大部分时候都在「向软件下达操作命令」变成「审阅软件的操作结果」,一个用户命令之后会出现不在用户思考中的计算机的操作。

Github Copilot
Github Copilot

而如何展示和审阅计算机的操作是现在用户界面设计中还没有遇到的问题。比如过去很少考虑的「时间/步骤」维度,因为过去一个命令对应一个结果无需考虑,而往后这可能会变得更重要。

归纳能力与「举例子」

以往的人机交互过程都是是用户描述具体指令,而当计算机有了「归纳能力」后用户的输入不仅可以是具体的指令还可以是「举例子」

比如最近我们使用 ChatGPT 给绘画提示词分类,按照描述、风格、画质把单词分类,一开始 ChatGPT 的分类并不理想,但是我们给他举几个例子(风格分类有哪些、画质分类有哪些)后, ChatGPT 就能很正确的把提示词分类了。

以往这种任务需要通过重新训练模型来完成,而 AGI 让这种任务能在交互层面就可以实现。 而如何更好的给计算机举例子也是目前用户界面设计中少有研究的问题。

自然语言的威力

ChatGPT 可以说真正的掌握了人类的语言,以前虽然有 Siri 、小爱同学这样的语音助手,但他们对语言的理解还非常的基础,还处在通过语言来进行「命令行」的阶段。 而 ChatGPT,无论是对语言输入的理解上,还是在语言的输出上,都做到了媲美人类的程度,让原本难以实现的 NPU(自然语言理解)成为了可能。进一步配合上面说的推理、归纳、因果判断能力,有望彻底改变人机交互的流程:

现有人机交互的过程是由人脑把目标任务分解成一步一步的命令,通过用户界面让计算机一步一步的执行,而把目标任务分解成一步一步计算机命令的能力就是人类的专业技能,比如

  • 一个程序员可以用编程语言批量从互联网抓取特定数据
  • 一个设计师可以用 Figma 完成设计图
  • 一个剪辑师可以使用 Premiere Pro 完成视频剪辑

这个能力现在是专业技能, 而 AGI 有望取代把目标任务分解成一步一步命令的过程,把这些专业能力下沉到更广泛的受众,这不仅仅是效率的提升,就像当年 GUI 诞生时把原本需要长期训练才能操纵计算机的能力带向了大众一样,现在 AGI 有机会把原本需要长期训练才能完成的专业技能带给大众,这是有和无的差别,个体的生产力将会史无前例的提高,这个改变的影响或许会非常深远,现在很多人们的看法是 AI 会抑制人类创作的能力,但实际上这反而会释放更多人的创作力,有更大更广更细分的创作者市场。

现有行业的冲击

「恐慌式」AI 结合潮

未来软件的形态会被 AGI 而重构应该是大概率的事情了,当下每一个软件厂商都在思考如何把 AI 结合到自己的产品中去,如果你的竞品有了强大的 AI 能力,而自己没有,那就很难与其竞争了。不过现在的 AI 的基础设施还没成熟,与 AI 的结合方式大多还是调用 OpenAI 的 API 与使用开源的 stable-diffusion,实际产品的效果并没有多好。但没有办法,在这个时间点没有厂商能承受掉队后的风险,再往后我们会看到越来越多的产品会标榜自己与 AI 结合的功能。

各家都在推出 AI 结合的功能:

Spline 3D AI
Spline 3D AI

不过在更远的未来 AI 的能力肯定会作为操作系统的基础能力,提供一个一致性的智能体验,而这个操作系统的 AI 战争,肯定会是下一两年的大事。

「反 AI」 群体

在 19 世纪的工业革命初期,机器生产冲击了手工业,一些保守立场的手工业者掀起了「工艺美术运动」,他们排斥机器生产,把手工产品上「纯手工标识」,崇尚当时难以被机器生产的复杂美术风格。甚至还有更加激进的「卢德运动」,它们不仅从精神上反对机器生产,而且还去现实中砸机器,搞破坏,直到后来机器生产彻底成为主流,这些保守派才逐渐消失在历史中。

而当下随着 AI 逐渐取代一些现有工作岗位,肯定出现大量当代的技术保守主义者,他们会对 AI 带有敌意,成为「反 AI」的群体, 当与 AI 结合的路走不通时,必然有很多厂商会考虑反其道行之,利用「反 AI」的群体的情绪,发掘「反 AI」的商业机会。

与 19 世纪的保守主义者一样,在自己的作品上标记 Not By AI
与 19 世纪的保守主义者一样,在自己的作品上标记 Not By AI

UI 设计师的未来

让我们从 AGI 的展望回到当下,Stable-Diffusion 和 Midjourney 带来的 AI 生成艺术已经在当下(2023 年)已经开始在绘画领域取代入门级的工作了。 而对于 UI 设计领域而言,这还不会很快发生,因为 UI 设计需要的结构化更严格的产出,这是目前 AI 还没有成熟的能力(Stable-Diffusion、Midjourney),但当多模态的 GPT-4 出现后,这只是时间问题。

在未来,入门级的 UI 设计工作会受到冲击甚至一定程度的取代。但是我们认为这是短期的,是因为技术的局限性导致要使用 AI 来完成高质量的设计还需要微妙的调整,而这些调整的微妙之处需要丰富的经验和知识,这正是资深设计师的价值所在,在早期资深的设计师会更加受益。

而从长期来看,当 AI 技术走向完善,入门级的设计师反而会通过 AI 取得媲美资深设计师的能力,技能的格局会被改变。

技能的格局改变不是 AI 时代独有的,这是技术发展的普遍规律。现在的程序员们得意于硬件的发展与高级编程语义的进步,已经不再像 30 年前的程序员一样需要熟悉汇编语言、计算机体系结构、抠寄存器才能开发软件,可以说目前绝大部分的程序员的水平就是曾经的入门水平,但是正因为入门门槛的降低,程序员群体的规模才能得以扩大。

但是这不是入门岗位与资深岗位的零和博弈,当入门岗位就达到原本资深岗位的生产力时,意味着成本的降低,行业更有可能会发展扩大。随着 AI 的发展,数字产业将更进一步的融入社会,会有更多的人机交互场景与需求,虽然那时的 UI 设计的工作或许与现在不太一样,但我们对 UI 设计在未来的发展非常乐观。

去推特留言