你在淘宝上看到的图片和视频,到底怎样一步步被机器人接管?

摘要

在让 AI 协助人类的这条路上,阿里带来了「鲁班」和 Aliwood 两套 AI 工具,它们将成为淘宝店家日后的重要利器。

给你一秒钟,你能设计出 8000 张海报吗?

不要那种粗制滥造的效果,而是能挂在双十一淘宝网站,被上亿人看到的那种,带有独特设计风格的作品,你能做到吗?

不开玩笑,即便效率最高的设计师,也只能说这是 Mission Impossible,但一位 2015 年入职阿里巴巴的新员工鲁班,只用了两年多时间,就达到了这个效率,而且到今年双 11 时,它将很可能成为具有阿里巴巴 P6 设计师水平的员工。这是什么概念?在阿里,这个等级可以担纲中等设计项目主创人员。

你可能猜到了,这位鲁班并不是人,而是来自阿里巴巴的人工智能产品,而它能拥有这样速度,得益于人工智能技术近年来的迅速崛起,就在今天下午(4 月 21 日),在 UCAN 大会上,我们见到了焕然一新的鲁班系统,这一次,它给人带来的想象更加丰富。

阿里巴巴智能设计实验室负责人吴春松

在 2015 年之前,淘宝商品推荐都是通过人工运营控制,但庞大的用户需求和运营资源的不对等带来的问题,需要通过技术解决。如果你是淘宝老用户,你会发现如今的淘宝是「千人千面」的,每个人都会有属于自己的商品首页,而专属于每个人的页面信息,就需要大量的图片支持,这就是鲁班诞生的原因。

和人学习的过程类似,作为 AI 设计师的鲁班,也是从模仿开始,当输入海量设计海报、banner 等信息之后,它会对于其中的背景、主体、修饰等元素进行识别,由此理解它们间的关系。随后,鲁班会「照猫画虎」一样对这些素材进行组合,尝试风格不同的组合后,这些随机生成的图片会通过机器来判断并进行打分,因此生成一系列最优结果反馈给神经网络,并最终成为阿里电商平台对外展示的海报、banner 等图像。

「2016 年的双 11,鲁班制作了 1.7 亿张广告 banner,如果全靠设计师人手来完成,假设每张图耗时 20 分钟,满打满算需要 100 个设计师连续做 300 年。」「鲁班」创始人、阿里巴巴智能设计实验室负责人吴春松(花名乐乘)告诉我们,因为每年双 11 的海量设计需求,设计师需要有这样的工具帮助提升效率。

实际上,从 2016 年以来,如果你打开淘宝,遇到双 11 等大型活动,看到那些花花绿绿充满设计风格的海报作品,不要怀疑,它们的确有不少是机器生成的,并且没有一张完全一样。到 2017 年,鲁班一天就能完成 4000 万张海报,平均每秒 8000 张。2018 年,从新手做起两年时间后,鲁班终于迎来了对外开放的时刻。

乐乘告诉我们,今年鲁班将会改名「鹿班」,并在五月份把核心能力对外开放,其核心能力主要包含四个方面:

1,一键生成:将商品相关素材、文字输入,选择自己需要的海报尺寸、风格等,可自动生成符合要求的海报作品。

2,智能排版:将拍摄好的照片和需要的文字输入,选择尺寸,可自动生成带有随机风格的海报作品或产品展示。

3,设计拓展:将设计完成稿输入,选择需要拓展的尺寸,可自动生成相应拓展尺寸的结果。

4,智能创作:拥有自己独特风格的设计师将自己创作好的系列作品输入,可以训练机器,并成为系统新的效果风格。

其中,前三点核心能力主要面向企业和商家,第四点能力则是面向设计师群体,让他们用另一种方式卖出自己的作品,这样既能够让设计灵感变现,同时也能为这套 AI 系统不断升级。乐乘告诉我们,作为阿里巴巴的 AI 落地应用,开放后的「鲁班」将会成为一个新的商业项目,而生产海报的费用相比人工来讲会降低很多。

这里面令人好奇的事情在于,作为一项将新的商业项目,海报生成的结果能否让付费用户满意?每个人对于好不好看有自己的评价标准,「鲁班」要靠什么来达到这一标准?为了解决这个问题,「鲁班」项目选择和清华大学建立合作,清华大学计算机系「长江学者」特聘教授、人机交互研究所所长史元春教授,目前担任「鲁班」的视觉美学评估总负责,她表示:

「美学可以牵涉到很多问题,基本的是我看到一个东西,我总体的感官和它的主题,这对人的视觉感受来说,在心理学上已经有一些可以参考的依据,而这些依据可利用已有的大量数据验证,并且成为构造算法的依据。」

实际上这一套美学相关的判断标准也经过阿里巴巴电商平台大数据的不断反馈来进行调整,清华大学在这方面的研究也会得到进一步验证,因此从商业场景考虑,AI 设计师「鲁班」已经不再是试验性质的产品。

目前,这套系统一端将对接商家和企业,另一端则连接设计师和一些素材库,在和乐乘的沟通中,他告诉我们,目前已经合作的包括视觉中国、花瓣等图片库以及方正字库、汉仪字库等正版字库,因此从实用角度来看,生成的结果不会逊色于设计师,并且商家和企业也可以在使用时事先预览结果,找到最满意的结果再选择付费。

不过,鲁班并非要取代设计师的工作,即便目前功能如此好用,却仍旧需要大量数据让它成长起来,乐乘告诉我们,今天的人工智能都是基于大数据规模结构化标注数据,设计行业在不断变化,如果没有办法提供新的数据,那么鲁班就只能停留在过去的阶段,毕竟只有人能够主观创造新的设计趋势和风格,鲁班的存在更多的是解决让设计师感到繁重的体力工作。而训练它还需要我们人类,这也是目前官方正在进行「驯鹿」计划,让设计师参与进来的重要原因。

在让 AI 协助人类的这条路上,除了「鲁班」系统,阿里巴巴这次还对外展示了全新的短视频 AI 工具 Aliwood,这套工具也将会成为淘宝店家日后的重要利器。

Aliwood 是一个短视频生成工具,它最重要的作用是通过自动分析淘宝商品详情页面,生成一段 20 秒内,带有音乐、文字和图像信息的短视频。它的出现,可以说最大程度解决了淘宝店主商品展示的需求。

阿里巴巴达摩院自然交互体验实验室负责人傅利民

「我们发现在线下,一些有音乐和视频展示的店,销量会有 2 到 5 倍的增加,在线上,商品有音乐和视频展示,分享率会增加 40%左右,销售量上的提升大概时 18%左右,但淘宝目前有数十亿计的商品,90%都是图片+文字,商家要想做视频,找专业的人做需要 2 万左右一个,费用很高。」

阿里巴巴达摩院自然交互体验实验室负责人傅利民告诉我们,确立这样的通过图文转短视频的项目是基于真实需求场景来考虑的,而利用 Aliwood 这样的工具,对于商家销量将有很好的效果。

「纯粹从时间看,如果把淘宝 20 亿的商品,在一年内都生成短视频,大概需要 50 万的设计师,这样是做不到的。我们萌生了这样的想法,能够真正帮助到商家做这样的事情。从内容的提取,关键词的抽取最后合成,包括里面的情感计算,怎么样找到对的音乐能够有正向情绪的延伸,最后合成在里面。」

而说到视频,不论是我们如今每天在刷的抖音或者快手,音乐和画面的配合都在成为影响决定算法的重要因素,音乐的使用很容易抓住用户情感,而好的音乐来自于更强大的情感计算能力。浙大-阿里 IDEA Lab 负责人孙凌云教授告诉我们,在 Aliwood 研发的过程当中,正因为音乐的添加,让视频信息量一下子增加了很多,而要做出这样的知识图谱,浙大的研究团队还从电影中去学习了这方面的内容。

在 Aliwood 这个工具中,音乐是通过基本元素库和画面相互匹配来生成的,「比如我们要剪一个服装相关的小片子,这个过程中我们呈现的是模特的数据,下一秒有平缓的转换,呈现得是这件衣服穿上身转一圈的角色,这个转换是对于音乐库中某一中节奏或者是某一个特效有一个匹配关系。」孙教授告诉我们,但这只是一种方式,另一种方式是通过先找到合适的音乐,然后反向去组织短视频的素材,在目前 Aliwood 这一工具中,两种方式都在运用。

短视频展示商品自然要比图片更加直观好看,而随着网络带宽的加强,流量成本降低无疑让大家在购买商品时会更青睐于商品的视频化展示,如果说鲁班要做的是让你第一眼就看到商品,那么 Aliwood 要做的是让你第二眼就能了解商品,对于阿里这一以电商业务为主的平台来说,这两个 AI 工具的推出,正式把平台的上的数据,用更加效率化的方式展现给每一个用户。

当然,这两个工具目前还都只利用于阿里平台内(不过不局限于淘宝天猫),用乐乘的说法是「阿里的平台数据,学到的都是阿里的设计,有什么样的数据有什么样的智能,要用到企业设计风格的闭环,是一种数据挑战。」我们有理由相信,随着 AI 技术的更快速发展,我们会见到更多这样实际的应用出现在我们身边,而利用好这些工具,需要每一个人重新去理解人和 AI 之间的关系,正如微软 CEO 纳德拉说的那样:

「每个人的基本需求是能够更有效利用自己的时间,而不是让 AI 说『让我们来取代你。』」


最新文章

极客公园

用极客视角,追踪你不可错过的科技圈.

极客之选

新鲜、有趣的硬件产品,第一时间为你呈现。

张鹏科技商业观察

聊科技,谈商业。