本文来自公众号“刘旷”。
自从进入2023年以来,AIGC技术助推了新的人工智能浪潮,AI大模型的创新应用也按下了加速键。随着AI写作、AI作曲成功在多个领域落地,AI在内容创作方面的应用也变得越来越广泛,而AI绘画作为大模型最火热的应用领域之一,近几年也取得了突破性进展。
AI绘画简单来说就是“文生图”,是指输入一些描述性语言,AI可以以此生成创意画作。AIGC技术的飞速发展使得“文生图”模型不断实现更加良好的生成效果,得益于此,无论是百度、网易这样的互联网大厂,还是快手这样的新锐公司纷纷争相入局,试图借助“文生图”这一新事物,探索业务上的更多新可能。
快手“出其不意”
前不久有消息称,快手在推出“文生文”大语言模型“快意”(KwaiYii)之后,又在“文生图”赛道取得了新的进展,推出了自研大模型“可图”(Kolors),并且已在公司内部全面开启测试。据介绍,可图大模型能够基于开放式文本生成各类的绘画作品,它有着三大突出特点:强大的文本理解、丰富的细节刻画,以及多样的风格转化。而在可图大模型强大的图像生成能力背后,则与快手多年的积淀息息相关。
首先,快手海量的短视频素材,能为可图提供数十亿的图文训练数据。发展至今,快手上的短视频素材已经数以万计,根据这些短视频,可图可以收集到更多的数据信息,帮助大模型准确理解用户的需求,让用户通过简单描述即可生成更加多样化风格的图片。据了解,快手拥有数十亿来自开源社区和自研AI技术合成的图文训练数据,这些数据覆盖了常见的三千万中文实体概念,能更好地生成更加贴近文字描述的图片。
其次,快手较强的用户粘性,为可图的落地提供了最佳的应用场景。众所周知,快手应用的累计互关用户对数超过311亿对,同比增长近50%,日均互动(包括点赞、评论和转发等)总量达80亿次,而且AI玩评也能够极大地提升用户参与评论的积极性和满意度。不同用户画像可以丰富可图训练数据,促使可图生成更多样化的图片。因此,拥有较强用户粘性的短视频评论区,可以看做可图大模型最佳的落地应用场景之一。
最后,快手在大模型上的创新性探索,有助于可图形成差异化优势。快手研发了一个强大的中文CLIP模型,并且利用自研的中文LLM加上融合CLIP的图文特征作为文生图的文本理解模块,能让可图大模型更好地理解中文特色概念。不仅如此,快手还更改了去噪算法的底层公式和加噪公式,实现了单一基座模型在主体完整的前提下,可生成具有丰富细节和纹理的图片。而可图大模型也具有了基于Prompt的自动学习模型,能够生成不同的风格模版。
百度“声东击西”
在文生图领域,快手的自研大模型“可图”可谓是独具一格,作为国内领先的AI技术公司,百度的AI作画产品“文心一格”自然也备受期待。据了解,文心一格是基于百度文心大模型能力的AI艺术和创意辅助平台,它可以根据用户输入的文本描述和选择的风格,自动生成独一无二的画作。而百度文心一格之所以能对用户的作画需求实现精准理解,其中的原因自然不言而喻。
一来,文心大模型强大的语言理解能力,使文心一格对中文的理解变得更加精准。文生图技术对中文语义的理解尤为关键,而文心一格的技术基础是百度文心知识增强跨模态理解大模型,百度文心学习了海量优质图文数据,能全面提升图像生成质量和语义一致性。因此,文心一格不仅能利用知识辅助更好地理解用户的输入,并自动丰富语义细节,有效降低用户输入描述成本,还能根据不同的需求,灵活适配多种风格画作生成能力。
二来,文心大模型在技术上的深厚积淀,在一定程度上解决了文心一格在实际应用中的技术难题。众所周知,文心一格AI作图产品顺利落地,是百度依托于飞桨、文心大模型持续进行技术创新的结果。而百度的文心跨模态大模型ERNIE-ViLG 2.0是全球首个知识增强的AI作画大模型,也是目前全球参数规模最大的AI作画大模型。百度在训练大模型方面取得了长足的进步,也让文心一格有效解决了复杂概念、属性混淆等文生图领域的常见问题。
三来,文心大模型丰富的产业应用场景,有助于文心一格实现商业化快速落地。目前,文心大模型已大规模应用于搜索、信息流、智能音箱等互联网产品,并已通过飞桨开源开放平台、百度智能云等赋能工业、能源、金融、通信、媒体、教育等各行各业。而在这个基础模型职场,文心一格也能结合各个领域的、少量的任务数据,再进行训练、调优,之后就可以适用更多场景,从而进一步拓宽落地的广度,加深产业应用的深度。
网易“蓄谋已久”
无论是新晋独角兽快手,还是老牌互联网大厂百度都相继进入了AI绘画领域,互联网科技公司网易自然不会落后。事实上,网易很早就对“文生图”领域有所研究。网易旗下专业从事游戏与AI研究和应用的顶尖机构网易伏羲,就自研了文生图模型——“丹青”。而网易丹青之所以能生成让用户满意的图片,自然也与其独一无二的优势息息相关。
一是,网易伏羲对中文和美的理解深刻,有助于丹青生成更高质量的图片。生产好的内容之前,需要先理解好的内容。丹青模型基于原生中文语料数据及网易自有高质量图片数据训练,不仅对中文的理解能力更强,对中华传统美食、成语、俗语、诗句的理解和生成也更为准确。比如,与其他文生图模型相比,丹青模型更容易听懂用户的意思,在丹青生成的图片中,鱼香肉丝没有鱼,红烧狮子头也没有狮子,生成的图片效果用户满意度更高。
二是,网易伏羲顶尖艺术家的真实反馈,使得丹青创作出的作品更能满足中式审美。网易会请一些美术专家对模型进行把控,让其从艺术的角度对生成图片效果、插件、版本给予专业意见,丹青则会及时根据艺术家们的反馈意见,进一步迭代优化。比如,依赖于较强的中文理解能力,以及对美学的专业理解,丹青模型生成的图片更具东方美学,既能生成“飞流直下三千尺”的水墨画,也能生成符合东方审美的古典美人。
三是,网易伏羲对文生图的多年研究,能为丹青的快速落地和推广提供助力。事实上,网易伏羲对文生图的研究起步较早,在Stable Diffusion还没开源之前,就已经在不断地投入,到现在已经有了很多积累。据了解,网易伏羲团队已在世界顶级学术会议发表论文200余篇,申请发明专利550余项。不仅如此,网易伏羲还根据实际应用效果不断对文生图模型进行迭代优化,以便将其更好更快地应用于实际场景中。
前路“危机四伏”
随着快手、百度、网易等玩家的文生图大模型相继亮相,国内外发布文生图模型的数量也在不断攀升,模型生成效果和效率也在逐渐迈上新的台阶,文生图模型商业化落地指日可待。只不过,在此之前,文生图领域仍有些问题不容忽视。
一方面,文生图尚处于探索时期,生成细节还不够完美。虽然文生图具有一些创新性和实用性,但是不能全面理解用户的语义,生成的图像质量自然也就不会很理想,不是人物的脸部或手部细节呈现得不够完美,就是图像与文本的相关性不够紧密,甚至会出现一些毫无逻辑的图像和文本的组合。显然,AI绘画在语义理解、宏观结构、细节刻画、逻辑推理等方面还有较大改进空间。
另一方面,文生图只是AI辅助创作,生成内容缺乏创造力和情感表达。毫无疑问,技术是标准化的,审美却是非标准化的。设计师、画师可以借助AI,提高自己的创作效率,甚至激发无穷的想象力,但AI并不是设计师、画师本人,不能拥有人的情感和灵感,不能和人一样感同身受,而且目前的AI技术对外界生活无法感触,对真实世界的很多需求自然也是无法精准捕捉和理解,所以短期内,AI绘画还是很难代替设计师、画师的。
除此之外,国内外正接连涌现出新的文生图公司,AI绘画领域的竞争也将进一步加剧。事实上,除了快手、百度、网易伏羲等走上中国式文生图的道路之外,国内其他加码AI绘画的玩家也都正源源不断地赶来,国外文生图应用的景象也是十分热闹。而国内外每一家模型结构都不是完全一样的,无论是图片还是文本都做了优化,且都包含着自己的特色,所以文生图领域的竞争局面可想而知。
尽管文生图大模型目前尚有一些缺陷,但回顾人类的发展历史不难发现,一项新技术的出现,往往需要不断改进和完善,因此对于AI绘画,我们仍然抱有很多期待。而在流量红利逐渐消退的当下,百度、网易、快手等企业主动去拥抱“文生图”这样的新技术或许是最好的选择。只不过,最后这些入局者能做到何种程度,或许只有时间能给出答案。