研究人员打造大模型评测标准GenAI-Arena,已能支持13个文生图模型

目前,GenAI-Arena 已能支持 14 个文生图模型、10 个图像编辑模型和 8 个文生图模型,并一共收集到 9000 多个人类偏好的投票。这些投票结果经过处理之后,都将用于 GenAI Arena 榜单的计算。同时,在 GenAI-Arena 上收集的数据,能被用于多个不同的应用场景。

本文来自微信公众号“DeepTech深科技”。

2023年底,文生图、文生视频等各种模型并没有很好的评测标准。很多论文都还在使用比较传统的工具来进行自动化评测。

但是,这些指标并不能反应真实世界的用户对于这些生成模型的偏好。

而对于生成模型来说,生成结果的好坏,又恰恰非常容易被人们所看出来,比如图像是否扭曲、模糊,再比如视频是否不自然等。

那么,如何开发一个能够收集人类偏好并能直接评测各个多模态模型能力的榜单?

为了解决这个问题,加拿大滑铁卢大学博士生姜东甫和所在团队,提出一个由用户来打分的多模态生成模型的竞技场——GenAI Arena。

微信图片_20241014110820.jpg

图|左起:姜东甫、max ku、tianle li(来源:姜东甫)

定下课题之后,本次论文的共同一作Tianle Li开始在Chatbot Arena的代码基础之上进行改进,并添加了对于多模态生成模型的支持。

由于Chatbot Arena只支持生成文字的大模型,因此需要针对模型和网站用户界面(UI,User Interface)做出修改。

比如,在UI上增加对于图片的支持、进行底层数据类型的修改、以及添加对于各种生成模型的支持等。

得益于之前该团队成员Max Ku的ImagenHub的成功,让姜东甫等人得以利用其中包装好的文生图与图片编辑模型的应用程序编程接口(API,Application Programming Interface),借此顺利地支持了一系列文生图模型的部署。

研究中,姜东甫主要负责提供网站部署的技术支持和榜单维护。

而由于之前他们自己的服务器没有提供网站部署的服务,出于服务器安全问题的考量,他们只能开放https端口。

后来,课题组使用nginx来进行端口转发,在购买服务器网址,并使用certbot生成ssl许可证之后,才终于支持了这一整套流程。

最终,他们在2024年2月发布了本次产品的第一个版本,并能支持文生图和图生图这两类任务。

再后来,本次产品在上线之后受到了一些关注,Hugging Face的工作人员主动联系他们,表示愿意给他们提供图形处理器(GPU,graphics processing unit)支持。

姜东甫表示:“维护这样一个Arena需要很多GPU资源,一般来说一个模型就要单独占用一张GPU来进行部署。”

于是,为了适配Hugging Face所提供的GPU的使用特性,姜东甫和同事Yuansheng Ni开始针对代码进行彻底重构。

重构之后的代码,不仅能够保持之前所有的功能,并能顺利在Hugging Face的Space上进行部署。

同时,姜东甫的导师认为同样需要增加对于文生视频任务的支持。于是,该团队的Max Ku带领Shizhuo Sun和RongQi Fan开发了VideoGenHub。

只用几行代码,VideoGenHub就可以在本地完成一个文生视频模型的推理。

最终,他们在2024年4月发布了GenAI-Arena上的text-to-video板块。

日前,相关论文以《GenAI竞技场:生成模型的开放式评估平台》(GenAI Arena:An Open Evaluation Platform for Generative Models)发表于NeurIPS 2024 Dataset&Benchmark Track,论文可在arXiv上阅读[1]。

微信图片_20241014110828.png

图|相关论文(来源:arXiv)

据姜东甫介绍,这一成果受到了Chatbot Arena的启发。

如前所述,在2023年底启动本次项目的时候,对于大模型的评测来说,很多人批评采用传统基准只能测试出来准确率,并不能反应大模型在人类真实世界中的交互能力,也就是无法反应人类偏好。

而Chatbot Arena作为一个人人都可以参与的大模型竞技场,逐渐成为大模型评测的权威榜单。

对于该课题组来说,他们也希望自己研发的GenAI-Arena,能在未来逐渐成为多模态生成模型的可靠榜单。

目前,GenAI-Arena已能支持14个文生图模型、10个图像编辑模型和8个文生图模型,并一共收集到9000多个人类偏好的投票。

这些投票结果经过处理之后,都将用于GenAI Arena榜单的计算。同时,在GenAI-Arena上收集的数据,能被用于多个不同的应用场景。

姜东甫展望称:“除了GenAI-Arena这样直接由人类进行投票进行评测的方法,能否开发出更快、更准确的指标,来对模型进行自动化评测?”

他和所在团队认为:目前的多模态语言模型已经具有这方面的潜力。

比如,可以通过使用GPT-4o、LLaVA-Next、Mantis等多模态模型,来进行文生图、文生视频的打分与评测。

基于此,该团队将自己收集的人类偏好投票,打包处理后变成了GenAI-Bench,以用于衡量这些多模态语言模型的能力。

同时,GenAI-Bench可以促进生成更好的自动化指标,在更加符合人类偏好的同时,还能更好地衡量生成式模型的能力。

另外,姜东甫所思考的另一个问题是:“能否利用所收集的偏好数据,来针对生成模型训练奖励模型?或者直接针对生成模型进行DPO(Direct Preference Optimization,一种用于语言模型对齐的技术)?这样一来就能直接提升生成模型的能力。”

最近,领域内的一篇论文已经证明,这是一个非常有潜力的方向。

当然,姜东甫等人还需要收集更多的数据,只有达到类似Chatbot Arena那样的量级(百万的投票),才能达到更好的影响力。

参考资料:

1.https://arxiv.org/pdf/2406.04485

THEEND

最新评论(评论仅代表用户观点)

更多
暂无评论