您的位置:主页 > 公告动态 > 投资资讯 > 投资资讯

清华开源图文对话大模子!神色包解读有一手,

什么,最懂神色包的中文开源大模子泛起了??!

就在最近,来自清华的一个叫VisualGLM-6B的大模子在网上传开了来,原由是网友们发现,它连神色包好像都能解读!

像这个腊肠犬版蒙娜丽莎,它不只精确清楚了这是腊肠犬与蒙娜丽莎的“合体照”,还点出了这仅仅一幅虚拟著作:

又像是这个正在出租车后熨衣斗的男人,它也一眼看出了“纰谬劲”的当地:

值得一提的是,在此前GPT-4刚发布时,网友们也相同将它用来测了测常识清楚才能:

就犹如弱智吧问题是大模子言语清楚才能的benchmark相同,神色包几乎便是大模子图片清楚才能的benchmark。

要是它真能清楚网友们奇新鲜怪的神色包,那AI几乎没有什么不能get到的信息点了啊!

咱们急忙测验了一波,看看它实际作用若何。

gif也能看懂,但解读过分正派

现在,VisualGLM-6B现已推出了网页端试玩版。

只需求在Hugging Face的试玩界面上传图片,再与它举办“对话”,它就能天然生成清楚图片的作用:

先试试初级难度的神色包。

官方给出了几个问题示例,例如“描摹一下这个场景”、“这是什么器械”、“这张图片描摹了什么”,咱们就先试验一下这几个问题。

输入一只正在听歌的小猫,让VisualGLM-6B描摹一下神色包中的场景

还不错,VisualGLM-6B精确get了小猫享用音乐或运用电子配备这个进程!

再输入一个章鱼哥神色包,问它“这是什么器械”:

也没问题。看起来能拿给爸妈用了(手动狗头)。

再试试用用饭小狗,让VisualGLM-6B解读一下这张图片描摹了什么

看起来初级神色包都没什么问题,是时间加大力度了。

上传一个gif试试?*眼好像没有问题:

但再换一个gif试试就会发现,它好像只清楚了*帧图画,展望是不是“主角在企图抓住或捕捉它”,但实际上仅仅在扔钞票:

与之前的一些图片清楚AI差异,VisualGLM-6B在解读时会侧重介绍神色包人物中的面部神色,例如“它看起来不安静或许首要”:

BUT!当咱们再上一点难度,给神色包配上文字之后,它就无法清楚神色包的寄义了:

尤其是这种靠配文传达神色包精华的,VisualGLM-6B就会最早展示“瞎解读”的功底:

若是图画拼接太多,它还会泛起新鲜的bug,例如把摸鱼狗头人认成大鲨鱼:

并且,它在描摹神色包的时间全体对照正派,不会解读图画以外的“意图”。

例如,有网友测验了一下经典的“熊猫人显卡”神色包:

以及周星驰的经典“我全都要”神色包:

明显VisualGLM-6B能大致清楚图片的场景,但关于神色包的配文就无法清楚了。

国内首支零碳科技基金完结50亿元征集,IDG本钱与香港中华煤气联合打造

总结一下,关于包含经典著作人物的神色包,或是经由文字加工前的“原始”神色包,VisualGLM-6B能说出这个人物的姓名,或是描摹出其间的场景:

尽管也能够让它描摹心情,不过AI看出来的心情,或许和终究神色包表达的心情不太相同:

但一旦神色包加上了文字、或是被P进了新场景,VisualGLM-6B就会因为无法解读图片中文字的意思,而变得“看不懂梗”了。

有时间还会解读杂乱,例如狗当作猪

那么,具有一部分解读神色包才能的VisualGLM-6B,实际是什么来头?

多模态对话VisualGLM-6B,*只需8.7G显存

实际上,VisualGLM-6B并非专门为“神色包解读”而开发。

它是由智谱AI和清华大学KEG试验室打造的开源多模态对话模子,首要用于中文图画清楚,解读神色包能够说仅仅它被开发出来的一个“副业”。

它的正派用法,相同平常是酱婶的:

提起这个团队,人人更了解的或许是ChatGLM-6B大模子。

后者此前咱们有作介绍:

它是“清华系ChatGPT”的一员,2022年8月发布,共62亿规划参数,支撑中英双语对话。

上线4天就打破6k star,现在现已近25k。

据介绍,VisualGLM-6B正是在ChatGLM-6B的基础上完结:

ChatGLM-6B卖力它的言语模子部分,图画部分则经过练习BLIP2-Qformer构建起视觉模子与言语模子的“桥梁”。

因而,VisualGLM-6B全体模子共78亿参数

具体而言,VisualGLM-6B的预练习在中英文权重相同的景象下,在30M高质量中文图文对和300M经由挑选的英文图文对上完结(来自CogView数据集)。

这一练习方法能够将视觉信息对齐到ChatGLM的语义空间。

微调阶段,VisualGLM-6B又在长视觉问答数据上练习,以天然生成相符人类偏好的谜底。

与此同时,VisualGLM-6B由SwissArmyTransformer (简称“sat” ) 库练习,这是一个支撑Transformer单纯修正、练习的东西库,支撑Lora、P-tuning等参数高效微调方法。

终究,本项目既供给了HuggingFace接口,也供给了根据sat的接口。

要说VisualGLM-6B*的特色,便是连系模子量化手工,能够让人人在消费级的显卡上举办内陆布置,INT4量化级别下*只需8.7G显存

具体包含三种布置东西:

一是命令行Demo。履行命令:python cli_demo.py

然后程序便主动下载sat模子,人人就能够在命令行中举办交互式的对话了。

输入指示并回车即可天然生成回复,输入clear能够清空对话前史,输入stop停止程序。

二是根据Gradio的网页版Demo。

需求先装置Gradio:pip install gradio,然后下载并进入本客栈运转web_demo.py,最终在浏览器中翻开体系输出的地址即可运用。

三是API布置。需求装置格外的依靠:pip install fastapi uvicorn,然后运转客栈中的api.py。

更多细节和推理、量化部分的方法就不赘述了,可戳参阅链接[1]检查官方介绍。

需求重视的是,如官方所述,VisualGLM-6B正处于V1版别,视觉和言语模子的参数、策画量都较小,因而会泛起相当多的已知局限性,像图画描摹实际性/模子错觉问题、图画细节信息捕捉缺乏,以及一些来自言语模子的局限性等等。

就如下面这张测验,VisualGLM-6B描摹得还挺到位的,能看出是阿根廷和全国杯,但别被蒙了:图上并没有阿圭罗和迪马利亚这两位球星

因而,官方也称将在后续持续针对以上问题举办逐个改进。

不过,具有图片解读才能的大模子,也并不只要VisualGLM-6B一个。

现在来看,显现对照好的“神色包杀手”照样GPT-4,从网友测验来看,它现已能凭据神色包中的文字解读meme:

开源大模子方面,根据Vicuna-13B开发的MiniGPT-4也能解读图片,相同只需求一张单卡RTX3090就能搞定:

不过在这批大模子中,VisualGLM-6B着重的则是“中文开源”特色,换而言之,它在中文描摹上或许会比其他大模子更精确一些。

你试玩过这些“神色包解读AI”了吗?感触谁更能get人类脑筋精华?(手动狗头)

参阅链接:[1]