清华开源图文对话大模子！神色包解读有一手，-民众期货｜民众国际期货【官方网站】

收藏本站 | 软件下载 | 常见问题 | 网站地图 | 繁体 | EN

您的位置：主页 > 公告动态 > 投资资讯 > 投资资讯

清华开源图文对话大模子！神色包解读有一手，

2023-05-22 07:53 来源：民众期货官网作者：民众期货点击：次

什么，最懂神色包的中文开源大模子泛起了？？！

就在最近，来自清华的一个叫VisualGLM-6B的大模子在网上传开了来，原由是网友们发现，它连神色包好像都能解读！

像这个腊肠犬版蒙娜丽莎，它不只精确清楚了这是腊肠犬与蒙娜丽莎的“合体照”，还点出了这仅仅一幅虚拟著作：

又像是这个正在出租车后熨衣斗的男人，它也一眼看出了“纰谬劲”的当地：

值得一提的是，在此前GPT-4刚发布时，网友们也相同将它用来测了测常识清楚才能：

就犹如弱智吧问题是大模子言语清楚才能的benchmark相同，神色包几乎便是大模子图片清楚才能的benchmark。

要是它真能清楚网友们奇新鲜怪的神色包，那AI几乎没有什么不能get到的信息点了啊！

咱们急忙测验了一波，看看它实际作用若何。

gif也能看懂，但解读过分正派

现在，VisualGLM-6B现已推出了网页端试玩版。

只需求在Hugging Face的试玩界面上传图片，再与它举办“对话”，它就能天然生成清楚图片的作用：

先试试初级难度的神色包。

官方给出了几个问题示例，例如“描摹一下这个场景”、“这是什么器械”、“这张图片描摹了什么”，咱们就先试验一下这几个问题。

输入一只正在听歌的小猫，让VisualGLM-6B描摹一下神色包中的场景：

还不错，VisualGLM-6B精确get了小猫享用音乐或运用电子配备这个进程！

再输入一个章鱼哥神色包，问它“这是什么器械”：

也没问题。看起来能拿给爸妈用了（手动狗头）。

再试试用用饭小狗，让VisualGLM-6B解读一下这张图片描摹了什么：

看起来初级神色包都没什么问题，是时间加大力度了。

上传一个gif试试？*眼好像没有问题：

但再换一个gif试试就会发现，它好像只清楚了*帧图画，展望是不是“主角在企图抓住或捕捉它”，但实际上仅仅在扔钞票：

与之前的一些图片清楚AI差异，VisualGLM-6B在解读时会侧重介绍神色包人物中的面部神色，例如“它看起来不安静或许首要”：

BUT！当咱们再上一点难度，给神色包配上文字之后，它就无法清楚神色包的寄义了：

尤其是这种靠配文传达神色包精华的，VisualGLM-6B就会最早展示“瞎解读”的功底：

若是图画拼接太多，它还会泛起新鲜的bug，例如把摸鱼狗头人认成大鲨鱼：

并且，它在描摹神色包的时间全体对照正派，不会解读图画以外的“意图”。

例如，有网友测验了一下经典的“熊猫人显卡”神色包：

以及周星驰的经典“我全都要”神色包：

明显VisualGLM-6B能大致清楚图片的场景，但关于神色包的配文就无法清楚了。

国内首支零碳科技基金完结50亿元征集，IDG本钱与香港中华煤气联合打造

总结一下，关于包含经典著作人物的神色包，或是经由文字加工前的“原始”神色包，VisualGLM-6B能说出这个人物的姓名，或是描摹出其间的场景：

尽管也能够让它描摹心情，不过AI看出来的心情，或许和终究神色包表达的心情不太相同：

但一旦神色包加上了文字、或是被P进了新场景，VisualGLM-6B就会因为无法解读图片中文字的意思，而变得“看不懂梗”了。

△有时间还会解读杂乱，例如狗当作猪

那么，具有一部分解读神色包才能的VisualGLM-6B，实际是什么来头？

多模态对话VisualGLM-6B，*只需8.7G显存

实际上，VisualGLM-6B并非专门为“神色包解读”而开发。

它是由智谱AI和清华大学KEG试验室打造的开源多模态对话模子，首要用于中文图画清楚，解读神色包能够说仅仅它被开发出来的一个“副业”。

它的正派用法，相同平常是酱婶的：

提起这个团队，人人更了解的或许是ChatGLM-6B大模子。

后者此前咱们有作介绍：

它是“清华系ChatGPT”的一员，2022年8月发布，共62亿规划参数，支撑中英双语对话。

上线4天就打破6k star，现在现已近25k。

据介绍，VisualGLM-6B正是在ChatGLM-6B的基础上完结：

ChatGLM-6B卖力它的言语模子部分，图画部分则经过练习BLIP2-Qformer构建起视觉模子与言语模子的“桥梁”。

因而，VisualGLM-6B全体模子共78亿参数。

具体而言，VisualGLM-6B的预练习在中英文权重相同的景象下，在30M高质量中文图文对和300M经由挑选的英文图文对上完结（来自CogView数据集）。

这一练习方法能够将视觉信息对齐到ChatGLM的语义空间。

微调阶段，VisualGLM-6B又在长视觉问答数据上练习，以天然生成相符人类偏好的谜底。

与此同时，VisualGLM-6B由SwissArmyTransformer (简称“sat” ) 库练习，这是一个支撑Transformer单纯修正、练习的东西库，支撑Lora、P-tuning等参数高效微调方法。

终究，本项目既供给了HuggingFace接口，也供给了根据sat的接口。

要说VisualGLM-6B*的特色，便是连系模子量化手工，能够让人人在消费级的显卡上举办内陆布置，INT4量化级别下*只需8.7G显存。

具体包含三种布置东西：

一是命令行Demo。履行命令：python cli_demo.py

然后程序便主动下载sat模子，人人就能够在命令行中举办交互式的对话了。

输入指示并回车即可天然生成回复，输入clear能够清空对话前史，输入stop停止程序。

二是根据Gradio的网页版Demo。

需求先装置Gradio：pip install gradio，然后下载并进入本客栈运转web_demo.py，最终在浏览器中翻开体系输出的地址即可运用。

三是API布置。需求装置格外的依靠：pip install fastapi uvicorn，然后运转客栈中的api.py。

更多细节和推理、量化部分的方法就不赘述了，可戳参阅链接[1]检查官方介绍。

需求重视的是，如官方所述，VisualGLM-6B正处于V1版别，视觉和言语模子的参数、策画量都较小，因而会泛起相当多的已知局限性，像图画描摹实际性/模子错觉问题、图画细节信息捕捉缺乏，以及一些来自言语模子的局限性等等。

就如下面这张测验，VisualGLM-6B描摹得还挺到位的，能看出是阿根廷和全国杯，但别被蒙了：图上并没有阿圭罗和迪马利亚这两位球星。

因而，官方也称将在后续持续针对以上问题举办逐个改进。

不过，具有图片解读才能的大模子，也并不只要VisualGLM-6B一个。

现在来看，显现对照好的“神色包杀手”照样GPT-4，从网友测验来看，它现已能凭据神色包中的文字解读meme：

开源大模子方面，根据Vicuna-13B开发的MiniGPT-4也能解读图片，相同只需求一张单卡RTX3090就能搞定：

不过在这批大模子中，VisualGLM-6B着重的则是“中文开源”特色，换而言之，它在中文描摹上或许会比其他大模子更精确一些。

你试玩过这些“神色包解读AI”了吗？感触谁更能get人类脑筋精华？（手动狗头）

参阅链接：[1]

上一篇：不找东西的年轻人，全去找搭子了-产品期货

下一篇：这一次，总算轮到西北榜首城了-国际期货