首页科技详情

实测文心一言4.0(真的和GPT-4相差无几了吗)

本站原创2023-10-19 16:20:09 快审 推荐 24

今天,咱们就开门见山啊。这一回要测一测,近日才发布的文心一言大模型 4.0。

之所以要测它,是因为李彦宏昨天在会上说的那句:

文心大模型 4.0综合水平与 GPT-4 相比已经毫不逊色。

这话一出,很多人就沸腾了。

据李彦宏这边的说法,文心4.0在记忆、理解、逻辑和生成四块,进步神速。

尽管他也在现场亲自演示了很多案例,但很多用户是压根不买账的。

不少人调侃说:“骗骗兄弟就可以了,别把自己也骗了啊。”

那到底是毫不逊色,还是吹牛扯淡呢,咱们直接亲自试试就知道了。

这回,凭借世超的人脉,也是很幸运地拿到了抢先内测的资格。

既然他吹自己和 GPT-4 比毫不逊色,那我们就让这俩互掐一下,比比斤两。

从拿到资格开始,世超试了一整天。这次也不跟大家卖关子了,直接说测试结论:

总体来说, GPT-4 稳定胜利,但文心一言 4.0居然意外地某些方面压过 GPT-4 一头。

那么世超这次测试,还是从比较常见的几个测评角度入手,这样体现的更全面、真实。但是,测试难度我们是和之前的 GPT-4 测评难度对齐的。

这比赛的第一轮,先测点大家喜闻乐见的吧。

先从比较轻松的弱智吧和语义陷阱题入手,也正好可以考察一下逻辑和理解能力

不过,这块很多大模型都有专门训练,问了很多题都没把它们考倒。但是,经过不懈努力,还是被世超抓到了漏洞。

我问了一个非常经典的弱智吧问题:世界上真的有“龙”,那我就在某地被“一条龙”服务过。

没想到,这题两个 AI 没一个能做对的。。。

先看 GPT-4 这边,由于不知道这俩“龙”到底嘛意思,就开始乱编一些历史典故。

文心这边,也没有聪明到哪去,也是乱编了一种“幽默”的说法。

甚至,世超后面又给了它一次机会,追问它:两个龙是同一个龙吗?

文心依然极其坚定地给了我一个完全错误的答案。

不过,到了第二题, GPT-4 就站起来了。

当我问:公司是个温暖的大家庭,怪不得我总是当孙子。

文心这边还在那“温暖的公司”、“没有等级差别”。

但再看人家GPT-4这个外国AI,早就读懂了中国人的话里有话,表面温暖,实则冰冷

不过,当世超又追加了一道领导题。事态却突然彻底反转,反而是文心赢得很彻底。

世超问了几个流行的段子:“领导夹菜你转桌,领导喝水你刹车”,让它们给仿写几个。

其实这题要想做对,并不容易。不仅仅需要精准地理解提问,并且要能够推理出句子的规律和情感色彩。

两边 AI 给我的句子,对仗都蛮工整的,就是 GPT-4 语义彻底理解反了。领导的马屁拍的非常完美,可惜就是答案全错。

文心这边给的这些答案,才真的符合当代青年的领导文化。

不过温馨提示,实操的时候建议开始以 GPT-4 为准。

这第一轮比拼结束,文心 VS GPT-4 不分高下, 1 比 1 打了平手。

看来,文心一言说自己进步神速,不是完全在吹牛啊。

第二轮比赛,世超还想继续玩点有意思的,试试 AI 解读梗的能力。

当年, GPT-4 上线时能解梗图,那是叱诧风云了好长一段时间。

这一次,世超不仅仅让它们读梗图,还要加码测试一下,看他们联网能力能不能应对各种网络上的新梗。

因为前面都是测中文语义,世超觉得对 GPT-4 有点不公平,所以特地选了个中英注解都有的梗图。


标签:

随机快审展示 刷新 快审榜
加入快审,优先展示

加入VIP

提交站点
提交文章
提交小程序
提交公众号