豆包新上线的图片视觉推理模型怎么样?亲测体验效果如何?

AI 文章3天前更新 小编
2 0 0

上周我分享了自己使用的AI产品,当时提到,在AI知识问答方面,我会选择OpenAI的o3和字节跳动的豆包。在PC场景下,我用o3比较多;而在手机场景中,豆包则是我的首选。虽说ChatGPT也有APP,但一旦手机开启魔法上网,微信以及其他一些应用就特别容易卡顿,极为不便。

前几天我在上海逛ChinaJoy时,遇到一些遗忘的图或者不懂的梗,都是随时向豆包求助。就比如暴雪展上那个巨大的泰瑞尔,当时我和朋友面面相觑,完全想不起来这是什么,于是立马掏出手机向豆包发问。就在这个过程中,我惊喜地发现,豆包又又又更新了!这次更新了图片的视觉推理功能,怪不得它一直是我们群里的高频讨论对象。豆包新上线的图片视觉推理模型怎么样?亲测体验效果如何?

当开启深度思考模式,再上传图片时,豆包就能对图片展开思维链推理。给大家举个直观的例子,我刷ChinaJoy视频的时候,看到一个特别抽象的黑人哥们儿,他念哪吒的打油诗念得头头是道,我很好奇他是谁,就在豆包的深度思考模式下上传了一张他的视频截图,然后向豆包询问。豆包新上线的图片视觉推理模型怎么样?亲测体验效果如何?

紧接着,豆包就开始快速地分步思考。它先是找到了参考图片,接着根据返回的结果搜索关键词和参考资料,最后给出了一个准确的答案。豆包新上线的图片视觉推理模型怎么样?亲测体验效果如何?熟悉ChatGPT的朋友应该对这个流程不陌生,这不就是o3最独特的视觉推理嘛!现在豆包也终于上线了这个视觉推理功能,而且o3是收费的,豆包却完全免费,真的太良心了,必须点赞!

有了这么强大的功能,我当然要好好测试一番。我想到的第一个测试案例就是德爷。德爷可是与贝爷齐名的荒野求生硬汉,最近他来到了中国,这会儿正在深圳。热情好客的中国网友秉持着“来都来了、大过年的、都是孩子、都不容易”的原则,硬生生把德爷的荒野求生之旅变成了满汉全席。

在相关视频里,他们吃饭的那家饭店看起来很不错,我也挺想去尝尝的,结果点进评论区,居然没人提到是哪家店,这届网友不太给力啊。于是我就想着让豆包来解决这个问题(当然,主要是为了测试豆包的新功能,绝对不是因为我嘴馋😜)。豆包新上线的图片视觉推理模型怎么样?亲测体验效果如何?我给豆包扔过去几张视频截图,然后问它这是哪家店。豆包随即开始思考,它先确定了视频拍摄地点是深圳,又注意到盘子上有汉字,推测可能是店名,还留意到视频发布者是德爷。接着,它按照自己的推测,开始放大盘子仔细查看上面的汉字。

我当时都看傻眼了,那么小的字,它居然都能全部识别出来。最后给我的答案是“旺吉利海鲜大排档”。我上大众点评一搜,还真是这家店,再往下一翻,好家伙,德爷和店家的合照明晃晃地挂在店家动态里呢。

光说豆包可能还体现不出它的优势,给大家看一个失败的案例就清楚了。有其他模型把地址认成了北京,还说了一堆无关痛痒的话,最后也没给出确切答案,和豆包一对比,差距立现。

我们再来看一个关于德爷的案例。最近德爷在深圳因为白吃了人家的牛杂,被抓去刷了一天盘子。我把德爷刷盘子的图片发给豆包,问它这是哪家店。豆包开始放大图片仔细查看细节,即便文字信息不全,它也能通过合理脑补,最终得出准确答案。

还有更有意思的,我给豆包发了一张表情包,问它出处,它也是对答如流。比如说那两个表情包,一只特别骚气的鸡和一只带着尴尬但不失礼貌微笑的猪,豆包告诉我,这只鸡来自太太乐鸡精的相关创意,猪则源自双汇火腿肠的宣传。不得不说,当代网友的精神世界真是丰富多彩,而豆包对这些流行元素的了解也相当深入。

豆包甚至对所有奥特曼都了如指掌,不管是爱迪奥特曼还是盖亚奥特曼,给它图片,它都能准确识别。对于甄嬛传,豆包同样熟稔于心,给它一张剧中截图,它立马就能说出是哪个经典名场面,甚至能精确到具体集数,这记忆力和分析能力,在某种程度上真的有点超越人类了。豆包新上线的图片视觉推理模型怎么样?亲测体验效果如何?

除了玩这些有趣的测试,豆包在干正事方面也毫不含糊。比如说考公的行测题,有一道关于图形对称的题目,豆包思维链那栏飞速运转,很快就得出这是一道关于对称的问题,并选择了正确答案B。还有一道更复杂的题目,豆包也答对了。像那种考眼力的题目,我看一眼都头晕,豆包却能迅速找出指定的字母,比如快速找出混杂在众多字母中的F。我还考了它一个高难度问题,给它发了宗庆后的全家福,让它辨认图中的人物。经过一番截图推理,豆包成功识别出比较重要的人物,宗庆后、他的妻子施幼珍、女儿宗馥莉,以及爷爷宗启騄、奶奶王树珍,全都准确无误。豆包新上线的图片视觉推理模型怎么样?亲测体验效果如何?

不过,豆包的深度视觉推理也并非无懈可击。遇到那种画着六个手指的图片,它还是会坚定地认为是五个手指。还有,我把自己的照片发给它识别,它有一次把我认成了电竞选手,另一次说我是电视剧《三体》的总导演,这“碰瓷”能力,真是让我哭笑不得。但仔细想想,其实这两个问题都还算正常。六根手指的情况,目前是所有大模型都难以避免的“幻觉”问题;而我的形象并没有在网上广泛传播,豆包不认识我也在情理之中。

我觉得豆包这个视觉推理功能非常实用。它将o3的视觉推理功能免费化,让更多人能够轻松使用,而且使用起来十分方便。这种知识如同丝滑般流入脑海的方式,或许就是我们未来与AI沟通的常态。当你心中有所疑惑,AI便能迅速给出回应,为你答疑解惑。

© 版权声明

相关文章

暂无评论

暂无评论...