豆包新上线的图片视觉推理模型怎么样？亲测体验效果如何？

上周我分享了自己使用的AI产品，当时提到，在AI知识问答方面，我会选择OpenAI的o3和字节跳动的豆包。在PC场景下，我用o3比较多；而在手机场景中，豆包则是我的首选。虽说ChatGPT也有APP，但一旦手机开启魔法上网，微信以及其他一些应用就特别容易卡顿，极为不便。

豆包

字节跳动旗下 AI 聊天智能对话问答助手

前几天我在上海逛ChinaJoy时，遇到一些遗忘的图或者不懂的梗，都是随时向豆包求助。就比如暴雪展上那个巨大的泰瑞尔，当时我和朋友面面相觑，完全想不起来这是什么，于是立马掏出手机向豆包发问。就在这个过程中，我惊喜地发现，豆包又又又更新了！这次更新了图片的视觉推理功能，怪不得它一直是我们群里的高频讨论对象。豆包新上线的图片视觉推理模型怎么样？亲测体验效果如何？

当开启深度思考模式，再上传图片时，豆包就能对图片展开思维链推理。给大家举个直观的例子，我刷ChinaJoy视频的时候，看到一个特别抽象的黑人哥们儿，他念哪吒的打油诗念得头头是道，我很好奇他是谁，就在豆包的深度思考模式下上传了一张他的视频截图，然后向豆包询问。豆包新上线的图片视觉推理模型怎么样？亲测体验效果如何？

紧接着，豆包就开始快速地分步思考。它先是找到了参考图片，接着根据返回的结果搜索关键词和参考资料，最后给出了一个准确的答案。豆包新上线的图片视觉推理模型怎么样？亲测体验效果如何？熟悉ChatGPT的朋友应该对这个流程不陌生，这不就是o3最独特的视觉推理嘛！现在豆包也终于上线了这个视觉推理功能，而且o3是收费的，豆包却完全免费，真的太良心了，必须点赞！

有了这么强大的功能，我当然要好好测试一番。我想到的第一个测试案例就是德爷。德爷可是与贝爷齐名的荒野求生硬汉，最近他来到了中国，这会儿正在深圳。热情好客的中国网友秉持着“来都来了、大过年的、都是孩子、都不容易”的原则，硬生生把德爷的荒野求生之旅变成了满汉全席。

在相关视频里，他们吃饭的那家饭店看起来很不错，我也挺想去尝尝的，结果点进评论区，居然没人提到是哪家店，这届网友不太给力啊。于是我就想着让豆包来解决这个问题（当然，主要是为了测试豆包的新功能，绝对不是因为我嘴馋😜）。豆包新上线的图片视觉推理模型怎么样？亲测体验效果如何？我给豆包扔过去几张视频截图，然后问它这是哪家店。豆包随即开始思考，它先确定了视频拍摄地点是深圳，又注意到盘子上有汉字，推测可能是店名，还留意到视频发布者是德爷。接着，它按照自己的推测，开始放大盘子仔细查看上面的汉字。

我当时都看傻眼了，那么小的字，它居然都能全部识别出来。最后给我的答案是“旺吉利海鲜大排档”。我上大众点评一搜，还真是这家店，再往下一翻，好家伙，德爷和店家的合照明晃晃地挂在店家动态里呢。

光说豆包可能还体现不出它的优势，给大家看一个失败的案例就清楚了。有其他模型把地址认成了北京，还说了一堆无关痛痒的话，最后也没给出确切答案，和豆包一对比，差距立现。

我们再来看一个关于德爷的案例。最近德爷在深圳因为白吃了人家的牛杂，被抓去刷了一天盘子。我把德爷刷盘子的图片发给豆包，问它这是哪家店。豆包开始放大图片仔细查看细节，即便文字信息不全，它也能通过合理脑补，最终得出准确答案。

还有更有意思的，我给豆包发了一张表情包，问它出处，它也是对答如流。比如说那两个表情包，一只特别骚气的鸡和一只带着尴尬但不失礼貌微笑的猪，豆包告诉我，这只鸡来自太太乐鸡精的相关创意，猪则源自双汇火腿肠的宣传。不得不说，当代网友的精神世界真是丰富多彩，而豆包对这些流行元素的了解也相当深入。

豆包甚至对所有奥特曼都了如指掌，不管是爱迪奥特曼还是盖亚奥特曼，给它图片，它都能准确识别。对于甄嬛传，豆包同样熟稔于心，给它一张剧中截图，它立马就能说出是哪个经典名场面，甚至能精确到具体集数，这记忆力和分析能力，在某种程度上真的有点超越人类了。豆包新上线的图片视觉推理模型怎么样？亲测体验效果如何？

除了玩这些有趣的测试，豆包在干正事方面也毫不含糊。比如说考公的行测题，有一道关于图形对称的题目，豆包思维链那栏飞速运转，很快就得出这是一道关于对称的问题，并选择了正确答案B。还有一道更复杂的题目，豆包也答对了。像那种考眼力的题目，我看一眼都头晕，豆包却能迅速找出指定的字母，比如快速找出混杂在众多字母中的F。我还考了它一个高难度问题，给它发了宗庆后的全家福，让它辨认图中的人物。经过一番截图推理，豆包成功识别出比较重要的人物，宗庆后、他的妻子施幼珍、女儿宗馥莉，以及爷爷宗启騄、奶奶王树珍，全都准确无误。豆包新上线的图片视觉推理模型怎么样？亲测体验效果如何？

不过，豆包的深度视觉推理也并非无懈可击。遇到那种画着六个手指的图片，它还是会坚定地认为是五个手指。还有，我把自己的照片发给它识别，它有一次把我认成了电竞选手，另一次说我是电视剧《三体》的总导演，这“碰瓷”能力，真是让我哭笑不得。但仔细想想，其实这两个问题都还算正常。六根手指的情况，目前是所有大模型都难以避免的“幻觉”问题；而我的形象并没有在网上广泛传播，豆包不认识我也在情理之中。

我觉得豆包这个视觉推理功能非常实用。它将o3的视觉推理功能免费化，让更多人能够轻松使用，而且使用起来十分方便。这种知识如同丝滑般流入脑海的方式，或许就是我们未来与AI沟通的常态。当你心中有所疑惑，AI便能迅速给出回应，为你答疑解惑。

# AI 技术