WAIC 2025刚落幕,上海人工智能实验室甩出的大招就炸了圈——开源科学多模态大模型Intern-S1(代号“书生”),实测下来是真能打,把Grok4、o3这些之前被吹爆的模型都给比了下去。
相关链接
体验地址:
GitHub:https://github.com/InternLM/Intern-S1
HuggingFace:https://huggingface.co/internlm/Intern-S1-FP8
ModelScope:https://modelscope.cn/models/Sh
通专融合的“全能选手”,科学领域尤其能打
说它是“全能高手”真不是吹的。这模型走的是“多任务通专融合”的新路子,通用能力顶呱呱,科学领域更是硬核。化学、材料、生命科学、地球科学这些专业领域的任务,它的表现直接超过了Grok-4;多模态理解能力在全球开源模型里排第一,文本能力也能跟国际顶尖模型掰掰手腕。
之前那些通用大模型,虽说推理、编码、数学能力经常刷SOTA,但一碰到复杂科研场景就歇菜。比如你让它解读个化学分子式、蛋白质结构,或者分析地震波信号,多半是抓瞎。但Intern-S1不一样,这些烧脑的科学数据它瞅一眼就门儿清,专业任务上把Grok-4这类闭源顶尖模型都给超了。
放组数据感受下:在科学能力评分里,Intern-S1直接干到65分往上,把o3、Grok-4甩在身后;文本性能上,它也以75分的成绩领先Grok-4,这实力是真没掺水。
实测对比:这模型是真“懂行”
光说不练假把式,咱拿几个场景实测下,跟文心4.5、豆包、Gemini 2.5 Pro这些主流模型扒一扒差距。
1. 可视化工具:谁能扛住“实时交互”考验?
需求是做个简谐振动的可视化页面,要展示弹簧块体上下振荡,实时画位置-时间图,还得有滑块调振幅、刚度、质量。
- 文心4.5直接翻车:弹簧和块体运动形态画错,图表调一次参数就消失,代码逻辑明显踩坑了。
- 豆包勉强及格:功能全有,但图表太狭长,画面占比小,横坐标数值跳得飞快,波形看不清,教学用着费劲。
- Gemini 2.5 Pro半吊子:页面结构还行,图表清晰,但调滑块时波形直接消失,实时交互这块没搞定。
- Intern-S1稳得一批:功能完整,滑块一动波形跟着实时变,前端代码鲁棒性是真没话说,页面视觉效果也舒服,教学用着贼顺手。

2. 化学分子式解读:细节控才是真学霸
有个带苯乙胺结构的表白贺卡,结构式里氨基多画了个氢,看模型能不能揪出来,还得把化学结构和“和你散步从未感觉冷”这句话关联起来。
- 文心4.5 Turbo:认出是苯乙胺和浪漫文字,解释了“爱情分子”的点,还行但不够深。
- 豆包:拆解得挺细,苯乙胺的结构、文字含义都讲了,但没把两者串起来,少了点灵气。
- Gemini 2.5 Pro:厉害,指出氨基写法错了(应该是-NH₂不是-NH₃),还说清苯乙胺和恋爱时的愉悦感有关,把科学和浪漫联起来了。
- Intern-S1直接封神:先确认是苯乙胺,从化学结构讲到它是多巴胺前体、和情绪的关系,再分析文字双关——既指温度又指情感温暖,还拓展到“化学情书”的应用场景,甚至对比了容易混淆的苯丙胺,这细节拉满,堪比教科书。
3. 科学解读:睡美人悖论谁讲得透?
这个悖论的核心是“硬币正面概率1/2还是1/3”,考验模型对概率理论和认知逻辑的理解。
- 文心4.5 Turbo:讲清了两种观点和争议点,中规中矩。
- 豆包:把实验设定、两种观点的科学依据(贝叶斯vs频率主义)说透了,还总结“没有唯一答案”,挺全面。
- Gemini 2.5 Pro:分析挺细,但结论跑偏,说“1/3更有指导意义”,其实学界争议还大着呢。
- Intern-S1深度拉满:不仅拆解两种观点的核心逻辑、数学支持(贝叶斯公式都用上了)、哲学依据,还拓展到量子力学、AI决策理论的关联,把悖论背后的“自我定位信念”讲得明明白白,专业度直接拉爆。
扒一扒Intern-S1的“硬核配置”
能这么能打,跟它的技术底子分不开。
- 参数与架构:MoE架构打底,语言模型部分2350亿参数(基于Qwen3),视觉编码器60亿参数,总规模2410亿,这体量够能打。
- 数据与上下文:5T训练数据里一半多是专业知识,上下文长度128K tokens,几篇顶会论文扔进去,它能串起来分析,读长文献不费劲。
- 跨模态引擎:首创跨模态科学解析引擎,对化学分子式、蛋白质序列这些特殊数据编码效率提升70%以上,复杂专业数据看得懂、解析得透。
- 训练范式:“通专融合”思路绝了——用海量通用科研数据拓广度,让领域专家模型生成高质量专业数据,再用智能体验证质量,反哺预训练,通用和专业能力两手硬。
- 效率感人:后期用了大规模多任务强化学习,混合奖励机制(能验证的任务用规则给奖励),训练能耗只有Grok4的1%,性能还不掉线,这性价比绝了。
榜单说话:开源模型里的“六边形战士”
看测评数据,Intern-S1在多个榜单上要么是开源第一,要么全模型第一:
- MMLU-Pro(通用知识)83.5分,开源模型里顶呱呱;
- MathVista(数学可视化)62.5分,远超同类开源模型;
- ChemBench(化学任务)83.4分,跟Grok4打平,开源里第一;
- MatBench(材料科学)75.0分,甩开源竞品一大截;
- 地球科学、物理学等领域的表现,更是把其他开源模型远远甩在身后。
结语:专业型AI会不会是下一个风口?
现在说Intern-S1是科研AI的标准答案还太早,但它确实走了条不一样的路——不盲目堆参数,专啃科研这种硬骨头。
GPT、Gemini这些通用模型聊聊天、写代码还行,真要分析科研图谱、设计实验,经常掉链子,公式一复杂就歇菜。Intern-S1这波垂直突破,把多模态能力实打实用在文献解析、实验辅助这些“高压区”,算是给“专业型AI”趟出了条道。
下一个AI风口会不会是这种垂直领域的硬核突破?我觉得有戏,你怎么看?