首页能源头条推荐资讯详情

阶跃的新模型，正在大模型的下个战场，抢占先机

2026-06-01 17:50

发布者：向日葵

来源：向日葵

标签：模型Agent

你们发没发现，现在新模型发布，大家越来越不关注榜单排名和分数了。大家逐渐有了一个共识，单点能力的价值正在弱化，能让我的Agent干好活的模型，才是好模型。做好Agent的基层模型，对于大模型厂商来说，很可能是未来更大的一块蛋糕，下一个兵家必争之地。

阶跃星辰是比较快意识到这件事，并采取行动的模型厂商。这次阶跃发布的新模型「Step 3.7 Flash」，声称是面向生产级Agent的高效模型。

于是，我在小龙虾中添加了Step 3.7 Flash，用真实场景来看看效果。顺便分享一下我日常获取AI信息的工作流。

这里分为三步，广泛抓取AI资讯 -> 深入获取话题信息 -> 做成可视化信息图。

第一步，抓取前沿AI资讯。

这个任务看似简单，实则非常之复杂、繁琐，成功率也不高。

我会给龙虾大几十个AI资讯网站，并按抓取策略分为三类，分别是RSS解析、Crawl4AI、Paywall或其他方案。不同网站的安全机制不同，抓取难度不同，也受网络状态影响。所以这一堆网站通常只有一小部分能抓出数据。

这次我让Step抓取3日内的AI资讯。

发完指令，我本想刷刷手机，等着任务完成。过了几分钟，我瞥了一眼电脑，竟然完成了！成功抓取349条。

之前用Claude和Gemini，效果虽然好，但每次都得20分钟起步，我一般放后台执行。

我一看阶跃开发平台，只花了两块钱！大约只有Claude花费的1/20，而且还是第三方渠道，懂得都懂。

看看输出文件。

首先，349条这个数量，就远超我之前每次执行的结果。但有个小问题，会有一些泛科技、其他学科这种非精准AI类的资讯。

然后单看每个字段的结果，都不错，没有什么幻觉。尤其是原链接，我点开的几个都是对的。以前测过能力中等的模型，链接地址很容易出现编造情况。

这一步对工具调用能力要求其实很高。它不光是简单检索，还要在RSS、脚本撰写、程序运行、网页抓取、链接读取、文件写入之间来回切换。

我以前用好几个模型跑过这个任务，成功率和效果都一般。一进入这种多工具、多步骤流程，就容易出现漏步骤、重复调用、卡在无效链接上、中途忘记目标。

Step 3.7 Flash的工具调用链路比较稳，没有把任务跑散。

第二步，针对想了解的话题，深入获取更多信息。

这里分两步，首先检索话题的相关文章链接，然后整理汇总全部信息点。

这样做的好处是，可以更全面了解整件事，包括延展事件和相似事件。并且按照事件逻辑梳理信息点，列出每个信息点对应的原文，可以更快速、清晰地阅读，还能避免幻觉。

比如我想了解这个话题：

“Anthropic联合创始人前往梵蒂冈，告诉教皇他们在AI模型中发现了‘令人不安’的东西”

把话题丢给龙虾，让它先收集链接，再汇总信息。

依然迅速完成任务。下面是两个文件内容：

清晰，且准确。这两份文件可以自己阅读，也可以作为写文章的素材来源。

一个真正能干活的Agent，不能只靠大模型的训练数据回答问题，它必须会主动找资料、判断来源、交叉验证，再把搜索结果变成可引用、可追溯的结构化信息。

这里得益于Step自带的检索能力，任务完成得很丝滑。

第三步，生成可视化信息图。

我搞了4个不同风格的信息图。这里没有指定具体风格，没有复杂prompt，全凭Step自己发挥。

结果如下：

不错吧，适合放在文章中，方便读者理解和保存。

这里提一下，Step 3.7 Flash是具备原生多模态能力的。所以图片理解、视觉检索这些任务，Agent就不用调用外部工具了。

比如我把第一张信息图的一部分截图给它，让它调整文字。

Step找到了对应位置，进行了正确修正。

工作流跑完，整体是超出我预期的。

咱实话实说，效果上的确Claude opus 4.7更胜一筹，但对于绝大多数日常任务，Step 3.7 Flash完全够用，而且执行速度和花费上非常有竞争力。

就像第一步抓取AI资讯这种任务，日常用Claude opus 4.7属实有点花不起。

网上好多人调侃，说AI并没有让我们更轻松，有了AI我反而更累。

我自己也有过这个阶段，但现在AI实实在在的减轻了我的工作。转折点就是，一个好用的Agent框架，搭配好一个稳定、高效、经济承受范围内的基础模型。

比如我刚刚展示的工作，本就不需要多少人为参与，可在过去常常占满我一天的时间，现在半小时搞定。省下的时间精力，可以支撑我做更多高价值的工作。

这套AI信息获取工作流，这对AI博主有用，对产品经理、投资人、研究员、创业者也一样有用。

我们缺的从来都不是信息量，而是信息获取、整理和吸收的效率。

看完实测，咱说回Step 3.7 Flash模型本身。

光看模型名称，你可能觉得这只是一个更快、更便宜的Flash模型。

但这次阶跃给它的定位，不只是这样。

按阶跃星辰给它的定位，Step 3.7 Flash是面向生产级Agent的高效率Flash模型，为Agent、Coding、Search与多模态工作流而生，开放、开源可部署，并且为高效完成真实任务而优化。

什么是生产级Agent？

生产级任务不是一次回答，它是一串连续动作。理解目标，拆任务，搜索实时信息，读文档，筛选来源，整理证据，生成结果，再检查有没有遗漏、有没有严格遵循指令。

中间任何一步慢一点、歪一点、漏一点，最后都会变成成本。

下一阶段模型竞争，看的不会只是单点能力，而是Agent loop里的总效率。

便宜的模型，可能每次执行低效，跑完整个任务并没省钱。

聪明的模型，可能执行缓慢，或价格昂贵，实际生产环境根本跑不起来，或跑不起。

所以现在大家对模型的要求，也可以说大家的Agent对模型的要求，是能不能以更低延迟、更低成本、更稳定的方式，把完整工作流跑完。

Step 3.7 Flash的价值，正好落在这里。

另外，提到生产级，必须要提开源。

对普通用户来说，是否开源并不性感。但对做生产环境的人来说，开源意味着安全。

很多企业做Agent，重点考虑的是数据边界、稳定性、版本可控、业务系统集成、长期维护。

Step 3.7 Flash作为开源、可本地部署的模型，给的是另一种掌控感。

可控性更强，部署更灵活，集成更深，信任才有地方落地。

而用户的信任，就是模型厂商最大的筹码。

Step 3.7 Flash还有一个点，原生多模态。

在很多场景中，数据并不都是文本形态。截图、PDF、网页、视频，都会进入工作流。

过去开发者可能要额外编排视觉模块，把图片先交给OCR，再交给另一个模型理解，再把结果塞回Agent流程。

工程里最贵的，经常不是某个模块本身，而是模块之间的衔接。

Step 3.7 Flash的原生多模态意义就在这儿。视觉理解可以直接进入Agent工作流，和代码生成、搜索、工具调用放在一起。

对开发者来说，这省下来的不只是一段prompt，更是编排成本。

最后，如果你还在为Agent寻找合适的模型，那Step 3.7 Flash值得一试。不用纠结纸面参数，把它放进你的真实工作流里，才能真正感受到它的效率与优势。

与此同时，在AI产业化全速推进的当下，也期待更多厂商跳出参数内卷，深耕真实场景，推出更多贴合生产级需求、能落地、能干活的优质模型。

如果你有任何看法，欢迎在评论区一起讨论

反馈举报

声明：以上信息仅代表发布者自身观点，并不代表本平台赞同其观点，也不代表本平台对其真实性负责。

网友评论仅供其表达个人看法，并不表明平台立场。

全部评论

加载更多

加载失败

向日葵

总发布：407粉丝：0

阶跃的新模型，正在大模型的下个战场，抢占先机

相关推荐