懂能帝首页 懂能帝首页
|
首页能源头条推荐资讯详情

阶跃的新模型,正在大模型的下个战场,抢占先机

2026-06-01 17:50
发布者:向日葵
来源:向日葵
标签:模型Agent
2
0
4
分享

你们发没发现,现在新模型发布,大家越来越不关注榜单排名和分数了。大家逐渐有了一个共识,单点能力的价值正在弱化,能让我的Agent干好活的模型,才是好模型。做好Agent的基层模型,对于大模型厂商来说,很可能是未来更大的一块蛋糕,下一个兵家必争之地。

阶跃星辰是比较快意识到这件事,并采取行动的模型厂商。这次阶跃发布的新模型「Step 3.7 Flash」,声称是面向生产级Agent的高效模型。

于是,我在小龙虾中添加了Step 3.7 Flash,用真实场景来看看效果。顺便分享一下我日常获取AI信息的工作流。

这里分为三步,广泛抓取AI资讯 -> 深入获取话题信息 -> 做成可视化信息图。

第一步,抓取前沿AI资讯。

这个任务看似简单,实则非常之复杂、繁琐,成功率也不高。

我会给龙虾大几十个AI资讯网站,并按抓取策略分为三类,分别是RSS解析、Crawl4AI、Paywall或其他方案。不同网站的安全机制不同,抓取难度不同,也受网络状态影响。所以这一堆网站通常只有一小部分能抓出数据。

这次我让Step抓取3日内的AI资讯。

发完指令,我本想刷刷手机,等着任务完成。过了几分钟,我瞥了一眼电脑,竟然完成了!成功抓取349条。

之前用Claude和Gemini,效果虽然好,但每次都得20分钟起步,我一般放后台执行。

我一看阶跃开发平台,只花了两块钱!大约只有Claude花费的1/20,而且还是第三方渠道,懂得都懂。

看看输出文件。

首先,349条这个数量,就远超我之前每次执行的结果。但有个小问题,会有一些泛科技、其他学科这种非精准AI类的资讯。

然后单看每个字段的结果,都不错,没有什么幻觉。尤其是原链接,我点开的几个都是对的。以前测过能力中等的模型,链接地址很容易出现编造情况。

这一步对工具调用能力要求其实很高。它不光是简单检索,还要在RSS、脚本撰写、程序运行、网页抓取、链接读取、文件写入之间来回切换。

我以前用好几个模型跑过这个任务,成功率和效果都一般。一进入这种多工具、多步骤流程,就容易出现漏步骤、重复调用、卡在无效链接上、中途忘记目标。

Step 3.7 Flash的工具调用链路比较稳,没有把任务跑散。

第二步,针对想了解的话题,深入获取更多信息。

这里分两步,首先检索话题的相关文章链接,然后整理汇总全部信息点。

这样做的好处是,可以更全面了解整件事,包括延展事件和相似事件。并且按照事件逻辑梳理信息点,列出每个信息点对应的原文,可以更快速、清晰地阅读,还能避免幻觉。

比如我想了解这个话题:

“Anthropic联合创始人前往梵蒂冈,告诉教皇他们在AI模型中发现了‘令人不安’的东西”

把话题丢给龙虾,让它先收集链接,再汇总信息。

依然迅速完成任务。下面是两个文件内容:

清晰,且准确。这两份文件可以自己阅读,也可以作为写文章的素材来源。

一个真正能干活的Agent,不能只靠大模型的训练数据回答问题,它必须会主动找资料、判断来源、交叉验证,再把搜索结果变成可引用、可追溯的结构化信息。

这里得益于Step自带的检索能力,任务完成得很丝滑。

第三步,生成可视化信息图。

我搞了4个不同风格的信息图。这里没有指定具体风格,没有复杂prompt,全凭Step自己发挥。

结果如下:

不错吧,适合放在文章中,方便读者理解和保存。

这里提一下,Step 3.7 Flash是具备原生多模态能力的。所以图片理解、视觉检索这些任务,Agent就不用调用外部工具了。

比如我把第一张信息图的一部分截图给它,让它调整文字。

Step找到了对应位置,进行了正确修正。

工作流跑完,整体是超出我预期的。

咱实话实说,效果上的确Claude opus 4.7更胜一筹,但对于绝大多数日常任务,Step 3.7 Flash完全够用,而且执行速度和花费上非常有竞争力。

就像第一步抓取AI资讯这种任务,日常用Claude opus 4.7属实有点花不起。

网上好多人调侃,说AI并没有让我们更轻松,有了AI我反而更累。

我自己也有过这个阶段,但现在AI实实在在的减轻了我的工作。转折点就是,一个好用的Agent框架,搭配好一个稳定、高效、经济承受范围内的基础模型。

比如我刚刚展示的工作,本就不需要多少人为参与,可在过去常常占满我一天的时间,现在半小时搞定。省下的时间精力,可以支撑我做更多高价值的工作。

这套AI信息获取工作流,这对AI博主有用,对产品经理、投资人、研究员、创业者也一样有用。

我们缺的从来都不是信息量,而是信息获取、整理和吸收的效率。

看完实测,咱说回Step 3.7 Flash模型本身。

光看模型名称,你可能觉得这只是一个更快、更便宜的Flash模型。

但这次阶跃给它的定位,不只是这样。

按阶跃星辰给它的定位,Step 3.7 Flash是面向生产级Agent的高效率Flash模型,为Agent、Coding、Search与多模态工作流而生,开放、开源可部署,并且为高效完成真实任务而优化。

什么是生产级Agent?

生产级任务不是一次回答,它是一串连续动作。理解目标,拆任务,搜索实时信息,读文档,筛选来源,整理证据,生成结果,再检查有没有遗漏、有没有严格遵循指令。

中间任何一步慢一点、歪一点、漏一点,最后都会变成成本。

下一阶段模型竞争,看的不会只是单点能力,而是Agent loop里的总效率。

便宜的模型,可能每次执行低效,跑完整个任务并没省钱。

聪明的模型,可能执行缓慢,或价格昂贵,实际生产环境根本跑不起来,或跑不起。

所以现在大家对模型的要求,也可以说大家的Agent对模型的要求,是能不能以更低延迟、更低成本、更稳定的方式,把完整工作流跑完。

Step 3.7 Flash的价值,正好落在这里。

另外,提到生产级,必须要提开源。

对普通用户来说,是否开源并不性感。但对做生产环境的人来说,开源意味着安全。

很多企业做Agent,重点考虑的是数据边界、稳定性、版本可控、业务系统集成、长期维护。

Step 3.7 Flash作为开源、可本地部署的模型,给的是另一种掌控感。

可控性更强,部署更灵活,集成更深,信任才有地方落地。

而用户的信任,就是模型厂商最大的筹码。

Step 3.7 Flash还有一个点,原生多模态。

在很多场景中,数据并不都是文本形态。截图、PDF、网页、视频,都会进入工作流。

过去开发者可能要额外编排视觉模块,把图片先交给OCR,再交给另一个模型理解,再把结果塞回Agent流程。

工程里最贵的,经常不是某个模块本身,而是模块之间的衔接。

Step 3.7 Flash的原生多模态意义就在这儿。视觉理解可以直接进入Agent工作流,和代码生成、搜索、工具调用放在一起。

对开发者来说,这省下来的不只是一段prompt,更是编排成本。

最后,如果你还在为Agent寻找合适的模型,那Step 3.7 Flash值得一试。不用纠结纸面参数,把它放进你的真实工作流里,才能真正感受到它的效率与优势。

与此同时,在AI产业化全速推进的当下,也期待更多厂商跳出参数内卷,深耕真实场景,推出更多贴合生产级需求、能落地、能干活的优质模型。

如果你有任何看法,欢迎在评论区一起讨论

声明:以上信息仅代表发布者自身观点,并不代表本平台赞同其观点,也不代表本平台对其真实性负责。
评论 0
网友评论仅供其表达个人看法,并不表明平台立场。
全部评论
懂能帝AI助手
服务商入驻
服务商入驻
资讯投稿
资讯发布
视频发布
视频发布
在线客服
平台客服