GLM-4.5V做对了什么?视觉AI新突破还未揭晓

2025-08-18 05:01:11 132

8月11日晚上,智谱在开源社区发布了自家最新一代视觉理解模型GLM-4.5V,依托GLM-4.5-Air底座,参数高达1060亿、激活参数120亿,还特地新增了“思考模式”开关,用户能自己决定让模型进入推理状态还是常规识别。

GLM-4.5V上线后,视觉能力让很多技术圈的人眼前一亮。比如在炸鸡识别任务上,这个模型能分辨麦当劳和肯德基的翅膀,不仅看出颜色,还会分析外皮的质感、纹理,细致程度在同类开源模型里数一数二。在“拍照猜地点”积分赛里,GLM-4.5V七天就冲到了第66位,超过了绝大部分人类玩家。同样地,模型还能根据网页截图,模拟小红书网页的布局,还原度达到八九成。智谱官方展示了42项基准测试数据,GLM-4.5V在41项评分里都超过了同体量模式,包括热门AI如Step-3、Qwen2.5-VL等。

社区用户现在能在Hugging Face、GitHub等平台直接体验,还能用z.ai和智谱清言APP,上传自己的图片和视频开启推理模式。Mac端还特地发布了桌面助手App,除了截图和录屏,GLM-4.5V还能帮你处理代码、解读视频内容、分析文档、甚至游戏攻略。API定价也很接地气,每百万tokens只需2元输入、6元输出,还免费送了2000万tokens体验。

智东西团队第一时间进行了深度体验。官方测试里,模型对地点识别非常精准,经纬度给得很细致。自测时,上传灵隐寺的照片,虽然图里没有明显地标,模型还是通过黄墙、古建、树木和游客分析,试着推断出四川青城山。虽不完全命中,但推理过程很有逻辑,不是简单“乱猜”。在GUI场景,智谱小组录制知乎网页的操作,GLM-4.5V不仅复刻了页面,还能实现点击、跳转、输入等常规功能。如果用户对某页面细节不满意,用截图画圈就能让模型直接动手修改代码。长文本、表格、PPT、PDF等复杂文件,模型几乎可以实现阅读、、翻译和提取图表等需求,且信息提取不是死板的OCR,而是通过视觉推理,结构化信息保留和解读都比传统工具准确很多。

更值得关注的是,GLM-4.5V在图形界面智能体和生产力工具领域大放异彩。它能通过网页截图或录屏,分析样式和布局,自动生成相应的HTML,甚至推理交互逻辑。智东西亲测,一张小红书网页截图,十分钟内模型就能复刻出多层级内容,点赞、评论、功能栏一应俱全。虽然部分布局细节还有瑕疵,交互功能尚未全部落地,但可见动态信息输入后结果会更完整。桌面助手应用和官方API,让开发者实时截取屏幕信息,辅助代码理解、视频分析等多类日常任务。

背后技术创新也不少。GLM-4.5V采用视觉编码器、MLP适配器和语言解码器,理论上能同时支持64K长多模态上下文,处理图片和视频都不吃力。模型用双三次插值和三维卷积技术,增强了分辨率和宽高比适配,并通过三维旋转位置编码强化空间关系和推理。模型训练分“预训练-微调-强化学习”三大环节,坚持用大规模图文和长上下文做基础,SFT注重“思维链”训练样本,RL阶段则引入奖励机制和人类反馈优化,在定位、STEM和Agent任务上都表现得很稳健。

不少技术人员已经关注到,这种视觉理解能力对智能体(Agent)提升作用很大。之前的AI多以文本为主,如今增加对图片、视频、表格的理解,“人机”认知距离被进一步拉近。尤其在网页操作、自动化测试、遥感监测等实际应用领域,GLM-4.5V正变得越来越实用。不论产品体验还是开放资源,对AI开发者和未来应用场景来说,都是实打实的利好。

这次智谱模型开源,给开发者和普通用户带来了不少新玩法。未来的“懂内容又懂界面”的AI,有望成为大家日常工作的好帮手。建议有兴趣的开发者现在就去体验一把,说不定,会有更多创新应用从这里诞生。

爱电竞介绍

热点资讯

推荐资讯