加入收藏 | 设为首页 | 会员中心 | 我要投稿 | RSS
 > 商业

视觉语言大模型的自主执行:极视角自研视觉语言大模型如何赋能机器感知

2026-05-13 21:34:59  来源:东方网

2026年,人工智能大模型与智能体正从实验室走向产业现场。巡检机器人、智能安防系统、工业自动化设备等终端被期待能够自主感知环境、理解自然语言指令并精准执行任务。m7O

然而,在实际落地中,大模型智能体应用普遍面临视觉能力瓶颈——无法准确理解复杂背景下的目标、难以根据模糊描述定位对象、无法对画面内容进行推理问答,导致决策失误与任务中断。m7O

当前大量产业智能体所依赖的传统计算机视觉模型,其识别能力局限于预定义的有限类别。一旦遇到训练集中未出现的目标,系统便无法响应。同时,真实产业指令往往包含空间关系与属性描述,例如“那个在第二个路口左转的红色行人”,传统模型难以解析此类自然语言。即便完成目标检测,智能体也缺乏对画面内容的深度理解能力,无法回答“传送带上是否有物品堆积”等推理类问题,从而制约下游决策的可靠性。m7O

在计算机视觉领域深耕逾十年的极视角,自主研发出了星际视觉语言大模型4B版本。据了解,该模型从底层能力设计上针对智能体需求具有八大能力,重点聚焦开放词汇目标检测(OVD)、指代表达理解(REC)与视觉问答(VQA)等关键能力维度。m7O

m7O

 开放词汇检测(OVD)m7O

该模型支持开放词汇目标检测。智能体无需预定义类别列表,输入任意词汇指令,如“损坏的护栏”“违规停放的叉车”,模型即可识别对应目标并输出边界框坐标,覆盖从生活到产业的“万物识别”需求。m7O

指代表达理解(REC)m7O

模型具备指代表达理解能力,能够解析包含空间关系、属性特征和行为描述的自然语言指令。例如,对于“那个在第二个路口左转的红色行人”,模型可快速锁定画面中符合条件的目标并输出坐标。这使得操作员可以用日常语言与智能体交互,无需繁琐的坐标编程。m7O

视觉问答(VQA)m7O

模型集成了视觉问答能力,可基于当前画面输出结构化信息。智能体能够回答诸如“画面中一共有多少辆车?它们的颜色分别是什么?”“是否有人员进入危险区域?”等问题,所得的数量、属性、状态等信息可直接用于决策模块。m7O

上述能力已在多种产业智能体场景中得到验证。据悉,该模型输出的结构化信息(目标框、属性标签、数量统计、空间关系)可直接驱动下游决策或控制指令。m7O

m7O

极视角星际视觉语言大模型4B版本兼顾了小体积与大能力,支持边缘端部署,可在单卡服务器上流畅运行。这一特性满足了智能体对低延迟、数据本地化的需求。m7O

同时,基于10亿以上真实业务数据集的训练,以及细粒度对齐、负样本采样等专项技术,该模型实现了低幻觉和高精度识别。m7O

综合行业趋势来看,随着边缘算力提升和模型轻量化趋势加速,视觉语言模型将成为每个智能体的标准感知组件。极视角星际视觉语言大模型4B版本以“小、准、稳”的特点,已在智慧城市、智慧交通、智慧水务、智慧能源、智能制造等领域获得应用。m7O

视觉语言大模型的自主执行:极视角自研视觉语言大模型如何赋能机器感知
发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表
推荐资讯
打造驷马桥街道“有益思”志愿服务品牌:树蓓街社区在行动
打造驷马桥街道“有益
世界显示产业创新发展大会创新成果正式发布
世界显示产业创新发展
最后更新
热门点击
  1. 成毅多面演绎六福珠宝Hexicon型格风暴熠熠
  2. 茶王“无敌之巔”:一泡6300元,窥见中国品牌攀
  3. 陕西陕煤澄合矿山救护大队:“瞄实战、砺精兵
  4. 庆开元养生茶深耕不辍,以革新工艺筑就至臻品
  5. 上海四大乐园之首·INS新乐园 以沉浸式体验
  6. “星火·链网”超级节点(济南)成功上线山东移
  7. 长塘镇:党建引领“听诉路” 纾困解难暖民心
  8. 《红楼梦》研究的惊天发现:作者曹雪芹故里
  9. 7月17日,“安逸生活·宜居西昌” 2025年西昌
  10. 中建方程践行央企责任 服务葛沽新型城镇化