能看图、会聊天,还会跨模态推理和定位,能落地复杂场景的DetGPT来了 天天时讯
一直以来,人类梦想着机器人能够辅助人类处理生活和工作的事情。“请帮我调低空调的温度”,甚至 “请帮我写一个商城网站” 都在近年来的家居助手和 OpenAI 发布的 Copilot 上得以实现。
GPT-4 的出现,进一步为我们展示了多模态大模型在视觉理解上的潜力。开源中小模型方面,LLAVA、minigpt-4 表现不俗,可以看图聊天,还可以为人类猜测美食图片中的菜谱。然而,这些模型在实际落地中仍然面临重要的挑战:没有精准的定位能力,不能给出某物体在图片中的具体位置,也不能理解人类的复杂指令来检测具体物体,因此很多时候无法执行人类的具体任务。在实际场景中,人们遇到复杂问题,如果能通过拍一张照来询问智能助手得到正确答案,这样的 “拍照问问” 功能简直炫酷。
(资料图片仅供参考)
要实现 “拍照问问” 这一功能,需要机器人具备多项能力:
1. 语言理解能力:能够听懂并理解人类的意图
2. 视觉理解能力:能够理解看到的画面中的物体
3. 常识推理能力:能够将复杂的人类意图转换为可定位的精确目标
4. 物体定位能力:能够从画面中定位和检测出对应物体
这四大能力,目前仅有少数的大模型(比如谷歌的 PaLM-E)同时具备。然而,来自港科大 & 港大的研究人员提出了一个全开源模型 DetGPT (全名 DetectionGPT),只需微调三百万参数量,让模型轻松拥有了复杂推理和局部物体定位能力,可以泛化到大多数场景。这意味着模型能够通过自身知识的推理来理解人类抽象指令,轻松识别图片中的人类感兴趣的物体!他们已经将模型做成 “拍照问问” demo,欢迎在线体验:https://detgpt.github.io/
DetGPT 可以让用户用自然语言操作一切,不需要繁琐的命令或者界面。同时,DetGPT 还具备智能推理和目标检测能力,可以准确地理解用户的需求和意图。例如人类发一个语言指令 “我想喝冷饮”,机器人首先在场景里搜索冷饮,但是没有找到。于是开始思考 “场景里没有冷饮,我应该去哪里找”。通过强大的常识推理能力模型想到了冰箱,于是扫描场景画面发现了冰箱,成功锁定饮料位置!
开源代码:https://github.com/OptimalScale/DetGPTDemo 在线试玩:https://detgpt.github.io/夏天口渴,图片里哪里会有冰饮料?DetGPT 轻松理解找到冰箱:
明天要早起?DetGPT 轻松 pick 电子闹钟:
高血压、容易累?去到水果市场,不清楚买什么水果能缓解高血压?DetGPT 充当你的营养学老师:
塞尔达游戏不会通关?DetGPT 助你变装通过女儿国关卡:
图片的视野范围内有什么危险事物?DetGPT 成为保护你的安全员:
图片里有什么物品对小孩来说很危险?DetGPT 依然没问题:
DetGPT 有什么特性?对图片中具体物体的理解能力大幅提升。相比于以往的图文对话多模态模型,我们能够通过理解用户指令从图片中检索并定位出目标物体,而不是单纯对整张图做出描述。能理解人类复杂指令,降低用户的提问门槛。比如,模型可以理解问题 “找到图中能够缓解高血压的食物”。而传统目标检测需要人类已知答案,提前预设检测类别 “香蕉”。DetGPT 能根据已有 LLM 知识进行推理,从而精确定位到图中能解决复杂任务的对应物体。对于复杂的任务,比如 “缓解高血压的食物”。DetGPT 可以对这一复杂任务逐步推理:缓解高血压 -> 钾元素能够缓解高血压 -> 香蕉富含钾元素 -> 香蕉可以缓解高血压 -> 需要识别物体香蕉提供人类常识范围之外的答案。对一些不常见的问题,比如人类不了解哪些水果富含钾,模型能根据已有知识进行解答。值得关注的新方向:利用常识推理实现更精准开集目标检测
传统检测任务要求预设可能的物体类别,从而进行检测。但是精确且全面描述要检测的物体,对人类来说是不友好的,甚至是不现实的。具体而言,(1)受到有限记忆 / 知识的限制,人并不总能精确表述自己想要检测的目标物体。比如,医生建议有高血压的人多吃水果补充钾元素,但不了解哪些水果富含钾,就无法给出具体的水果名称让模型去检测;如果能直接把问题 “把能缓解高血压的水果识别出来” 抛给检测模型,人类只需要拍一张照片,模型自身去思考、推理、和检测富含钾的水果,这个问题就简单许多。(2)人类能举例物体类别是不全面的。比如,如果相对公共场所不符合公共秩序的行为进行监控,人类或许能只能简单列出几个场景如持刀、吸烟;但如果直接把问题 “检测不符合公共秩序的行为” 交给检测模型,模型自己进行思考、根据自己的知识进行推理,则能捕捉到更多的不良行为和泛化到更多需要检测的相关类别。毕竟普通人类所了解的知识是有限的,能够举出来的物体类别也是有限的,但如果有一个类似 ChatGPT 的大脑进行辅助和推理,人类所需要给出的指令就简单多了,所获的答案也能精确、全面许多。
基于人类指令的抽象性和局限性,港科大 & 港大的研究人员提出 “推理型目标检测 ” 这一新方向。简单来说,就是人类给出一些抽象的任务,模型能自己去理解、推理图片里的哪些物体可能完成这一任务,并将其检测出来。举个简单的例子,人类描述 “我想喝一杯冷饮,在哪里可以找到它”,模型看到的是一张厨房的照片,它能够把 “冰箱” 检测出来。这一课题要求将多模态模型的图像理解能力与语言大模型储藏的丰富知识完美结合、用于细粒度的检测任务场景中:利用语言模型的大脑来理解人类的抽象指令,精确地定位图片中人类感兴趣的物体,而不需要预设物体类别。
方法介绍“推理型目标检测 ” 是一个困难的问题,因为检测器不仅需要对用户的粗粒度 / 抽象的指令进行理解和推理,更要分析当前所看到的视觉信息,从而定位出目标物体。在这一方向上,港科大 & 港大的研究人员进行了一些初步的探索。具体而言,他们利用预训练好的视觉编码器 (BLIP-2) 来获取图片视觉特征,通过一个对齐函数 (alignment function) 将视觉特征对齐到文本空间。利用大规模语言模型 (Robin/Vicuna) 来理解用户问题,结合看到的视觉信息,对用户真正感兴趣的物体进行推理。然后将物体名称提供给预训练好的检测器 (Grouding-DINO) 进行具体位置的预测。这样一来,模型可以根据用户的任何指令分析图片,精准地预测出用户感兴趣物体的位置。
值得注意的是这里的难点主要在于,针对不同具体任务,模型要能够实现特定格式(task-specific)的输出,而尽可能不损害模型原本的能力。为指导语言模型遵循特定的模式,在理解图像和用户指令的前提下进行推理和生成符合目标检测格式的输出,研究团队利用 ChatGPT 生成跨模态 instruction data 来微调模型。具体而言,基于 5000 个 coco 图片,他们利用 ChatGPT 创建了 3w 个跨模态图像 - 文本微调数据集。为了提高训练的效率,他们固定住其他模型参数,只学习跨模态线性映射。实验效果证明,即使只有线性层被微调,语言模型也能够理解细粒度的图像特征,并遵循特定的模式来执行基于推理的图像检测任务、表现出优异的性能。
这一研究课题具有非常大的潜力。基于这一技术,家庭机器人领域将进一步大放异彩:家庭中的人们可以通过抽象或者粗粒度的语音指令,让机器人理解、识别、并定位需要的物品,提供相关服务。在工业机器人领域,这种技术更将焕发出无尽的活力:工业机器人可以与人类工作人员更加自然地协作,准确理解他们的指令和需求,实现智能化的决策和操作。在生产线上,人类工作人员可以通过粗粒度的语音指令或文字输入,让机器人自动理解、识别并定位需要加工的物品,从而提高生产效率和质量。
基于自带推理能力的目标检测模型,我们可以开发出更加智能化、自然化、高效化的机器人,为人类提供更加便捷、高效和人性化的服务。这是一个具有广阔前景的领域。也值得更多研究者的进行关注和进一步探索。
值得一提的是,DetGPT 支持多种语言模型,目前已经基于 Robin-13B 和 Vicuna-13B 两个语言模型进行验证。Robin 系列语言模型是港科大 LMFlow 团队(https://github.com/OptimalScale/LMFlow)训练的对话模型,在多项语言能力测评基准上达到了和 Vicuna 相当的效果(模型下载: https://github.com/OptimalScale/LMFlow#model-zoo)。之前机器之心报道过 LMFlow 团队在消费级显卡 3090 上只需 5 小时训练专属 ChatGPT,今天这一团队联合港大 NLP 实验室又给我们带来了多模态的惊喜。
标签:
推荐
- 能看图、会聊天,还会跨模态推理和定位,能落地复杂场景的DetGPT来了 天天时讯
- 有研粉材(688456):5月10日技术指标出现看涨信号-“红三兵” 消息
- 制止餐饮浪费 南京浦口培养“光盘小达人”
- 迎客松的花期是多少天 迎客松的花期是多少-焦点速递
- 润邦股份:公司目前没有相关计划 报道
- 汤泉农场三举措推动农业现代化招商工作 今日精选
- 全球观察:举办“家庭助廉·团团圆圆”家风建设座谈会 怀化纪律部队“关键少数”夫妇同受教育
- 【播资讯】曹操起家智典_对于曹操起家智典简单介绍
- 一季度我国服务贸易同比增长8.7% 旅行服务恢复明显
- 【世界速看料】备注看不懂却有意义的情侣_备注看不懂却有意义的
- 过敏性结膜炎有什么症状?怎样治疗慢性结膜炎?
- 期市早评;尝试空白糖20230510
- 烟的保质期是几年 烟保质期多少年_当前速讯
- 曹成喜_对于曹成喜简单介绍
- 速递!“挖呀挖”爆火,要挖出哪些法律问题?
- 世界快看:V观财报|近五年仅一年实现盈利 天舟文化被追问:啥原因?
- 曹建清_对于曹建清简单介绍-每日热点
- 【我为群众办实事】当事人突发昏厥 法警队快速妥善处置_环球通讯
- 全球今日报丨什么叫喵喵机_喵喵机是什么东西
- 000629攀钢钒钛股票_000629攀钢钒钛重组 全球最新
- 全球快资讯丨沧州外援奥斯卡:赛前针对大连人做了部署,1-1的结果还是合理的
- 人一旦没了良心,真的是什么坏事都能干得出来
- 【寻味中华|饮食】腌笃鲜:食过方知春之味_世界今热点
- 我爱我家今年将启动长租业务相寓的分拆上市准备工作
- 今天,自动驾驶车辆开上了上海嘉定的高速路
- 国六b排放标准七月实施 近百万辆非RDE车型获半年过渡期
- 党员的党龄从啥时候开始计算 党员的党龄从何时起计算 当前速讯
- 神马电力拟发不超7.1亿可转债 2019上市2募资共6.62亿
- u盘无法格式化怎么弄_u盘无法格式化
- 今亮点!女子高铁熟睡被袭胸,猥亵男被抓时还找理由
- 今头条!疾控专家提醒:健康饮水做到六点
- 女子地铁站内迷路,地铁公安热心相助
- 【全球新要闻】比亚迪全资收购易安财险公司
- 今日热闻!春季里穿搭凉鞋,水晶的设计很特别,大多数选择粗跟的款式
- 兰格钢铁:产量平控打响“第一枪”或促钢铁企业效益有效回归
- 银行板块午后再度拉升中国银行涨超5%
- 灌南县第二中学_关于灌南县第二中学介绍
- 商都县晔兆冶金铁合金产能受让公告
- 这是真实版中国试飞员的故事!
- 今日要闻!男篮短训营提升世界杯备战效率
- 宝光股份(600379.SH):子公司宝光智中积极拓展储能相关业务
- 唐河县疾病预防控制中心:积极开展2023年第一季度艾滋病防治工作督导检查 环球新要闻
- 洞口县“四季村晚”活动启动 激发乡村文化活力
- 纳芯微:5月8日融资买入413.85万元,融资融券余额1.63亿元
- 汽车行业洗牌加速 车企“出海”迎绝佳时机
- 全球微头条丨荣耀深圳研发实验室首次开放 聚焦基础研究、仿真技术投入达1.7亿元
- 仙剑奇侠传五攻略超详细_仙剑奇侠传五结局|环球要闻
- 德媒:拜仁全面重组球探部门,将签下和维尔茨关系密切的球探
- 官方售价89.39万元起 新款宝马M4正式上市
- 5月8日基金净值:富国美丽中国混合A最新净值2.331,跌0.38%|环球消息
- 【世界速看料】时隔12年再推儿童剧,四川人艺新作《没有角的小犀牛》首演
- 市场人士:鸡蛋价格处于季节性下行周期中 焦点要闻
- 每日消息!巨亏的赛力斯,华为救不了 |钛媒体焦点
- 什么的脸庞_苦涩的沙吹痛脸庞的感觉是什么歌
- 快消息!20位从业者,8种态度,ACGN走入AIGC迷城
- 草莓保存方法和时间(草莓怎样保存的时间长)
- 不能吃牛奶鸡蛋早餐吃什么
- 速递!全面入京!燕郊全城将进行大更新,北京亲手打造!
- 世界微动态丨贵州:双缴存职工家庭购买首套房的最高贷款额可至80万元
- 雪佛兰Silverado HD获得大幅折扣 新消息
- 时讯:今年全球票房破100亿美元 三部国产片入十强
- 车流密集的高速上倒车还变道 这番操作太离谱 世界今热点
- 草字头加凡念什么的_草字头加凡念什么
- 全球首创!木质晶体管横空出世 硅基计算霸主地位受威胁
- 中荣股份董秘回复:2022年度的利息支出主要是偿还银行贷款利息|每日速讯
- 5月8日 14:19分 东南网架(002135)股价快速拉升
- 魅力野兽_关于魅力野兽简述
- 世界热门:临夏州医保报销的流程怎么走2023 临夏州医保怎么用微信缴费
- 移动云驶向1500亿,云市场格局生变|ToB产业观察 世界观速讯
- 员工没在朋友圈转发单位链接被扣工资还遭开除 法院判决:单位补发工资赔5万|世界看热讯
- 10月28日开战!《DOTA2》官宣Ti 12回归西雅图
- 港股教育股走强 中教控股涨超6%-天天观天下
- 国家统计局:2023年4月下旬有色金属价格涨跌不一_天天快报
- 当前时讯:兰州市政府与甘肃省交通运输厅召开工作交流座谈会 以“强交通”有力支撑“强省会”不断提升兰州全国性综合交通枢纽地位
- 高纯石英砂上涨超400%!内层石英砂涨至34-37万元/吨!
- 每日热点:大宗商品数据每日题材(2023年5月8日)
- 环球头条:大衣哥在青州商演,被观众扔石头后继续演唱,保安急忙护驾
- 类上皮细胞和上皮样细胞区别_类上皮细胞 天天热推荐
- 昌景黄高铁全线铺轨贯通 全球微速讯
- 旅游经济回暖 各地花式“抢人” 今日热搜
- 世界要闻:下山歌词要不要买菜_下山歌词
- 极米春季新品发布会5月10日
- 环球短讯!四川省成都市2023-05-07 18:20发布大风蓝色预警
- 数字翻番,经济快速回暖!26个省份用电量实现正增长
- 全球时讯:汽车过户费计算器_汽车过户费
- 今日精选:满弓劲发!宝山南大智慧城地标项目科创之门主体结构封顶
- 今亮点!转正定级审批表模板_转正定级审批表
- 全国游泳冠军赛落幕 孙佳俊50米蛙泳超亚洲纪录 全球讯息
- 霸道的“规则” 霸权的“秩序”——起底美国所谓“基于规则的国际秩序” 天天快播报
- 全球报道:投研精选|彩讯股份(300634) 收入利润实现双高增 AI应用长期潜力可期
- 苏州不仅需要建机场,还至少要建二座机场才算正常?_今日观点
- 全球消息!受贿1246万余元,威海市原副市长周永迪一审获刑十年
- 人造疫情?俄披露美国生物实验室:研究引发人类疫情的病原体
- 鳌江站扩建_鳌江站
- 漫客栈怎么绑定邮箱信息?漫客栈绑定邮箱信息教程 世界新消息
- 应急管理部启动危险化学品重大危险源企业2023年第一次安全专项检查督导
- 巴菲特股东大会十大金句:美国要和中国搞好关系,现金不是垃圾_焦点速讯
- 世界观点:杭萧钢构:安徽杭萧签约耀元新材料光伏基地项目二期EPC工程钢结构(A标段)
- 全球微头条丨成功执法亚冠决赛,中国主裁判马宁发文自我鼓励
- 焦点信息:「呼声与回应」餐车停放小区内夜半扰民?社区:已采取多种方式整改
X 关闭
行业规章
X 关闭