🎉 亲爱的广场小伙伴们,福利不停,精彩不断!目前广场上这些热门发帖赢奖活动火热进行中,发帖越多,奖励越多,快来 GET 你的专属好礼吧!🚀
1️⃣ #TokenOfLove# |广场音乐节打 CALL
为偶像打 CALL,Gate 广场送你直达 Token of Love!泫雅、SUECO、DJ KAKA、CLICK#15 —— 你最想 pick 谁?现在在广场带上 歌手名字 + TokenOfLove 标签发帖应援,就有机会赢取 20 张音乐节门票。
详情 👉 https://www.gate.com/post/status/13214134
2️⃣ #GateTravel旅行分享官# |晒旅程赢好礼
广场家人们注意啦,Gate Travel 已经上线。带话题发帖,分享你的 Gate Travel 旅行体验、心愿清单、使用攻略或趣味见闻,就有机会获得旅行露营套装、速干套装、国际米兰旅行小夜灯等好礼!
详情 👉 https://www.gate.com/post/status/13172887
3️⃣ #内容挖矿# |发帖还能赚钱
广场长期活动进行中,最高可享 10% 手续费返佣!发布优质内容,如行情解析、交易观点等,吸引更多用户点赞和评论。若用户在互动后 180 分钟内完成现货或合约交易,你将获得最高 10% 的手续费返佣!
详情 👉 https://www.gate.
李飞飞「具身智能」新成果!机器人接入大模型直接听懂人话,0预训练就能完成复杂指令
来源:量子位
李飞飞团队具身智能最新成果来了:
大模型接入机器人,把复杂指令转化成具体行动规划,无需额外数据和训练。
可操作的物体也是开放的,不用事先划定范围,开瓶子、按开关、拔充电线都能完成。
机器人如何直接听懂人话?
李飞飞团队将该系统命名为VoxPoser,如下图所示,它的原理非常简单。
接着,LLM(大语言模型)根据这些内容编写代码,所生成代码与VLM(视觉语言模型)进行交互,指导系统生成相应的操作指示地图,即3D Value Map。
而从这个过程我们可以看到,相比传统方法需要进行额外的预训练,这个方法用大模型指导机器人如何与环境进行交互,所以直接解决了机器人训练数据稀缺的问题。
更进一步,正是由于这个特点,它也实现了零样本能力,只要掌握了以上基本流程,就能hold任何给定任务。
在具体实现中,作者将VoxPoser的思路转化为一个优化问题,即下面这样一个复杂的公式:
VoxPoser要实现的就是优化每一个子任务,获得一系列机器人轨迹,最终最小化总的工作量和工作时间。
而在用LLM和VLM将语言指令映射为3D地图的过程中,系统考虑到语言可以传达丰富的语义空间,便利用“感兴趣的实体(entity of interest)”来引导机器人进行操作,也就是通过3DValue Map中标记的值来反应哪个物体是对它具有“吸引力”的,那些物体是具有“排斥性”。
当然,这些值如何生成,就靠大语言模型的理解能力了。
而在最后的轨迹合成过程中,由于语言模型的输出在整个任务中保持不变,所以我们可以通过缓存其输出,并使用闭环视觉反馈重新评估生成的代码,从而在遇到干扰时快速进行重新规划。
因此,VoxPoser有着很强的抗干扰能力。
以下分别是VoxPoser在真实和模拟环境中的表现(衡量指标为平均成功率):
最后,作者还惊喜地发现,VoxPoser产生了4个“涌现能力”:
(1)评估物理特性,比如给定两个质量未知的方块,让机器人使用工具进行物理实验,确定哪个块更重;
(2)行为常识推理,比如在摆餐具的任务中,告诉机器人“我是左撇子”,它就能通过上下文理解其含义;
(3)细粒度校正,比如执行“给茶壶盖上盖子”这种精度要求较高的任务时,我们可以向机器人发出“你偏离了1厘米”等精确指令来校正它的操作;
(4)基于视觉的多步操作,比如叫机器人将抽屉精准地打开成一半,由于没有对象模型导致的信息不足可能让机器人无法执行这样的任务,但VoxPoser可以根据视觉反馈提出多步操作策略,即首先完全打开抽屉同时记录手柄位移,然后将其推回至中点就可以满足要求了。
李飞飞:计算机视觉的3颗北极星
大约一年前,李飞飞在美国文理学会会刊上撰文,指出计算机视觉发展的三个方向:
正如ImageNet旨在表示广泛且多样化的现实世界图像一样,具身智能研究也需要解决复杂多样的人类任务,从叠衣服到探索新城市。
遵循指令执行这些任务需要视觉,但需要的不仅仅是视觉,也需要视觉推理理解场景中的三维关系。
最后机器还要做到理解场景中的人,包括人类意图和社会关系。比如看到一个人打开冰箱能判断出他饿了,或者看到一个小孩坐在大人腿上能判断出他们是亲子关系。
机器人结合大模型可能正是解决这些问题的一个途径。
项目主页:
参考链接:
[1]
[1]