强化学习综述

第一篇

一个具身智能体的行动可以分为“感知-决策-行动-反馈”四个步骤,分别由四个模块完成,并形成一个闭环。

  • 感知:传感器,用于获取环境信息,如雷达、深度相机、麦克风。
  • 决策:“大模型”,输入目标与指令,输出决策指令(导航路线、动作序列等)。
    • VLA:Vision-Language-Action,输出动作
    • VLN:Vision-Language-Nevigation,输出路线
  • 行动:三种思路:
    • 决策调用行动:行动被写成算法以供决策模块调用,缺点泛化能力差
    • 决策与行动协同:行动的同时获取实时信息,使决策不断优化,缺点吃算力
    • 决策与行动融合:端到端,利用多模态技术发展直接从感知推理出环境变化,以及相应的动作序列。是未来发展的方向。优点泛化能力强,通用。
  • 反馈:为上述每一个环节提供反馈。