强化学习综述

发表于 2025-01-25 更新于 2025-01-26 分类于笔记阅读次数：本文字数： 335 阅读时长 ≈ 1 分钟

第一篇

一个具身智能体的行动可以分为“感知-决策-行动-反馈”四个步骤，分别由四个模块完成，并形成一个闭环。

感知：传感器，用于获取环境信息，如雷达、深度相机、麦克风。
决策：“大模型”，输入目标与指令，输出决策指令（导航路线、动作序列等）。
- VLA：Vision-Language-Action，输出动作
- VLN：Vision-Language-Nevigation，输出路线
行动：三种思路：
- 决策调用行动：行动被写成算法以供决策模块调用，缺点泛化能力差
- 决策与行动协同：行动的同时获取实时信息，使决策不断优化，缺点吃算力
- 决策与行动融合：端到端，利用多模态技术发展直接从感知推理出环境变化，以及相应的动作序列。是未来发展的方向。优点泛化能力强，通用。
反馈：为上述每一个环节提供反馈。

0%