环境

1. ERROR: Could not build wheels for opencv-python which use PEP 517 and cannot be installed directly

安装opencv-python时出现,伴随scikit-build could not get a working generator for your system. Aborting build.
解决:升级pip到最新版即可python -m pip install --upgrade pip

阅读全文 »

项目地址:
VLM: https://gitee.com/feng-xie-yi/vlm_car
RL: https://gitee.com/momaoto/rl-locomotion-mujoco

项目信息

选题思路

现有跨形态机器人控制需为不同硬件单独设计策略,开发成本高且泛化性差。本课题尝试使用语言指令统一接口,用户用自然语言指挥不同形态机器人完成同一任务,通过分层强化学习框架,高层视觉语言模型(VLM)解析任务生成中间指令,再通过低层强化学习策略适配不同形态的底层动作,通过仿真器快速训练跨形态通用策略,最后部署到真机运行。

阅读全文 »

Python笔记

杂项

列表遍历

1
2
3
4
5
# 整数步长
for i in range(1,10,2) # start,end,step
# 小数步长
for i in np.arrange(0,1,0.01) #start,end,step
for i in np.linspace(0,0.9,10) # 0-0.9的10等分

查看gpu情况

1
2
# 在命令行里
nvidia-smi
阅读全文 »

p.s.:每次和人说起薪资,要么说总包,要么说税前月薪,就会被问“这是啥都没扣的,到手还要少好多”,自己也明白到手会少很多,但不知道具体会扣掉多少,这里直接来了解一下算法。
当然,懒人攻略:在线工资计算器

先了解几个公式:

  • 到手工资 = 税前工资 - 五险一金 - 税

  • 可支配工资 = 到手工资 + 公积金 (我自己这么认为的)

阅读全文 »

第一篇

一个具身智能体的行动可以分为“感知-决策-行动-反馈”四个步骤,分别由四个模块完成,并形成一个闭环。

  • 感知:传感器,用于获取环境信息,如雷达、深度相机、麦克风。
  • 决策:“大模型”,输入目标与指令,输出决策指令(导航路线、动作序列等)。
    • VLA:Vision-Language-Action,输出动作
    • VLN:Vision-Language-Nevigation,输出路线
  • 行动:三种思路:
    • 决策调用行动:行动被写成算法以供决策模块调用,缺点泛化能力差
    • 决策与行动协同:行动的同时获取实时信息,使决策不断优化,缺点吃算力
    • 决策与行动融合:端到端,利用多模态技术发展直接从感知推理出环境变化,以及相应的动作序列。是未来发展的方向。优点泛化能力强,通用。
  • 反馈:为上述每一个环节提供反馈。

从零开始理解相机标定原理

导入

使用相机对三维世界拍照,可以生成一张二维的照片。然而:

  • 三维世界中的物体比例是否被真实的反映在了照片中?(镜头畸变)
  • 如果是,二者的大小比例是否可以定量分析?(像素焦距、光学中心位置)
  • 如果可以,能否利用已知的比例信息与透视原理从二维照片中还原出三维世界的深度信息?(深度感知,三维重建)
    相机标定是尝试解决上述问题的关键步骤。
阅读全文 »

某位消费电子行业工作的学长的简要采访

一、基本情况

年龄:24岁

从业时间:3年

工作单位:手机厂(HMOV其中一家)

职务:嵌入式开发工程师

阅读全文 »
0%