具有任务切换功能的具身智能操作系统原型
本项目为北京大学 OSLab Embodied AI System 项目的一部分。ElasticVLA 旨在解决大型视觉-语言-动作(VLA)模型在端侧设备上推理延迟高、难以满足实时控制需求的问题。项目在开源 VLA 大模型 OpenVLA的基础上实现了 ElasticVLA,实现了在保证控制精度的前提下,动态调整模型推理深度,并利用节省的计算资源执行背景任务(如传感器数据处理等)。
北京大学 OSLab Embodied AI System(oslab-embodied-ai-system)致力于以操作系统的建构思想重构具身智能系统,构建面向未来的全栈式具身智能操作系统(Embodied OS)。
现有具身智能系统普遍遵循固定的串行工作流:感知 → 大模型推理 → 输出动作 Token → 执行。这一范式存在三大结构性局限:
我们坚信,具身智能系统要想真正走向复杂物理世界,必须在系统层面引入并发、调度、中断与资源管理等核心机制。
我们类比现代操作系统的经典设计哲学,将具身智能系统的核心挑战映射到操作系统领域的关键抽象:
| 现代操作系统 | 具身智能系统(Embodied OS) |
|---|---|
| 进程管理 —— 进程上下文包含寄存器状态等,切换时需保存与恢复上下文 | 任务管理 —— 任务上下文包含规划器状态、动作序列等,任务切换需进行数字与物理上下文切换 |
| 线程并行 —— 进程由线程组成,线程在多核上并行执行 | 任务并行 —— 复杂任务由子任务组成,子任务视情况在多硬件上并行运行 |
| 中断管理 —— 系统提供中断机制响应异步事件 | 异步响应 —— 系统响应突发任务与环境变化,实现安全的中断与恢复 |
| 资源调度 —— 操作系统感知并调度进程,分配 CPU / 内存资源 | 计算调度 —— 系统感知任务需求,动态分配模型推理与物理执行的计算资源 |
基于上述思想,我们提出构建面向具身智能的全栈操作系统(Embodied OS),涵盖从底层物理交互、中层模型推理到上层任务规划的完整软件栈。
ElasticVLA 面向大型视觉-语言-动作(VLA)模型在端侧部署时推理延迟过高的难题,创新性地引入多出口架构、语义适配器、模型路由器与实时调度器,在保证控制精度的前提下动态调整模型推理深度,并将节省出的计算资源通过背包优化算法分配给背景任务,实现推理延迟与系统吞吐的联合优化。项目基于 OpenVLA-OFT 开源基座模型构建,支持模块化微调与 LIBERO 任务评估。
Switchable Libero Playground 是专为具身任务切换机制研究打造的仿真实验平台。通过对 LIBERO / RoboSuite 的场景、任务、仿真环境与运行时进行系统化封装,提供场景定义、任务编排(含早期/晚期切换模式)、模型通信与批量评估的全链路支持。平台采用 Websocket 架构实现环境隔离与多机部署,已兼容 OpenPi、UniAct 等主流模型,是验证任务级中断与恢复策略的理想实验底座。
我们的最终目标是构建一套具备任务并发、实时调度、安全切换与资源管理能力的具身智能操作系统,让智能体能够在复杂、动态、不可预测的物理环境中,像现代操作系统管理计算资源一样,高效、安全、可靠地管理自身的感知、推理与执行资源。
欢迎对具身智能系统、实时推理调度、任务切换机制等方向感兴趣的研究者与开发者关注、试用我们的开源项目。