FAST-基于离散余弦变化的机器人动作分词器

-代码：https://huggingface.co/physical-intelligence/fast

动态图片和视频：https://www.pi.website/research/fast

机器人类型：固定底座式单臂机器人

机器手类型：夹子

实验设备：？

发表时间：January 16, 2025

动作标记器将任何机器人动作序列映射到密集、离散的动作标记序列中，用于训练自回归 VLA 模型。

当前基于简单的每维度、每时间步分箱方案的机器人动作标记化方法，在从高频机器人数据中学习灵巧的技能时，通常表现不佳

高频控制学习灵巧的技能时，这种方法表现不佳

## 关键点


### 离散余弦变换（DCT）(1)

离散余弦变换（DCT）是一种将时间序列数据转换为频域表示的数学工具。

### 基于向量量化的学习压缩方法？
based  on  vectorquantization  [59,  48]. 
## 训练规模1M

trained on 1M real robot action trajectories
train atokenizer using the pipeline described above on a large, cross-embodied  robot  action  dataset,  consisting  of  approximatelyone   million   1-second   action   chunks   from   single-arm,   bi-manual  and  mobile  manipulation  robots,  with  joint  and  end-effector control action spaces and various control frequencies.
## 学习信号与边际信息量成正比
## 疑问
### DCT是首次用于机器人分词器吗？
### 论文基于的VLA是什么

In our experiments, we test FAST with two VLA backbones:π0[7] and OpenVLA [39]. 

### 基于简单的每维度、每时间步分箱方案的机器人动作标记化方法？

[9， 10， 39]

动作分词最常用的方法是简单的分箱离散化方案 [8， 10， 39， 72， 56]

### 机器人动作信号需要在训练前进行压缩，以减少连续标记之间的相关性。

Our  key  insight  is  that  robot  actionsignals  need  to  becompressedbefore  training,  to  reducecorrelation  between  consecutive  tokens.

压缩（Compressed）：

压缩的目的是将原始动作信号转换为更紧凑的表示形式，减少冗余信息。

例如，将一系列连续的前进动作合并为一个"持续前进"的 token。

假设原始动作序列是 [前进, 前进, 前进, 左转, 左转, 左转]，压缩后可能变为 [持续前进, 持续左转]。这样，连续 token 之间的相关性降低了，模型需要学习如何从"持续前进"过渡到"持续左转"，而不是简单地复制前一个 token。

2/19

### Language-Conditioned

语言条件化（Language-Conditioned）：

这意味着策略的输入不仅包括环境信息，还包括自然语言指令。

例如，机器人可以根据"请把杯子放在桌子上"这样的指令执行任务。

### 通用操作策略（Generalist Manipulation Policy）

通用策略意味着该策略能够处理多种不同的任务，而不是专门为某一特定任务设计的。

例如，同一个策略可以用于抓取、搬运、装配等多种操作。

### 如何理解first ？

The  resulting  policy  is  the  firstl anguage-conditioned  generalist  manipulation  policy  that  canbe  successfully  evaluatedzero-shot in  unseen  environments,simply by prompting it in natural language

### 自然语言提示（Prompting in Natural Language）：

通过自然语言提示，用户可以用简单的语言指令来指导机器人执行任务。

例如，用户可以说"请把书放在书架上"，机器人会根据这个指令执行相应的操作。

## 离散信息

### OpenVLA 在低频 BridgeV2 和 RT-1 数据集上运行良好，但难以适应高频 DROID 数据集 [39]

### byte-pair encoding出处

Philip Gage. A new algorithm for data compression.TheC Users Journal, 12(2):23–38, 1994.

Rico  Sennrich,  Barry  Haddow,  and  Alexandra  Birch.Neural  machine  translation  of  rare  words  with  subwordunits.arXiv preprint arXiv:1508.07909, 2015.

### DROID  dataset数据集

Droid:  A  large-scale  in-the-wild  robot  manipulation  dataset.   InProceedings  ofRobotics: Science and Systems, 2024.

### 时间序列压缩
从将信号转换为频域后压缩信号的方法 [18， 1， 61] 到学习压缩方法，例如基于矢量量化 [59， 48] 的学习压缩方法，在有效压缩连续时间序列方面有大量的工作

### in the wild

in-the-wild 是一个常用的术语，通常用来描述数据或现象是在真实世界或自然环境中收集或观察到的，而不是在受控的实验室环境中。在机器人领域，in-the-wild 数据集意味着数据来自实际应用场景，可能包含各种复杂性和不确定性。

### 直接作用于比特流的"无分词化"语言模型的训练 [28， 53]

### 最先进的模型通常使用频域频谱图图像 [29] 或使用学习到的矢量量化器 [68] 对时间序列音频数据进行编码

### 最近，许多工作开发了通才机器人策略 [9， 51， 6， 10， 20， 39， 62， 11]，这些策略在越来越大的机器人学习数据集 [52， 38， 60， 24， 47， 35] 上进行训练。训练通才政策的一种有前途的方法是视觉-语言-行动模型 （VLA;[10, 17, 39, 67, 7, 63, 73, 71, 13, 11])

VLA 微调视觉语言模型

### naive

naive 方法通常是最直观、最容易实现的解决方案。

### 高频动作

在机器人操作中，高频动作可能指的是机器人在短时间内执行的快速、重复的动作。

例如，机器人快速抓取和放置物体，或者在装配线上进行高速操作。

## weakness

观察视频可以发现，机器手移动过程中顿挫感很强，不如人手自然


## Strength

性能与sota相匹配，速度提高5倍

在许多任务中实现了与最先进的基于扩散的 VLA [7] 的竞争性能，同时训练的计算效率明显更高

## motivation

之前基于分箱的分词方法，在从高频机器人数据中学习灵巧的技能时，通常表现不佳(OpenVLA 在低频 BridgeV2 和 RT-1 数据集上运行良好，但难以适应高频 DROID 数据集 [39]。)

作者提出了基于离散余弦变换（DCT）的压缩方法，将高频动作序列转换为离散的token序列，从而提高了模型的学习效率和泛化能力。

## pipeline

A. 通过离散余弦变换进行时间序列压缩

B. 使用语言条件化通用策略

C. 在未见过的环境中进行零样本评估


# FAST 论文关键点总结

## 1. **核心创新**
- **动作信号压缩**：在训练前对机器人动作信号进行压缩，以减少连续 token 之间的相关性，防止模型陷入简单的复制策略。
- **语言条件化通用策略**：首次实现了能够通过自然语言提示在未见过的环境中进行零样本评估的通用操作策略。

## 2. **数据集**
- **DROID 数据集**：一个大规模的多任务机器人操作数据集，数据来自真实世界环境（in-the-wild），涵盖了多种任务和场景。

## 3. **技术细节**
- **语义动作表示**：使用语言子任务或关键点表示动作，可以从少量示例中学习，甚至实现零样本任务执行，但需要依赖手工设计的底层控制器。
- **三次样条曲线**：通过三次样条曲线拟合四个随机生成的点，使得曲线经过这些点并且平滑，用于时间序列预测和数据拟合。

## 4. **学习信号**
- **边际信息量**：模型的学习信号与给定前 \( i-1 \) 个 token 时第 \( i \) 个 token 的边际信息量成正比，模型会更关注那些包含更多新信息的 token。

## 5. **高频动作**
- **定义**：在短时间内频繁发生的动作或操作，例如机器人快速抓取和放置物体，或高频交易中的快速买卖操作。

## 6. **Naive 方法**
- **定义**：简单、直接、未经优化的方法或假设，通常作为对比基准，用于突出更复杂或更先进方法的优势。

## 7. **语言、文本和音频的区别**
- **Language**：人类用于交流的符号系统，包括口语和书面语。
- **Text**：语言的书面表现形式，由字符、单词和句子组成。
- **Audio**：声音的数字化表示，通常包括语音、音乐和其他声音。
菜单

分享

FAST-基于离散余弦变化的机器人动作分词器

评论

以MXFP4格式跑通oss模型

ubuntu升级

服务区装驱动和cuda

vscode cursor 连接ubuntu18

cursor逆向

FAST-基于离散余弦变化的机器人动作分词器

更新dify过程遇到的问题

win10开机自启

学习git的使用

CVPR2025投稿指南