论文阅读
Trajectory-LLM: A Language-based Data Generator for Trajectory Prediction in Autonomous Driving
提出Trajectory-LLM(Traj-LLM) 这一基于大语言模型的自动驾驶车辆轨迹生成方法,通过创新的 “交互 – 行为 – 轨迹” 三阶段翻译范式,以车辆交互的简短文本描述为输入,先生成含驾驶逻辑的车辆行为序列,再转化为具体轨迹,解决了传统语言驱动轨迹生成中行为不合理、多样性不足的问题;同时构建了包含240K 交通场景的L2T 数据集,涵盖 6 类道路拓扑、多类车辆交互与行为标注;实验表明,该方法生成的轨迹在真实性、多样性和可控性上优于现有方法,将其作为补充数据用于训练下游轨迹预测模型,可有效提升模型在 Waymo、Argoverse 等公开基准上的性能。
数据集格式(部分)
车辆交互标注 聚焦 近距离(<10 米)高强度交互,包括 3 类核心交互:
- 绕行静止对象(如交通锥、停驶车辆);
- 超车动态对象(如低速行驶车辆);
- 让行动态对象(如路口车辆、行人);
轨迹参数 每个移动对象的轨迹由时序路点组成,每个路点含 4 个关键参数:x 坐标、y 坐标、航向角(Heading)、速度(Speed);轨迹时长≤20 秒,采样频率 20Hz(即每秒 20 个路点)。
scenario_id (字符串): 场景的唯一标识符,例如 “bec3d451f2566c64e4933811408ab094″。
scenario_label (对象):
map (字符串): 地图类型,例如 “T-shaped”。
interaction (字符串): 交互描述,例如 “Egocar bypasses TrafficCone5870, TrafficCone9968, Pedestrian3686; Egocar overtakes NPCCar8291″,描述代理间的关系。
agent_nums (整数): 场景中代理的数量,例如 5。
agent_behavior (对象): 每个代理的行为描述。键为代理 ID(如 “egocar0″),值包含:
init (对象): 初始状态,包括 x (x 坐标)、y (y 坐标)、heading (朝向角度)、speed (速度)。
behavior (数组): 行为序列,每个元素是一个对象,包含 action (行为类型,如 “巡航” 或 “停止”)、speed (目标速度)、distance (行驶距离)。
agent_trajectory (对象): 每个代理的轨迹数据。键为代理 ID,值为数组,每个元素是一个帧对象:
frame (整数): 帧编号,从 0 到 28。
position_x (浮点数): 位置 x 坐标(可能对应 y 轴或主要运动轴)。
heading (浮点数): 朝向角度。
speed (浮点数): 速度。
数据处理
批量提取全部场景数据,将每个场景拆分为独立 JSON 文件并按索引有序命名保存,实现原始数据的批量拆分与独立存储。
以agent_nums=2为核心筛选条件,对所有拆分后的场景文件进行过滤
正则匹配,从有效场景的interaction字段中提取overtakes、bypasses、yields to三类核心交互关键词作为样本标签,生成包含文件序号、文件名与对应标签的汇总文件,完成样本标签的自动化标注与映射。
清洗数据集,仅仅留存轨迹数据。