从大规模轨迹或行为数据中发现潜在规则关系的调研汇报

一、研究方向历史发展调研

从大规模轨迹或行为数据中发现潜在规则关系,是随着数据采集技术、计算能力以及相关理论的发展而逐步演进的,其历史发展大致可分为以下几个阶段:

(一)初步探索阶段(20 世纪 90 年代 – 21 世纪初)

在这一阶段,数据采集手段相对有限,大规模轨迹和行为数据的获取难度较大,相关研究主要集中在小规模数据的简单分析上。此阶段的核心目标是从少量的轨迹或行为数据中提取基础的统计特征,如数据的均值、方差、频率分布等,以此来发现一些直观的规律。

在技术方法上,主要依赖传统的统计分析方法,如回归分析、聚类分析中的 K – Means 算法等。例如,在交通领域,研究人员通过对少量车辆行驶轨迹数据的统计分析,初步了解车辆在不同时间段、不同路段的行驶速度分布情况,为交通管理提供简单的决策依据。不过,由于数据量小、分析方法简单,该阶段难以发现数据中深层次、复杂的潜在规则关系。

(二)快速发展阶段(21 世纪初 – 2010 年左右)

随着 GPS 技术、传感器技术的普及,大规模轨迹数据的采集变得更加容易,同时互联网的发展也使得用户行为数据(如网页浏览记录、购物记录等)大量涌现。这一阶段,研究重点转向了从较大规模数据中挖掘时空关联规则和序列模式。

在技术层面,数据挖掘技术得到了广泛应用和发展。关联规则挖掘算法如 Apriori 算法(在论文《Fast Algorithms for Mining Association Rules》中提出)被改进后应用于轨迹和行为数据,以发现不同时空事件之间的关联关系。例如,通过分析用户的购物行为数据,发现 “购买奶粉的用户通常会同时购买纸尿裤” 这样的关联规则。此外,序列模式挖掘算法也取得了进展,能够从用户的行为序列(如网页浏览顺序)中发现具有规律性的行为模式,如 “用户在访问电商网站的首页后,通常会先浏览商品分类页面,再进入具体商品详情页面”。

算法核心
基于 频繁项集的所有子集必频繁的原则,通过两步挖掘关联规则:
生成频繁项集:从单个元素(1 – 项集)开始,迭代生成更大的项集,只保留出现频率(支持度)高于阈值的 “频繁项集”。
生成关联规则:从频繁项集中提取形如 “X→Y” 的规则,要求规则的可靠度(置信度)高于阈值。
输入与输出
输入:
事务数据集(如多条用户行为序列、轨迹点集合,每条事务是一个元素集合);
最小支持度(项集需满足的最低出现频率);
最小置信度(规则需满足的最低可靠度)。
输出:满足支持度和置信度阈值的关联规则(如 “用户在 A 地停留→1 小时内前往 B 地”“点击商品 A→购买商品 B”)。
与课题的关联
在 “从大规模轨迹或行为数据中发现潜在规则” 中,Apriori 可直接用于挖掘:
行为关联:如用户行为序列中 “浏览详情页→加入购物车→下单” 的高频规则;
时空关联:如轨迹数据中 “工作日早 8 点出现在小区→30 分钟后出现在地铁站” 的频繁模式。
通过这些规则,能揭示数据中隐藏的行为偏好或时空规律,为决策提供依据。

(三)深入研究阶段(2010 年 – 2020 年左右)

进入这一阶段,大数据技术迅猛发展,能够处理的数据量呈指数级增长,同时人工智能技术尤其是机器学习技术的兴起,为从大规模轨迹和行为数据中发现潜在规则关系提供了更强大的工具。研究方向不仅局限于时空关联和序列模式,还进一步拓展到因果关系的探索以及复杂场景下的规则挖掘。

在机器学习算法的应用方面,监督学习、无监督学习和半监督学习方法都得到了广泛应用。例如,利用监督学习中的分类算法,通过对用户的历史行为数据和对应的结果(如是否购买商品、是否违约等)进行训练,构建预测模型,进而发现影响用户决策的潜在规则;无监督学习中的聚类算法能够对大量的轨迹数据进行聚类,划分出不同的轨迹模式,如通勤轨迹、旅游轨迹等,从而发现不同群体的移动规律。

在因果关系探索方面,研究人员开始尝试运用因果推断方法,如倾向得分匹配、因果图模型等,从大规模数据中区分相关关系和因果关系。例如,在交通领域,通过分析交通流量、天气、交通事故等数据,运用因果推断方法找出导致交通拥堵的真正原因,而不仅仅是与交通拥堵相关的因素。此外,在复杂场景下,如多源数据融合、动态数据处理等方面,相关研究也取得了突破,能够整合不同来源的轨迹和行为数据(如 GPS 数据、手机信令数据、社交媒体数据等),并处理数据随时间动态变化的情况,以更全面、准确地发现潜在规则关系。

(四)智能化与融合化阶段(2020 年至今)

当前,随着深度学习技术的不断成熟以及 5G、物联网等技术的广泛应用,从大规模轨迹和行为数据中发现潜在规则关系的研究进入了智能化与融合化阶段。该阶段的研究更加注重利用深度学习模型处理复杂、高维度的数据,实现对潜在规则关系的智能化挖掘和预测,同时强调多学科、多技术的融合应用。

深度学习模型在处理大规模轨迹和行为数据方面展现出了独特的优势。例如,循环神经网络(RNN)及其变体,如长短期记忆网络 LSTM、门控循环单元 GRU能够有效处理序列数据,适用于分析用户的行为序列和轨迹时序特征,捕捉数据中的长期依赖关系;卷积神经网络(CNN)可以提取轨迹数据中的空间特征,如轨迹的形状、方向等;图神经网络(GNN)则能够将轨迹或行为数据构建成图结构,挖掘数据之间的复杂关联关系,如社交网络中用户行为的相互影响关系。

在多学科融合方面,研究人员将数据科学、计算机科学、统计学、地理学、社会学等多个学科的理论和方法相结合,从不同角度深入探索轨迹和行为数据中的潜在规则关系。例如,结合地理学知识,分析人类轨迹与地理环境(如地形、交通网络、城市规划)之间的关系,发现人类活动的空间分布规律;结合社会学理论,研究用户行为背后的社会心理因素,揭示用户行为的驱动机制。此外,该阶段还注重将挖掘出的潜在规则关系应用于实际场景,如智能交通调度、个性化推荐、公共安全防控等,实现从理论研究到实际应用的转化,为解决实际问题提供更有效的支持。

二、适合该研究方向的具体模型筛选

基于上述历史发展调研,结合从大规模轨迹或行为数据中发现时间、空间、因果等多方面潜在规则关系的需求,以下筛选出一些较为适合的具体模型:

(一)用于时空规则挖掘的模型

  1. 基于 LSTM/GRU 的序列模型
  • 适用场景:适用于处理具有时序特征的轨迹或行为数据,如用户的连续行为序列、车辆的实时行驶轨迹等,能够有效捕捉数据中的长期时间依赖关系,发现时间维度上的潜在规则。
  • 模型优势:LSTM 和 GRU 通过特殊的门控机制,解决了传统 RNN 在处理长序列数据时容易出现的梯度消失或梯度爆炸问题,能够更好地学习序列数据中的时序模式。例如,在分析用户的购物行为序列时,LSTM/GRU 模型可以学习到用户在不同时间点购买商品的偏好变化规律,进而预测用户未来的购物行为。
  • 应用案例:在智能交通领域,利用车辆行驶轨迹的时序数据训练 LSTM/GRU 模型,可以预测车辆未来一段时间内的行驶路线和速度,为交通流量调度提供依据;在电商平台,通过分析用户的浏览、收藏、购买等行为序列,构建 LSTM/GRU 模型,实现对用户未来购买需求的预测,从而进行个性化商品推荐。

RNN 的核心思想是利用序列信息,它能够记住之前的信息,并将其用于当前输出的计算中。
优点:能够处理任意长度的序列,参数共享,模型size不随序列长度增加。
缺点:存在梯度消失和梯度爆炸问题,难以捕捉长期依赖关系

LSTM 是为了解决 RNN 的长期依赖问题和梯度消失问题而提出的。
它通过引入门控机制(输入门、遗忘门、输出门)和记忆单元(cell state)来控制信息的流动,从而有效地记住长期信息。
优点:有效解决了 RNN 的长期依赖问题,缓解了梯度消失问题。
缺点:结构相对复杂,参数较多,计算量较大。

GRU 是 LSTM 的一种简化版本,它将 LSTM 中的输入门和遗忘门合并为更新门,并合并了细胞状态和隐藏状态,从而减少了参数数量,提高了训练效率。
优点:结构更简单,参数更少,训练速度更快,效果与 LSTM 相近。
缺点:在某些任务上可能略逊于 LSTM,尤其是在非常长的序列依赖任务上。

参考论文:DeepMove: Predicting Human Mobility with Attentional Recurrent Networks

核心是通过 “多模态嵌入 + 循环网络 + 历史注意力” 的协同架构

一、输入
核心数据类型:用户的轨迹数据,分为当前轨迹和历史轨迹两类,均以 “时空点” 为基础单元。
具体输入特征:
基础特征:每个时空点包含时间戳(如小时、分钟)、位置 ID(如 POI ID、基站 ID、街区 ID)、用户 ID;
预处理后形式:通过 “多模态嵌入层” 将上述稀疏特征(如用户 ID、位置 ID 的 one-hot 向量)转为低维 dense 向量,作为模型后续模块的直接输入。
二、输出
核心输出目标:用户下一个时空点的位置 ID(因论文固定 30 分钟为时间间隔,简化为仅预测位置,无需额外预测时间)。
输出形式:
原始输出:通过 “带负采样的 softmax 层” 生成所有候选位置的概率分布;
最终结果:取概率最高的位置 ID 作为预测结果(或输出 Top-N 个高概率位置,用于评估 Top-1、Top-5 准确率)。

  1. CNN – LSTM 混合模型
  • 适用场景:当轨迹或行为数据同时包含空间特征和时序特征时,如带有空间位置信息的连续行为数据、具有时空属性的轨迹数据等,CNN – LSTM 混合模型能够同时提取数据的空间特征和时序特征,从而发现时空维度上的潜在规则。
  • 模型优势CNN 擅长提取数据的空间特征,能够从轨迹的空间分布、行为发生的空间位置等方面挖掘特征;LSTM 则能够处理数据的时序信息,捕捉时间维度上的变化规律。将两者结合,可以充分利用各自的优势,更全面地挖掘数据中的时空潜在规则。例如,在分析外卖配送员的配送轨迹数据时,CNN 可以提取配送员在不同区域的停留位置、行驶路线的空间特征,LSTM 则可以学习配送员在不同时间段的配送效率、配送路线选择的时序规律,两者结合能够为优化配送路线、提高配送效率提供更准确的规则支持。
  • 应用案例:在城市规划领域,通过收集居民的出行轨迹数据(包含空间位置和时间信息),利用 CNN – LSTM 混合模型提取居民出行的时空特征,发现居民在不同时间段、不同区域的出行规律,为城市交通线路规划、公共设施布局提供参考;在健康管理领域,分析用户的运动轨迹数据(如跑步路线的空间位置和运动时间序列),采用 CNN – LSTM 混合模型挖掘用户运动的时空模式,为用户制定个性化的运动计划提供依据。
  1. 图神经网络(GNN)模型
  • 适用场景:适用于处理具有网络结构的轨迹或行为数据,如社交网络中用户之间的互动行为数据、交通网络中车辆的行驶轨迹数据等,能够挖掘数据之间的复杂关联关系,发现网络结构中的潜在规则。
  • 模型优势:GNN 能够将数据构建成图结构,其中节点表示轨迹或行为的主体(如用户、车辆),边表示主体之间的关联关系(如用户之间的好友关系、车辆之间的行驶路线关联)。通过对图结构的学学,GNN 可以捕捉节点之间的依赖关系和传播效应,发现网络中的社区结构、关键节点以及潜在的关联规则。例如,在社交网络中,利用 GNN 模型分析用户的行为数据(如点赞、评论、分享等),可以发现用户之间的兴趣关联、信息传播路径等潜在规则,为社交推荐、舆情监控提供支持。
  • 应用案例:在交通网络分析中,将道路交叉口作为节点,道路路段作为边,车辆的行驶轨迹数据与交通网络节点和边相关联,利用 GNN 模型学习交通网络的结构特征和车辆行驶的关联关系,发现交通拥堵的传播规律、关键拥堵节点等潜在规则,为交通疏导和道路规划提供决策支持;在电商社交领域,构建用户 – 商品 – 用户的图结构,基于用户的购买、评价、分享等行为数据训练 GNN 模型,挖掘用户之间的社交推荐规则,实现更精准的商品社交推荐。

(二)用于因果关系挖掘的模型

  1. 因果图模型(如贝叶斯网络)
  • 适用场景:适用于从大规模轨迹或行为数据中探索变量之间的因果关系,尤其在数据存在不确定性和多变量相互影响的情况下,能够清晰地表示变量之间的因果结构,发现潜在的因果规则。
  • 模型优势:贝叶斯网络通过有向无环图的形式表示变量之间的因果关系,节点表示变量(如轨迹数据中的位置、时间、速度,行为数据中的用户特征、行为类型、行为结果等),边表示变量之间的因果依赖关系,并通过条件概率分布定量描述这种依赖关系。它能够处理数据中的不确定性,通过概率推理的方式推断变量之间的因果关系,同时可以对因果关系进行解释和验证。例如,在分析用户购买行为数据时,利用贝叶斯网络可以构建用户特征(如年龄、性别、收入)、商品特征(如价格、品牌、类别)与购买结果之间的因果图,进而发现影响用户购买决策的关键因果因素。
  • 应用案例:在医疗健康领域,收集患者的就医行为轨迹数据(如就诊时间、就诊科室、检查项目、用药情况)以及健康状况数据,构建贝叶斯网络模型,探索不同就医行为和治疗方案与患者健康状况改善之间的因果关系,为医疗决策提供科学依据;在教育领域,分析学生的学习行为数据(如学习时间、学习内容、学习方式)与学习成绩之间的关系,利用贝叶斯网络挖掘影响学生学习成绩的因果因素,为制定个性化的教育方案提供支持。
  1. 倾向得分匹配(PSM)模型
  • 适用场景:主要用于在观察性研究中,当存在混淆变量影响处理效应估计时,通过匹配具有相似倾向得分的处理组和控制组样本,来减少混淆变量的影响,从而更准确地估计处理变量(如某种行为、某个事件)与结果变量之间的因果关系,发现潜在的因果规则。
  • 模型优势:在大规模轨迹或行为数据中,很多情况下无法进行随机对照试验,只能通过观察性数据来研究因果关系,此时容易受到混淆变量的干扰。PSM 模型通过计算每个样本接受处理(如用户选择某种行为、轨迹中发生某个事件)的倾向得分,将处理组中倾向得分与控制组中相似的样本进行匹配,从而在一定程度上消除混淆变量的影响,使处理组和控制组在混淆变量上具有可比性,进而更准确地估计处理效应,发现处理变量与结果变量之间的因果关系。例如,在分析某一促销活动对用户购买行为的影响时,用户是否参与促销活动(处理变量)可能受到用户的历史购买频率、消费能力等混淆变量的影响,利用 PSM 模型匹配参与促销活动和未参与促销活动且倾向得分相似的用户样本,进而更准确地评估促销活动对用户购买金额、购买频率等结果变量的因果效应。
  • 应用案例:在市场营销领域,分析不同营销手段(如广告投放、优惠券发放)对用户消费行为的影响,利用 PSM 模型匹配接受不同营销手段和未接受该营销手段且倾向得分相似的用户样本,挖掘不同营销手段与用户消费金额、消费频次之间的因果关系,为选择更有效的营销策略提供依据;在公共政策评估中,收集居民在政策实施前后的行为轨迹数据(如出行方式、消费习惯等),利用 PSM 模型匹配受政策影响和未受政策影响且倾向得分相似的居民样本,评估政策实施对居民行为的因果效应,为政策调整和优化提供支持。

综述阅读:Deep Learning for Trajectory Data Management

一、引言

  • 轨迹计算定义:含轨迹数据管理与挖掘,应用于定位服务、城市交通等
  • 传统方法局限:计算复杂、可扩展性差、适应性不足
  • 深度学习优势:端到端建模,适配时空不规则数据
  • 综述价值:首篇系统综述,填补现有文献空白

二、基础概念

  • 轨迹数据定义
    • 时空点:(o, t, l, f),含对象、时间、位置、属性
    • 轨迹:时空点按时间排序的序列
  • 轨迹数据分类
    • 对象属性:个体轨迹/群体轨迹
    • 时间属性:稀疏轨迹/密集轨迹
    • 位置属性:原始轨迹/单元轨迹/语义轨迹
  • 轨迹数据特性:时空依赖性、个性化、不规则性
  • 轨迹数据格式转换:矩阵、图、图像
  • 深度学习基础
    • 核心模块:FC、AE、RNN(LSTM/GRU)、CNN、GNN、Attention/Transformer
    • 学习范式:监督/半监督/无监督学习、迁移学习、多任务学习等

三、深度学习在轨迹数据管理中的应用

  • 预处理
    • 轨迹简化:RLTS(强化学习)、S3(注意力Seq2Seq)等
    • 轨迹恢复:DHTR(SubSeq2Seq)、AttnMove(注意力+贝叶斯)等
    • 地图匹配:DeepMM(注意力)、GraphMM(GNN)等
  • 存储
    • 数据库:TrajMesa、Milvus(向量数据库)等
    • 索引与查询:X-FIST(学习型索引)、TraSS等
  • 分析
    • 相似度度量:分无约束空间(t2vec、TrajCL)和路网空间(GTS、SARN)
    • 聚类分析:多阶段法(LSTM-AE+K-means)、端到端法(DETECT、E2DTC)
  • 可视化:DeepHL(注意力)、Surveillance(LSTM)、DSAE等
  • LLMs进展:用于轨迹恢复、合成语义轨迹数据

四、深度学习在轨迹数据挖掘中的应用

  • 轨迹相关预测
    • 位置预测:DeepMove(注意力GRU)、VANext(变分注意力)等
    • 交通预测:ST-ResNet(残差CNN)、DMVST-Net(多视图)等
  • 轨迹相关推荐
    • 旅行推荐:HRNR(神经A*)、GraphTrip(时空图+迁移学习)等
    • 好友推荐:LBSN2Vec(超图嵌入)、MVMN(多视图匹配)等
  • 轨迹分类
    • 出行方式识别:TrajectoryNet(双向GRU)、TrajFormer(Transformer)等
    • 轨迹-用户关联:TULER(RNN)、TULVAE(VAE)等
  • 旅行时间估计(TTE)
    • 轨迹基:DeepTTE(LSTM+地理卷积)、DeepTravel(BiLSTM)等
    • 路网基:WDR(宽深+RNN)、ConSTGAT(GAT)等
  • 异常检测
    • 离线检测:ATD-RNN(RNN+FC)、IGMM-GAN(GAN)等
    • 在线检测:DB-TOD(强化学习)、GM-VSAE(VAE)等
  • 移动生成
    • 宏观动态:基于FC/CNN/RNN/GAN的群体流动生成
    • 微观动态:TSG(GAN)、DiffTraj(扩散模型)、LLM-Mob(LLM)等
  • LLMs进展:用于预测、生成、识别任务,如LLM-Mob(提示工程)、UrbanGPT(流量预测)

五、应用与资源

  • 应用场景
    • 个人服务:绕路检测、拼车、旅行助手等
    • 商业平台:选址、物流配送、订单分配等
    • 政策指导:城市规划、交通管理、疾病防控等
  • 资源
    • 数据集:38个,分连续GPS轨迹(GeoLife、T-Drive)、签到序列(Gowalla、Foursquare)、合成轨迹(SynMob、BerlinMod)
    • 工具包:SUMO(交通仿真)、PyMove(轨迹处理)、TransBigData(交通大数据)等

六、挑战与未来方向

  • 当前挑战
    • 数据:标准化不足、多源语义数据整合难、数据集构建需平衡隐私与多样性
    • 模型:运动行为不确定性建模难、缺乏统一模型、鲁棒性不足
    • 算法:多源数据融合效率低、非端到端设计、轻量化不足
  • 未来方向:从预测到规划(强化学习+多智能体)、解决分布偏移、多模态融合、基础模型/LLMs应用、可解释性提升、隐私安全保护

七、总结

  • 核心贡献:系统综述DL4Traj进展、提出统一分类体系、整合资源、指出未来方向
  • 价值:为研究者提供全面视角,推动轨迹计算领域发展

用ais数据做轨迹预测的参考

Vessel-trajectory-prediction-using-AIS-data
https://github.com/Aditya-Katkuri/Vessel-trajectory-prediction-using-AIS-data

综述库:https://github.com/yoshall/Awesome-Trajectory-Computing?tab=readme-ov-file#trajectory-related-forecasting

ais数据预处理:https://github.com/axyqdm/Ship-trajectory-data-preprocessing-and-analysis

暂无评论

发送评论 编辑评论


				
|´・ω・)ノ
ヾ(≧∇≦*)ゝ
(☆ω☆)
(╯‵□′)╯︵┴─┴
 ̄﹃ ̄
(/ω\)
∠( ᐛ 」∠)_
(๑•̀ㅁ•́ฅ)
→_→
୧(๑•̀⌄•́๑)૭
٩(ˊᗜˋ*)و
(ノ°ο°)ノ
(´இ皿இ`)
⌇●﹏●⌇
(ฅ´ω`ฅ)
(╯°A°)╯︵○○○
φ( ̄∇ ̄o)
ヾ(´・ ・`。)ノ"
( ง ᵒ̌皿ᵒ̌)ง⁼³₌₃
(ó﹏ò。)
Σ(っ °Д °;)っ
( ,,´・ω・)ノ"(´っω・`。)
╮(╯▽╰)╭
o(*////▽////*)q
>﹏<
( ๑´•ω•) "(ㆆᴗㆆ)
😂
😀
😅
😊
🙂
🙃
😌
😍
😘
😜
😝
😏
😒
🙄
😳
😡
😔
😫
😱
😭
💩
👻
🙌
🖕
👍
👫
👬
👭
🌚
🌝
🙈
💊
😶
🙏
🍦
🍉
😣
Source: github.com/k4yt3x/flowerhd
颜文字
Emoji
小恐龙
花!
上一篇
下一篇