摘要:为解决大数据中地铁消费出行记录识别精度不足、专项研究受限的问题,弥补传统随机抽样CLARA(Clustering Large Applications)聚类算法在稀有模式(小簇)识别上的缺陷,提出一种结合自适应抽样CLARA算法与多源数据融合的稳健分析模型。首先,构建基于密度感知的自适应抽样策略,利用高斯型核函数对地铁消费出行链数据进行密度估计,引入指数衰减函数提升低密度稀有模式样本的入样概率。其次,通过对大簇和小簇分别进行簇心稳定性检验,设计一种动态判定的自适应抽样终止机制。进而,构建融合外部调查真值的“校验-反馈-修正”闭环体系,并嵌入算法框架。最后,以上海地铁徐家汇站为例进行实证研究。结果表明:改进后的CLARA较k-medoids和传统CLARA,总体聚类准确率提升2%-8%,小簇识别准确率提升8%-32%,聚类结果与问卷数据类别分布偏差仅为4.21%,且与两类典型过采样聚类方法相比,在综合性能上取得了更好的平衡。算法从含噪数据中识别出8类工作日地铁消费出行链,并基于此识别出商圈潜在目标人群为:在12:00-15:30时段距离商圈6公里或25分钟行程内的办公人群,以及19:30-21:30时段距离商圈17公里或45分钟行程内的居民。经量化验证,针对该人群实行高密度、短停站等行车措施可带来13%-22%的消费出行潜在增量。所提方法为从含噪大数据中稳健识别出行模式提供了解决方案,并为精准理解地铁消费出行及促进地铁与商业协同优化奠定基础。