基于出租车运营数据和POI数据的出行目的识别

(整期优先)网络出版时间:2018-12-22
/ 2

基于出租车运营数据和POI数据的出行目的识别

方铭

方铭

身份证号码:45010219760618XXXX

摘要:为了有效获取出租车乘客出行目的,提出了一种基于出租车运营数据和POI(PointofInterest)数据的出行目的识别方法。构建了基于乘客出行特征和下车所属POI点类别的乘客出行目的识别模型,该方法从出行特征及乘客下车点最终可能到达的目的地所属POI点类型两个方面确定乘客的出行目的。为了验证所提方法的有效性及实用性,本文对某地区展开了出租车出行调查,并利用调查数据对模型进行了精度验证。

关键词:城市交通;出租车运营数据;POI点数据;出行目的识别

0引言

出租车乘客的出行目的是交通调查中的重要内容,其对城市功能结构规划,城市道路网络规划,交通组织设计及优化具有重要的意义。传统出租车乘客出行目的调查方式主要有旅行日记调查、电话调查、小组调查等人工调查方式。传统的调查方式要求前期准备、试点调查、实地调查、调查结果整理和录入,需要耗费大量的人力和物力。

近年来随着信息设备在交通领域的广泛应用,使得一些原始的交通数据得以自动传输到数据库系统,并保存下来。在这样的背景下,利用已有的原始数据,获取有价值的交通信息成为研究热点。如公交数据方面有:利用公交车IC卡数据分析票价结构,利用公交GPS数据分析公交车运营服务可靠性,融合IC卡数据和GPS数据获取乘客出行需求。

1数据分析及处理

1.1出租车运营数据

本文中所用到的某市出租车数据包含的主要字段为:车辆ID编号,每次触发GPS设备时的时刻,以及在当前时刻下车辆所处位置的经纬度且是否有乘客在车上。表1为某市出租车的部分运营信息表。

表1某市出租车数据库系统记录数据

从上述部分爬取的POI点的信息可知,每个POI点的信息包含其所属类别,具体类别与该POI点的信息功能相对应.由于乘客从下车点到最终目的地的距离处于一定范围内(具体范围为依据调查数据确定),我们将该乘客从下车点到最终目的地所能够容忍的距离定义为半径阈值r,因此,从POI点层面,可以对乘客的出行目的做出相应的判断。我们认为乘客下车之后,可能前往POI2点作为其最终目的地,由于POI1点与下车点的距离大于半径阈值r,乘客将不会选择POI1点作为最终出行目的地。

2出行目的识别模型构建

本文提出的基于出租车数据和POI点数据的出行目的识别方法是从出行特征和所属POI点类别两个层面对出行目的进行识别,然后依据两个层面的识别结果进行综合判断。

2.1出行特征判别

依据出行特征判断出行目的,本质上属于分类问题,目前该问题已经有多种方法可以解决,如神经网络、贝叶斯、决策树、支持向量机、最近邻等方法。由于不同方法的识别效果不同,因此在实际使用过程中需要通过测试,然后选择分类方法。虽然这些方法的原理差别很大,但是这些方法总体都可以表示为依据特征推导对象所属类别,具体到该问题为

式中:purposeai表示乘客i通过其出行特征推断出的出行目的;f表示推断出行特征所用的方法。

2.2下车POI点类别归属

由于出租车具有灵活便利,具备门到门的服务能力,因此在调查中,乘客乘坐出租车出行的“下车点离最终目的地的距离”这一内容进行了调查以确定乘客从下车点到达可能的最终目的地的阀值半径r.因此,依据这个条件,通过POI点层面也可以对其出行目的进行判断,可以表示为

式中:purposepoii为通过下车点可能的POI点归属推断的乘客i的出行目的;typepoi为在特定下车点的距离为r的范围内存在的POI点种类集合;dis(locai,locatypepoi)为乘客i下车点与最终目的地的距离;r为下车点与最终目的地距离阀值。

2.3最终出行目的识别规则

最终出行目的的识别,需要将依据特征识别的出行目的和依据POI点类别识别的出行目的实现有效融合,才能够得到最终的出行目的.将两种不同的方式作为一个集合,则可能出现式(2)~式(5)的情况。

式(7)表示出现两种方式识别不同情况时,采用POI点识别结果为准,但基于POI点识别的结果在非空集的情况下可能存在两种情况,即出现全是同一种出行目的或出现不全为一种出行目的。当全是一种出行目的时,最终出行目的即为该目的;但当出现不同的出行目的时,我们提出了两种方法,其中第1种为统计各类出行目的的数量,并将数量出现最多的类型作为最早出行目的,第2种为以离下车点距离最短的出行目的地类型作为最终出行目的。

3案例分析

3.1数据说明

本文所用到的调查数据为某市随机调查数据,共获得有效的调查问卷1014份,其中调查数据是采用随机确定调查地点,然后安排调查地点进行全天的调查,因此调查数据具有代表性。运营数据为某市2016年8月6~12日1周内所有出租车运营数据,其中出租车运营数据每天时段为6:00-24:00,每天该时段出租车自动记录的数据约4000000条。选择该时间区间的数据是因为本文旨在探索非节假日的出租车乘客出行目的,而所选择的这1周没有特殊的节假日,所以所选取的样本具有代表性。

3.2调查数据模型验证

3.2.1分类方法测试

为了测试不同分类方法对于本问题的适用性,结合调查数据采用不同的分类方法对出行目的识别精度进行验证,结合Matlab工具包,采用十折交叉验证方法,最终识别效果如图1所示

图1不同识别方法的识别准确度

通过图1的识别结果可知,不同的识别模型其识别精度差别较大,从47%到65.7%,识别准确度最高的为决策树,因此,我们对决策树的识别结果的混淆矩阵进行了分析,以获得具体类别识别准确率的情况,具体混淆矩阵如表4所示。

表4决策树识别结果的混淆矩阵

从上述决策混淆矩阵的误识别分析可知,某些不同出行目的由于其出行特征较为类似(上班和上学、休闲娱乐与购物和医疗等),因此,仅仅依靠出行特征进行识别,容易出现较大的误识别率。针对这个问题,我们提出基于出租车运营数据和POI点数据的出行目的综合识别方法。

3.2.2本文方法应用及对比分析

由于在上述6种不同的识别方法中决策树的识别准确率最高,因此在出行特征层面的出行目的识别方法仍采用决策树,然后结合乘客下车POI点半径阈值r内的可能目的地的POI点类型进行综合决策。为了进行对比,数据集及识别准确度的验证方法与上述一致,依据本文2.3节中的最终识别规则得到的对比识别结果如图2所示。

图2文献[19]和[21]及本文方法识别精准度对比

其中决策树+POI(I)为式(8)的出行目的的决策方法,决策树+POI(II)为式(9)的出行目的的决策方法。通过上述不同方法的结果对比分析可知,本文提出的在现有的出行特征识别出行目的基础上融合下车点所属POI点信息的出行目的决策方法具有明显的优势,相比现有的出行特征估计出行目的的方法,所提出的决策树+POI(I)能够提高6.31%的识别准确率,决策树+POI(II)能够提高15.76%的识别准确率。

4结论

本文提出了一种基于出租车运营数据及POI点数据的出租车乘客出行目的识别方法,该方法通过调查数据进行验证,并最终应用于实际的数据中,可得到如下结论:

(1)通过数据实验表明,本文所提出的基于出车组运营数据及POI点数据的出租车乘客出行目的识别方法,与现有的仅仅根据出租车运营数据识别乘客出行目的的方法相比,能够显著提高其识别精度。

(2)在所提出的方法中,针对实际数据量较大的问题,我们改进了判断预定半径阀值范围内出现的POI点的获取算法,结合地理知识,将距离判断转化为经纬度差判断,能够非常显著节约计算机计算时间,使所提出的方法能够有效运用于实践。

参考文献

[1]丁涛杰,史殿习,李永谋.基于出租车GPS数据的道路平均速度估计方法[J].计算机技术与发展,2015,25(7):15-19.

[2]姜桂艳,常安德,李琦,等.基于出租车GPS数据的路段平均速度估计模型[J].西南交通大学学报,2011,46(4):638-644.

[3]白竹,王健,胡晓伟.城市出租车系统运营效率评价研究[J].交通运输系统工程与信息,2014,14(3):227-233.