作者:张毅
从手机数据中获取居民活动信息,已经成为城市规划、交通规划等相关领域的热点。但现有成果多集中于手机通话数据(打电话或发短信),而此类数据往往具有很大的随机性,对于居民活动的时空特征的描述准确性很低。本文使用的手机信令数据,是一种包含信息更丰富的手机数据,能够更好地反应用户的活动特征。此外,一些研究将手机数据与其它数据相结合来提取居民活动特征,比如与土地使用类型、城市主要路口视频数据,但这无疑很大程度的增大了数据处理分析的难度,实际可行性不高。
1 研究数据与预处理
1.1 原始数据概况
本研究使用的是上海市2011年9月的手机信令数据,通过采样分析的方法,从上海市范围内随机提取了1496人作为研究对象(共6441389条)。与国内外的其它手机数据相比,本文使用的数据有着明显的优势,信令事件类型比较全面,可以有效提高用户位置识别的精确度。原始数据(见表1)包含CellularID(用户唯一识别号,经过单项加密)、DateTime(时间戳,信令发生的时间)、LAC(位置区编号)、CI(基站小区编号),LAC与CI唯一标识基站小区。根据LAC和CI,我们可以识别出该条数据的位置(即经纬度坐标),进而,根据时间的连续变化,我们能够还原出用户的出行链信息。
本文随机抽取了上海市内1496个用户作为研究样本。因为不同人群使用手机的频率不同,此外,由于数据为2011年,一部分人群(如老年人)对手机的使用率及依赖程度较低,导致不同人群的信令数据数量密度差异度较高,反应在数据上,便是在所研究的2011年9月共30天中,不同用户出现的天数不同(见图1)。
1.2数据预处理
一部分手机信令数据缺少相应的经纬度坐标,导致一部分数据无效(删除无效数据后,剩余人数为1451人)。为了规避乒乓切换现象(手机在服务小区与相邻小区间会来回进行handover),采取栅格化和分箱法来解决此问题,时间间隔选取为10分钟。然后通过逐行相减的方法得到每一个用户在每一个位置的停留时间(单位:秒)以及停留点的经纬度坐标(见表2,Lat为纬度,Lon为经度)。
2 时间阈值法识别居民居住地
时间阈值法是此类研究中经常用到的一种方法,通常将居民每天夜间停留时间超过阈值时间且一个月内出现次数大干阈值次数的停留点,作为居民的居住地,具体识别规则如下。
(1)夜间时间规定为8:OOpm~次日8:OOam共12个小时,在此时间段内用户在停留点A停留时间超过X个小时。
(2)在一个月的观察周期内,停留点A符合规则(1)的天数超过Y天。
根据具体情况,我们可以通过确定不同组合的X小时与Y天数,来识别研究样本的居住地(见表3、图2)。
我们看到,对于不同的X和Y的值,识别结果差异较大,因此,此种方法并不是非常准确。但是,在要求不是非常严格的情况下,此种方法有一定的实用性。比如,每天停留时间超过5小时,重复天数10天以上,是能够作为居住地的识别标准的(即X=5,Y=10)。此时对于研究样本的识别率为74.7%。此外,1496人中,出现天数不足10天的共有210人(见图1),这些用户对手机的使用程度以及依赖程度较低,考虑到数据为201 1年,一部分老人可能对手机依赖程度不高,固其使用天数虽然很少,但如果以停留时间相对值作为识别居住地的标准,这210人中将有很大一部分用户的居住地将能够识别出来。但是由于这210人中,还包含有外地来沪旅游、出差等人群,用停留时间相对值很难将其与常住老人区别开来,故此文未进行讨论。
3根据信息熵识别居民居住地
香农(C.E.Shannon)在1948借鉴热力学的概念,把信息熵定义为信息中排出了冗余后的平均信息量。我们将所研究的每个手机用户作为信息源来考虑,则其在每一个位置停留的时间长短以及位置之间的变化频率变可以作为一种信息量来研究。由此,我们便可以定义每一个用户在研究时间段内(30天)的信息熵如下。
将每个用户个体作为信号源:Xi(本研究中i=1~1496),假设信号源X,在研究的时段内共在n个位置停留过,则将其每一个停留位置作为一个信源输出符号Uj(j=1~n),相对应的概率为Pij=Tij/T,其中Tij为用户Xi在停留点/的停留时间,T为研究时间段总时间。则信息熵为(公式1):
信息熵值的单位为“比特”,大小表示了所研究个体活动强度,其值越小表示该个体越稳定。如一个个体在所观测时间段内,没有任何移动(即一直停留在同一个在位置),那么该个体在所观测时间段内的信息熵为零,而个体移动的越频繁,则其信息熵值越大。为了能够直观的反应出个体的运动强度,表4给出了一些信息熵的参考值。
针对我们所研究的问题,绝大多数居民在0:00~6:00之间,应该处于睡眠状态,因此,在这一时间段居民的信息熵值应该较小,而相应的空间位置应该属于该用户的居住地。因此,我们计算了研究样本在该时间段的信息熵值,结果见图3。
根据表4的情景4,我们假设在时间段0:00~6:00内,一个用户如果提前出门半小时或者晚归半小时,其信息熵也应小于3.71(如果一直停留在家,则熵值为0),因此,我们可以将3.5作为判断识别用户居住地的标准,即若H(i)≤3.5,则可以判断该地点为居住地。此时的识别率为94.1%,如果将该标准严格到3,则88.9%的识别也是非常理想的。
为了进一步直观的描述此方法,图4给出了所研究样本2011年9月3日~2011年9月30日完整的四个星期的信息熵变化情况的热力图。
图4中,横坐标为一天的0~24小时,纵坐标为2011年9月3号至30号(其中该月的3、4、10、11、17、18、24、25为周末)。蓝色代表熵值很小,个体处于稳定状态(很少移动,最小值为0),而红色代表个体处于活跃状态。我们可以看出,在早6点之前,颜色几乎为深蓝色,表明用户基本处于静止状态。因此,我们可以将在该时间段内信息熵很小的地点作为用户的居住地。
4根据相对停留时间识别居住地
绝大多数居民,在所观测时间段内(0:00~6:00),都处于休息、睡眠状态。在这段时间,居民应该主要停留在居住地,因此,我们可以计算居民在每个停留点的相对停留时间,作为识别居民居住地的指标。样本i(i=l,2,……,1496)在停留点j(j=l,2,……,J)的相对停留时间为:
试中,Tji为样本i在停留点j总的停留时间。因此,我们有
针对每一个居民,我们选取使得P取值最大的j作为居民的居住地,即:
表5给出了5个样本的前5个P的取值(按照由大到小排列),我们可以发现,通常每个用户的最大的相对停留时间要远大干其它相对停留时间。
按照这种方法,我们能够将所有用户的居住地识别出来。但是,这种方法忽视了上夜班或者作息不规律的一部分人,可能将其的工作地错误的识别为居住地。但考虑到此类情况在居民中所占比例不大,这种方法在一定误差范围内也能够被接受。
5结论
本文基于手机信令数据,通过3种不同的方法,对1496个研究样本的居住地进行了识别,并得到了以下结论。
(1)现有文献中最常用的方法为时间阈值法,但经过本文的讨论,发现不同的时间阈值对于识别结果差异很大。因此,时间阈值法并不是一个非常科学、严谨的方法,不建议在此类问题中使用该方法。
(2)信息熵能够体现出一个个体在所观测时间段内的运动情况。由于居民在夜间休息时与在白天时的活动情况迥然不同,因此,通过信息熵来识别居民居住地是一个非常理想的方法,而且识别率较高。
(3)时间相对值判别法能够将所有研究样本的居住地识别出来。但是,由于部分居民的工作时间为夜间,也有些居民的作息时间极不规律,因此,此种方法会有一定的错误率。但介于这一部分的人群数量不是很大,这种方法也有一定的可行性。
大数据背景下的交通问题都有了新的思路与研究方法。对于通勤交通与职住分布来说,能够通过新型数据找到问题突破口,能够避开传统数据的须多弊端。本文研究了手机信令数据在识别居民居住地问题上的表现,下一步的工作将对工作地进行识别,并研究居民相应的通勤与职住分布情况。
6【摘要】
从大量手机数据中提取居民活动的时空特征是大数据趋势下的新兴热点。然而现有的研究主要使用的是手机通话数据或者手机定位数据,并且许多研究缺乏相关验证,使得研究可信度不高。本文基于手机信令数据,通过3种方法对居民职住地进行识别分析,并对比不同方法之间的差异,研究探讨通过手机大数据对于居民职住地识别的可信性。
下一篇:返回列表