基于手机大数据实时采集人口空间分布与大客流预警方法
【技术领域】
[0001] 本发明涉及一种基于海量匿名加密手机大数据实时采集城市人口空间分布数据, 并在客流量较大(接近区域人口承载极限)时及时发出预警信息的方法,用于高频度、自动 化地获取城市人口空间分布数据,可为城市运营管理、城市规划以及政策评估与制定等工 作服务,属于城市运营管理与城市规划的技术领域。
【背景技术】
[0002] 区域人口、资源与环境的协同发展是经济社会发展的趋势之一,而将人口、资源、 环境及其他经济社会信息融合进行综合分析,是解决区域人口、资源与环境问题的基本条 件。要实现人口、资源与环境等信息的融合,则首先要解决人口分布的空间化问题。
[0003] 传统的人口分布数据,仅能通过多年一次的人口普查获取,数据的时效性极为有 限,也无法反映人口分布的动态迀徙变化情况。
[0004] 随着移动通信技术发展,手机终端的迅速普及,移动基站信号基本覆盖了人类所 能活动到的空间范围。在数据脱敏,滤除用户隐私的基础上,海量匿名手机用户的大规模加 密位置数据,为城市空间活动分析提供了持续、可靠的数据源。通过对城市不同空间范围内 的人口持续跟踪,有效监测分析城镇群间人口流动规律、城市内不同区域间客流交换规律 等,才能把握当今城市化进程发展的演变情况,研究好土地开发、产业转移与人口迀徙之间 的内在机理。
【发明内容】
[0005] 本发明的目的是提供一种城市广域空间范围的全方位实时人口空间热力分布数 据获取方法,更进一步,提供一种对客流量较大的空间区域提供及时预警的方法。
[0006] 为了达到上述目的,本发明的技术方案是提供了一种基于手机大数据实时采集人 口空间分布与大客流预警方法,其特征在于,包括以下步骤:
[0007] 步骤1、在每个统计时刻,从手机通信运营商实时获取带有脱敏加密后的匿名加密 手机用户时间序列的加密位置信息的实时手机大数据,当前统计时刻,对每个EPID进行实 时位置跟踪处理分析,判断该EPID是否在跟踪范围内,放弃跟踪已经离开目标区域的EPID 或是无法识别轨迹的EPID,在此基础上,从而得到每个EPID当前统计时刻所在的最新空间 位置;
[0008] 步骤2、将目标区域划分为不同的空间区域,在当前统计时刻,将步骤1得到的每个 EPID的最新空间位置映射至目标区域的各空间区域;
[0009] 步骤3、统计当前统计时刻各个空间区域内的所有EPID的出现概率,得到各个空间 区域的手机终端总量,根据有效手机终端样本比例、人均随身手机持有比例与移动通信运 营商市场占有比例,放样至总体人群,最后,得到当前统计时刻各个空间区域内的真实人口 数量,即总体人口在整个目标区域的分布情况。
[0010] 优选地,所述步骤1包括:
[0011] 步骤1.1、在每个统计时刻,从手机通信运营商实时获取带有脱敏加密后的匿名加 密手机用户时间序列的加密位置信息的实时手机大数据;
[0012] 步骤1.2、进行坐标解密转换,至少得到每个EPID的真实经度坐标L0N、真实炜度坐 标LAT、空间误差范围SR;
[0013] 步骤1.3、在当前统计时刻,对于新获取的实时手机大数据中已经出现过的EPID, 以其在当前统计时刻之前最新出现的位置作为当前统计时刻该EPID所在位置;对于新获取 的实时手机大数据中未出现的EPID,进行长时间无数据模式分析,过滤无法跟踪的EPID,保 留在常活跃区域无数据的EPID至该EPID后续出现新的脱敏加密后的匿名加密手机用户时 间序列的加密位置信息或是次日出行活跃时刻,从而,得到每个EPID当前统计时刻的真实 经度坐标L0N、真实炜度坐标LAT、空间误差范围SR,其中:
[0014] 无数据模式分析,是对一定时期内无数据的每个EPID,判断其是否已经离开目标 区域或是无法跟踪,分析规则为:若某个EPID历史最新时刻距离当前统计时刻的时间< = 移动网络定期问询时长,认为该EPID仍在上一位置内未移动;若某个EPID历史最新时刻距 离当前统计时刻的时间>移动网络定期问询时长,且历史最新时刻位置为常活跃地范围, 当前统计时刻为夜间,则认为该EPID可能在常活跃区域手机没电或关机,最后时刻位置作 为当前统计时刻所在位置,对此类无数据模式的持续至该EPID后续出现新的手机数据或是 次日出行活跃时刻;其它情况,认为若无法跟踪,不再保留该EPID的位置数据。
[0015] 优选地,所述实时手机大数据内容包括:EPID、TYPE、??ME、真实经度坐标LON、真实 炜度坐标LAT、空间误差范围SR,其中:
[0016] EPID是手机通信运营商对每个手机用户进行单向不可逆加密,从而唯一标识每个 手机用户,且不暴露用户号码隐私信息,要求每个手机用户加密后的EPID保持唯一性,即任 意时刻各手机用户的EPID保持不变且不与其它手机用户重复;
[0017] TYPE,是当前记录所涉及的手机网络动作类型;
[0018] TIMESTAMP是当前记录所涉及的手机网络动作发生时刻;
[0019] 当前手机用户出现在以真实经度坐标L0N、真实炜度坐标LAT为中心点,空间误差 范围SR为半径的空间范围内。
[0020] 优选地,所述步骤2具体包括:
[0021 ]利用GIS面域相交分析功能,将每个EPID当前统计时刻所在的真实经度坐标L0N、 真实炜度坐标LAT、空间误差范围SR映射至目标区域的各空间区域,映射规则为:认为每个 EPID当前目标分析时刻在以真实经度坐标L0N、真实炜度坐标LAT为圆心,空间误差范围SR 为半径的空间范围内出现概率相同,利用GIS面域相交分析功能,得到此圆形空间范围与目 标区域的各空间区域各自的相交面域面积,并将各个相交面积占此圆形空间范围的比例作 为该EPID当前统计时刻在各空间区域的出现概率。
[0022] 优选地,还包括;
[0023] 步骤4、根据各个空间区域人口承载面积,实时计算各个空间区域的人口密度,根 据是否超出极限人口密度阈值与超出阈值后的持续时长,判断是否发出预警信息。
[0024] 优选地,在所述步骤4中:
[0025] 所述预警信息包括:不预警、黄色预警、红色预警,其中,黄色预警人口密度阈值= 极限人口密度X 70% ;红色预警人口密度阈值=极限人口密度X 80%,预警规则为:
[0026] 不预警:当前统计时刻区域内人口密度未超出黄色预警人口密度阈值;
[0027] 黄色预警:当前统计时刻区域内人口密度超出黄色预警人口密度阈值;
[0028] 红色预警:当前统计时刻区域内人口密度超出红色预警人口密度阈值,且当前区 域超出黄色预警人口密度阈值的持续时长超过设定时长。
[0029] 本发明的优点是:充分依托现有的手机大数据资源,利用移动通信网络中已有海 量匿名手机用户持续的加密位置信息,即能低成本、高频度、自动化实施且部署迅速地持 续获取大范围城市空间范围内的人口分布数据。
[0030] 本发明所构建方法,同样适用于各类APP采集互联网数据分析城市人口空间分布, 如微博,微信等社交APP或导航地图APP等。
【附图说明】
[0031 ]图1为手机大数据实时采集人口空间分布技术流程示意;
[0032] 图2为手机大数据实时采集人口空间分布用于大客流预警的流程示意。
【具体实施方式】
[0033] 为使本发明更明显易懂,兹以优选实施例作详细说明如下。
[0034] 实施例
[0035] 步骤1、从手机通信运营商实时获取实时匿名加密手机数据,利用专用解密模块, 进行坐标解密转换,并将其实时映射至具体的
城市地理空间位置,解密后的数据内容包括, EPID(匿名单向加密全球唯一移动用户标识码,EncryPtioninternational mobile subscriber IDentity)、TYPE(当前记录所涉及的手机网络动作类型)、TIMESTAMP(当前记 录所涉及的手机网络动作发生时间戳)、L0N(真实经度坐标)、LAT(真实炜度坐标)、SR(空间 误差范围)。
[0036] 本实施例解密后的数据如下表1所示。
[0037] 表1:解密后新接收的实时手机数据。
[0039]^对当前目标分析时刻,新接收手机数据内出现过的EPID以其在目标分析时刻之前 最新出现的位置作为当前目标分析时刻该EPID所在位置;而新接收手机数据内未出现的 EPID,对这些EPID进行长时间无数据模式分析,过滤无法跟踪的EPID,保留在常活跃区域无 数据的EPID至该EPID后续出现新的手机数据或是次日出行活跃时刻。从而,得到每个EPID 当前统计时刻所在空间位置LON、LAT、SR。
[0040]无数据模式分析,是对一定时期内无数据的根据每个EPID,判断其是否已经离开 当前城市或是无法跟踪。分析规则为:若某个EPID历史最新时刻距离当前目标分析时刻的 时间< =移动网络定期问询时长,认为该EPID仍在上一位置内未移动;若某个EPID历史最 新时刻距离当前目标分析时刻的时间>移动网络定期问询时长(根据当地移动通信运营商 服务器位置更新或路由更新等相关业务的配置确定,一般可设为半小时),且历史最新时刻 位置为其常住地或工作地等常活跃地范围(历史最新时刻位置圆形覆盖范围与常活跃地圆 形覆盖范围相交面积>〇),当前时刻为夜间,则认为该EPID可能在常活跃区域手机没电或 关机,最后时刻位置作为当前时刻所在位置,对此类无数据模式的持续至该EPID后续出现 新的手机数据或是次日出行活跃时刻(如,第二天上班出发时刻07:30,根据各个城市作息 习惯确定);其它情况,认为若已经离开当前城市或其它原因等无法跟踪,不再保留该EPID 的位置数据(后续若新接收手机数据中再次出现该EPID,则按以上规则重新跟踪)。
[0041 ]本实施例当前目标分析时刻为2015-01 -02 01: 00 :00,新接收数据中未出现的 EPID,其当前目标分析时刻未处理的历史最新位置,如下表2所示。
[0042]表2:新接收数据中未出现的EPID历史最新位置
[0044] 在当前目标分析时刻2015-01-02 01:00:00,本实施例按以上处理要求,实时手机 数据中出现与未出现的每个有效EPID最新位置如下表3。
[0045]表3:当前目标分析时刻,每个有效EPID最新位置
[0048] 本实施例处理的具体过程描述如下:
[0049] 表1中EPID(el)是新接收数据中出现的EPID,新接收数据中该EPID有REC0RD(rl- l)、REC0RD(rl)两条记录,距离2015-01-02 01:00:00的时间间隔分别为3min、2min,因此, 选择RECORD(rl)对应记录作为其在当前目标分析时刻2015-01-02 01:00:00之前的最新位 置;
[0050]表1中EPID(e2)也是新接收数据中出现的EPID,其在当前目标分析时刻2015-01_ 02 01:00:00之前的最新位置为RE⑶RD(r2-l)对应的位置。而RE⑶RD(r2)对应记录在目标 分析时刻2015-01-02 01:00:00之后,留待后续时刻处理;
[0051 ]表2中EPID(e3)是新接收数据中未出现的EPID,距离当前目标分析时刻2015-01_ 02 01:00:00的时间=20 ' 49" <移动网络定期问询时长30miη,以RECORD(r3)对应记录作为 EPID(e3)在目标分析时刻所在位置;
[0052]表2中EPID(e4)是新接收数据中未出现的EPID,REC0RD(r4)距离当前目标分析时 刻2015-01 -02 01:00:00的时间 >移动网络定期问询时长30min,且RECORD(r4)对应圆形覆 盖范围与EPID (e4)常住地或工作地常活跃地圆形覆盖范围的相交面积> 0,以RE⑶RD (r4) 对应记录作为EPID(e4)在目标分析时刻所在位置;
[0053]表2中EPID(e5)是新接收数据中未出现的EPID,REC0RD(r5)距离当前目标分析时 刻2015-01 -02 01:00:00的时间 >移动网络定期问询时长30min,但RECORD(r5)对应圆形覆 盖范围与EPID(e5)常住地或工作地常活跃地圆形覆盖范围无相交,EPID(e5)可能已经离开 上海或轨迹无法确定,不再跟踪。
[0054]步骤2、对当前目标分析时刻,利用GIS面域相交分析功能,将每个EPID当前目标分 析时刻所在空间位置L0N、LAT、SR映射至具体城市空间区域(如网格或管理单元)。映射规则 为:认为每个EP ID当前目标分析时刻在以LON、LAT为圆心,SR为半径的空间范围内出现概率 相同,利用GIS面域相交分析功能,得到此圆形空间范围与各个具体城市空间区域(如网格 或管理单元)各自的相交面域面积,并将各个相交面积占此圆形空间范围的比例作为,该 EPID当前目标分析时刻在各个具体城市空间区域(如网格或管理单元)的出现概率。
[0055]本实施例中,EPID( el)与4个城市空间网格相交,根据GIS相互交叉面积分析,得到 4部分相交面积及其占 EPID(el)覆盖范围的比例如下表4,以各自相交面积占 EPID(el)覆 盖范围的比例作为EPID( el)在4个网格的出现概率。
[0056]表4:当前目标分析时刻,某个有效EPID在各个城市空间区域的出现概率分析
[0058]步骤3、统计当前目标分析时刻各个具体城市空间区域(如网格或管理单元)内的 所有EPID的出现概率,得到各个具体城市空间区域的手机终端总量,根据有效手机终端样 本比例、人均随身手机持有比例与移动通信运营商市场占有比例,放样至总体人群(即,除 了持有手机终端的用户,还包括老人、儿童等无手机群体,同时,解决一人随身持有多部手 机的问题),最后,得到当前目标分析时刻各个城市空间区域内的真实人口数量,即总体人 口在城市空间的分布情况。
[0059] 本实施例中,例如某个城市网格GRID(ml,nl)在2015-01-02 01:00:00时,共涉及 NUMBERSofEPID(ml,nl)个 EPID,每个 EPID 在 GRID(ml,nl)的出现概率为 PERCENTofEPID(e, ml,nl),这样2015-01-02 01:00:00时刻在该网格GRID(ml,nl)内的手机终端总量为2000。
[0061]有效手机终端样本比例是指真正使用或处理的数据量,例如新接收数据为100GB, 但由于系统实时性要求,只处理了50%即50GB数据,此时有效手机终端样本比例仅为50% ; 人均随身手机持有比例与移动通信运营商市场占有比例在一段时期内均相对固定,本实施 例中分别为125% (平均每100人持有125部手机终端)与68% (从城市通信管理局等相关机 构获取,表示移动运营商总活跃手机用户/城市总的活跃手机用户X 100%)。
[0062] 这样,当前目标分析时刻2015-01-02 01:00:00该网格GRID(ml,nl)的真实人口数 量=2000/125%/68% ? 2353人。
[0063]步骤4、根据各个区域人口承载面积(在无法获取时,使用区域的城市建设用地面 积),实时计算各个城市空间区域的人口密度。
[0064] 本实施例,网格GRID(ml,nl)人口承载面积为0.5平方公
里,网格GRID(ml,nl)的人 口密度= 2353人/0.5平方公里》4706人/平方公里。
[0065]根据是否超出极限人口密度阈值与超出阈值后的持续时长,判断是否发出预警信 息,如,不预警、黄色预警、红色预警。
[0066]设定:黄色预警人口密度阈值=极限人口密度X 70% ;红色预警人口密度阈值= 极限人口密度X80%。本发明阈值仅供参考,具体阈值需要根据实际管理需求调整。
[0067]预警规则为:
[0068] 红色预警:当前目标分析时刻区域内人口密度超出"红色预警人口密度阈值",且 当前区域超出"黄色预警人口密度阈值"的持续时长超过15分钟;
[0069] 黄色预警:当前目标分析时刻区域内人口密度超出"黄色预警人口密度阈值";
[0070] 不预警:当前目标分析时刻区域内人口密度未超出"黄色预警人口密度阈值";
[0071 ] 本实施例,黄色极限人口密度阈值设为2.4万人/平方公里,红色极限人口密度阈 值设为2.8万人/平方公里,当前目标分析时刻2015-01-02 01:00:00网格GRID(ml,nl)内的 人口密度4706人/平方公里<黄色极限人口密度阈值,当前目标分析时刻2015-01-02 01: 00:00该网格GRID(ml,nl)不预警。
[0072]以上所述,仅为本发明的【具体实施方式】,但本发明的保护范围并不局限于此,任何 熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵 盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。
【主权项】
1. 一种基于手机大数据实时采集人口空间分布与大客流预警方法,其特征在于,包括 以下步骤: 步骤1、在每个统计时刻,从手机通信运营商实时获取带有脱敏加密后的匿名加密手机 用户时间序列的加密位置信息的实时手机大数据,当前统计时刻,对每个EPID进行实时位 置跟踪处理分析,判断该EPID是否在跟踪范围内,放弃跟踪已经离开目标区域的EPID或是 无法识别轨迹的EPID,在此基础上,从而得到每个EPID当前统计时刻所在的最新空间位置; 步骤2、将目标区域划分为不同的空间区域,在当前统计时刻,将步骤1得到的每个EPID 的最新空间位置映射至目标区域的各空间区域; 步骤3、统计当前统计时刻各个空间区域内的所有EPID的出现概率,得到各个空间区域 的手机终端总量,根据有效手机终端样本比例、人均随身手机持有比例与移动通信运营商 市场占有比例,放样至总体人群,最后,得到当前统计时刻各个空间区域内的真实人口数 量,即总体人口在整个目标区域的分布情况。2. 如权利要求1所述的一种基于手机大数据实时采集人口空间分布与大客流预警方 法,其特征在于,所述步骤1包括: 步骤1.1、在每个统计时刻,从手机通信运营商实时获取带有脱敏加密后的匿名加密手 机用户时间序列的加密位置信息的实时手机大数据; 步骤1.2、进行坐标解密转换,至少得到每个EPID的真实经度坐标LON、真实炜度坐标LAT、空间误差范围SR; 步骤1.3、在当前统计时刻,对于新获取的实时手机大数据中已经出现过的EPID,以其 在当前统计时刻之前最新出现的位置作为当前统计时刻该EPID所在位置;对于新获取的实 时手机大数据中未出现的EPID,进行长时间无数据模式分析,过滤无法跟踪的EPID,保留在 常活跃区域无数据的EPID至该EPID后续出现新的脱敏加密后的匿名加密手机用户时间序 列的加密位置信息或是次日出行活跃时刻,从而,得到每个EPID当前统计时刻的真实经度 坐标LON、真实炜度坐标LAT、空间误差范围SR,其中: 无数据模式分析,是对一定时期内无数据的每个EPID,判断其是否已经离开目标区域 或是无法跟踪,分析规则为:若某个EPID历史最新时刻距离当前统计时刻的时间 <=移动 网络定期问询时长,认为该EPID仍在上一位置内未移动;若某个EPID历史最新时刻距离当 前统计时刻的时间〉移动网络定期问询时长,且历史最新时刻位置为常活跃地范围,当前统 计时刻为夜间,则认为该EPID可能在常活跃区域手机没电或关机,最后时刻位置作为当前 统计时刻所在位置,对此类无数据模式的持续至该EPID后续出现新的手机数据或是次日出 行活跃时刻;其它情况,认为若无法跟踪,不再保留该EPID的位置数据。3. 如权利要求1所述的一种基于手机大数据实时采集人口空间分布与大客流预警方 法,其特征在于,所述实时手机大数据内容包括:EPID、ΤΥΡΕ、??ΜΕ、真实经度坐标LON、真实 炜度坐标LAT、空间误差范围SR,其中: EPID是手机通信运营商对每个手机用户进行单向不可逆加密,从而唯一标识每个手机 用户,且不暴露用户号码隐私信息,要求每个手机用户加密后的EPID保持唯一性,即任意时 刻各手机用户的EPID保持不变且不与其它手机用户重复; TYPE,是当前记录所涉及的手机网络动作类型; HMESTAMP是当前记录所涉及的手机网络动作发生时刻; 当前手机用户出现在以真实经度坐标LON、真实炜度坐标LAT为中心点,空间误差范围SR为半径的空间枢围内。4. 如权利要求1所述的一种基于手机大数据实时采集人口空间分布与大客流预警方 法,其特征在于,所述步骤2具体包括: 利用GIS面域相交分析功能,将每个EPID当前统计时刻所在的真实经度坐标L0N、真实 炜度坐标LAT、空间误差范围SR映射至目标区域的各空间区域,映射规则为:认为每个EPID 当前目标分析时刻在以真实经度坐标L0N、真实炜度坐标LAT为圆心,空间误差范围SR为半 径的空间范围内出现概率相同,利用GIS面域相交分析功能,得到此圆形空间范围与目标区 域的各空间区域各自的相交面域面积,并将各个相交面积占此圆形空间范围的比例作为该 EPID当前统计时刻在各空间区域的出现概率。5. 如权利要求1所述的一种基于手机大数据实时采集人口空间分布与大客流预警方 法,其特征在于,还包括; 步骤4、根据各个空间区域人口承载面积,实时计算各个空间区域的人口密度,根据是 否超出极限人口密度阈值与超出阈值后的持续时长,判断是否发出预警信息。6. 如权利要求5所述的一种基于手机大数据实时采集人口空间分布与大客流预警方 法,其特征在于,在所述步骤4中: 所述预警信息包括:不预警、黄色预警、红色预警,其中,黄色预警人口密度阈值=极限 人口密度X70 % ;红色预警人口密度阈值=极限人口密度X80 %,预警规则为: 不预警:当前统计时刻区域内人口密度未超出黄色预警人口密度阈值; 黄色预警:当前统计时刻区域内人口密度超出黄色预警人口密度阈值; 红色预警:当前统计时刻区域内人口密度超出红色预警人口密度阈值,且当前区域超 出黄色预警人口密度阈值的持续时长超过设定时长。
【专利摘要】本发明的目的是提供一种基于手机大数据实时采集人口空间分布与大客流预警方法,其特征在于,包括以下步骤:在每个统计时刻,从手机通信运营商实时获取实时手机大数据;将目标区域划分为不同的空间区域,在当前统计时刻,将步骤1得到的每个EPID的最新空间位置映射至目标区域的各空间区域;得到当前统计时刻各个空间区域内的真实人口数量,即总体人口在整个目标区域的分布情况。本发明的优点是:充分依托现有的手机大数据资源,利用移动通信网络中已有海量匿名手机用户持续的加密位置信息,即能低成本、高频度、自动化实施且部署迅速地持续获取大范围城市空间范围内的人口分布数据。
【IPC分类】G06F17/30, G06Q50/00, H04W4/02
【公开号】CN105488120
【申请号】CN201510819452
【发明人】刘杰, 李明敏, 裘炜毅, 张颖, 陈烨
【申请人】上海川昱信息科技有限公司
【公开日】2016年4月13日
【申请日】2015年11月23日