文/叶隽毅,陈龙云,颜嘉鹏 云南大学数学与统计学院
信息化时代已然到来,为适应全国治安新形势的要求,全国各地公安机关在全面实施“情报信息主导警务”战略,情报信息已成为公安工作的重要平台,成为公安机关从事各种工作的信息基础。其中浙江宇视科技有限公司在公安情报大数据方面具有深厚的沉淀,大量大数据项目在多个省份已经落地并得到应用,如何研究系统、科学、有效进行数据挖掘利用是重要课题,本文通过分析大数据平台知识库提出将数据库信息充分应用的基础理论模型—“三元理论”。
数据挖掘知识库的建立
公安情报信息大数据应用挖掘的知识库来自于一线侦查员的实战经验。当案件/警情发生后,通过现场勘验等基础信息收集后如果现场直接能判断出嫌疑人时自然是好,但是由于案情的复杂性、作案嫌疑人的反侦察行为等为案件侦查带来了极大的难度。侦查工作最关心的就是从现场留下的信息推测嫌疑人是什么样的人、真实身份是谁、现在哪儿。
从公安侦查的过程对于大数据的应用经验经分析,大数据的应用可以归类为以下几种:
信息查询检索类
基于现场勘查、走访排查等采集的部分信息如嫌疑人的面部图像、进出现场的车辆、现场留下的声音、指纹、身体DNA、甚至现场范围的电磁信息痕迹等,通过大数据查询符合条件的目标列表。
布控告警
发现了嫌疑人或取得关键信息后就可进行布控抓捕,出动大批警力进行所有路口的盘查就是典型的拦截布控形式。在大数据时代,利用基于科学布点下的信息采集基站进行嫌疑人特征信息的布控,如人脸、人体姿态、人体动作、车辆、移动终端的电磁信号、网络虚拟身份等等,一经发现即可通过系统提示进行人工甄别和预案抓捕。
研判分析
随着科技的发展,违法犯罪分子的作案手段、手法等的反侦察能力日渐提升,碎片化的信息根本无法推断出确切嫌疑人及其行踪。利用大数据的数学分析模型就可以推断嫌疑人可能的范围甚至直接定位出嫌疑人身份,如利用积分模型、多维轨迹碰撞、关系图谱分析等,也可以通过大数据的数学分析模型预测高案发时段、区域、易案发人群等,甚至可做反恐预警分析,预测恐袭事件等。
基础理论模型研究
通过对大量的大数据应用模型的研究发现,数据挖掘总是围绕着目标对象的三元属性信息展开:关系、动作、轨迹。这也是本文研究的核心内容:公安情报信息大数据的基础理论模型--“三元理论”。
所谓“三元理论”是指:关系元、动作元、轨迹元。每个人都有三维属性信息,通过对三元信息抽象和提升就可构建大数据的弹性检索、关系分析、时空轨迹等业务模型。
关系元与三元闭包
每个人总与其他人、车、物、场景、案件等发生 关系,比如物品归属、人车物接触;又比如家庭、亲情、同学、朋友关系,手机联系、资金往来等。
美国斯坦福大学教授Granovetter的Thestrength of weak ties论文提出了一个原则:在一个社交圈内,若两个人有一个共同的朋友,则这两个人在未来成为朋友的可能性就会提高,这个原则被称为三元闭包。
现代人之间的关系可分为两种:由于时空轨道重合而产生的关系(同轨迹关系)和通过通话、资金、虚拟身份等联系而产生的关系(联系关系)。根据三元闭包理论分析这些关系,可以找到与案件相关的人的匹配并确定客观存在的关系网络。
轨迹元与三元轨迹碰撞
每个人必然会留下活动轨迹,比如住酒店、上网、购物、就业等;再比如坐车、走路会形成路线的轨迹;如果随身携带手机的话,手机移动切换蜂窝基站就会留下手机的轨迹。
由此,可总结出一个“三元/多元轨迹碰撞”理论(见图4 多元轨迹碰撞模型示意图):一个人通过暂住、住宿、上网、就业、出行等行为形成的轨迹即“人轨迹”,持有车辆的轨迹(道路监控、拍照,车管所记录,维修记录等)即“车轨迹”,持有手机的轨迹(网络痕迹、WIFI-MAC痕迹、蜂窝或GPS定位等)即“手机轨迹”,对应虚拟身份的轨迹(社交账号、游戏账号等)即虚拟轨迹。各种行动轨迹经过采集、清洗、处理可以以可视化的形式表现在地图上,并可以判断此人的职业、日常生活轨迹等信息。
如果拥有罪犯的多种轨迹,就可以进行多维轨迹碰撞模拟分析。案件勘验中的涉案轨迹,结合数据挖掘得到的与案件轨迹的时空匹配的高同轨轨迹并以此得到的推荐嫌疑人排名,就可以进行多点轨迹碰撞分析并从中筛选、嫌疑排查,最终确定嫌疑犯。
动作元与三元交互
每个人都不是固定不动的,只要主动去收集就会留下有效记录。比如有违法犯罪行为记录的前科劣迹;作案现场的指纹、DNA、足迹等动作痕迹;再比如案前踩点、案前关手机、案后开手机等打破常规的反侦察动作。这些行为都会被其所处的环境与经历、自身的认知所影响(见图2 三元理论模型),即班杜拉的社会学习理论。
个体和环境交往得出的经验即个人经历,包含了一个人的出身背景、工作经历、学习经历、前科记录等,这在判断此人的犯罪可能性上有很大作用,如“前科动作”,即曾经被记录的犯罪违法行为,在刑侦中是考量嫌疑的关键因素。而关于认知,一方面,人的主体,例如信念、动机等往往强有力地支配并引导其行为,行为及其结果反过来有影响并最终决定思维的内容与形式以及行为主体的情绪反应;另一方面,个体可以通过自己的主体特征如性格、社会角色等引起或激活不同的环境反应,运用认知和经历对行为的协同作用,可以从中筛选出易于犯罪的个体并加以追踪关注。
三元理论在大数据模型中的应用
基于关系元的关系分析和关系推测
基于关系元的关系分析可应用于现有已知的嫌疑人手机号/银行账户等(一个或多个),进一步挖掘出与嫌疑人有关联的可疑人员,协助警员破案。比如上海蓝灯数据科技股份有限公司研发的情报数据系统的关系分析。
围绕手机号码或银行账户等的关联分析,不断发现有联系的关系人或关系账号,循环往复,形成的包含人和物的复杂关系群体,也可以称为某人或某物的关系圈。通过关系分析技术,挖掘 1 或 N 个目标对象(人或物) 的无限层关联对象。通过分析关联关系的密切程度(可以做为权重)可以分析出密切关系人(案件核心人员)、甚至是同伙。
基于轨迹元的时空分析和身份画像
通过海量固定基站采集的移动终端活动的时空轨迹数据,利用数学模型就可分析出该移动终端的身份属性(身份画像),例如,分析移动终端某个时间段可能的常驻地信息等。
举例如下:我们对采集的时空数据做以下处理,首先对于每条采集设备采集的信息以及GPS(100米误差),每5分钟内同一数据的记录保留一条,且为最早出现的那条记录。下面,再通过一个算法对采集到的数据做处理,得到某一终端的GPS占比情况(只保留大于20%),我们可以根据时间段的不同(一天可分为白天与晚上)统计同一个终端出现的次数,以此来实现推测某个移动终端的常驻地。
移动终端的时空信息是三元理论应用的最佳实证,时空信息基本包括了一个人的关系元、轨迹元、动作元三个方面。可以通过它来分析出一个人的生活轨迹,也可以通过多条信息来判断一个人的身份属性,或是通过某条信息在某天的突然改变来分析其是否存在异常动作。
基于动作元的积分分析和行为预测
基于动作元的信息可以做积分模型分析,在面向无中生有的侦查模式以及案件、恐怖袭击预警等方面具有重要价值。
我们通过分析特定对象标签下的异常动作去分析可能发动重大安全袭击事件的条件,并给与不同的行为以不同的分值进行权重评估,统计一定时段内的累积积分值并进行排名,从排名中就可以看出排名前top N的安全风险极大,应启动预警和提前处置,以排除可能发生的安全事件。这个就是通过动作元积分模型进行安全恐怖袭击的行为预测与预警。
结语
做出优秀的大数据挖掘业务模型很难,对于一线民警刚放下手枪拿起鼠标,如何快速有效掌握业务建模技巧更为艰难。三元理论可提供给部分基层侦查员、程序员做培训课件,调研认为:这个基础理论模型极大方便其对大数据的理解,也极大方便了做业务模型的讨论,提高了侦查实战知识库的建立效率。