量子社区发现算法在反洗钱业务的应用探析

2024-03-18

作者:

吴永飞1 2 、马磊1、王巍栋1 、王彦博1 2、 张雨3、 于树锋4、 杨璇2、 张月2

1.华夏银行股份有限公司,北京 100020;

2.龙盈智达(北京)科技有限公司,北京 100020;

3. 途普智能科技(北京)有限公司,北京,100008;

4.北京易联达商务服务有限公司,北京,100049)

 

摘要:

随着量子科技的迅猛发展,量子计算已在金融、交通、医疗等多个领域展示出相较于传统技术的潜在优势。尤其在金融领域,国内已有商业银行将量子科技和金融科技相结合,在量子有监督学习、量子无监督学习、量子近似优化算法、量子自然语言处理和量子计算机视觉等方面有了突破性进展。本研究聚焦商业银行的反洗钱业务场景,使用量子社区发现算法探测银行客户中具有洗钱行为嫌疑的异常账户。实证显示,通过将社区发现问题转化为二次无约束二值优化(Quadratic Unconstrained Binary Optimization, QUBO)问题,使用量子退火算法在真实的量子计算机上进行求解,可以为异常社区的发现提供新思路,从而为商业银行反洗钱业务提供基于量子计算的新思路。

 

一、引言

量子科技是当前国际科技竞争最前沿的领域之一,量子计算作为量子科技的重要组成部分,其发展正在为产业带来颠覆性的创新机遇。当前,量子科技已上升至国家战略。2020年10月16日,习近平总书记指出“要加强量子科技发展战略谋划和系统布局,把握大趋势,下好先手棋”。“十四五”规划和2035年远景目标纲要指出要“加快布局量子计算、量子通信”等前沿技术。2022年10月4日诺贝尔物理学奖颁发给量子信息领域,再次引发全球量子科技热潮。2023年第十四届全国人民代表大会上,有人大代表强调量子计算是当前国际科技竞争“新赛道”,积蓄“量子算力”支撑、建立“量子算力”防线,已成为我国当前需要面对的重大现实问题。综上所述,量子科技时代已经开启,量子计算创新应用时不我待。

当前数字化时代,金融科技的浪潮促使量子科技与金融领域不断融合。2020年以来,国内已有商业银行提出量子金融科技概念和模型框架,并验证了量子计算在金融领域的巨大应用潜力。截至目前,面向商业银行的智慧运营、智能风控等诸多业务场景,量子有监督学习、无监督学习、量子自然语言处理等算法已初步展现出良好效果[1]。然而在法律合规领域,业内基于量子计算的应用场景仍较为鲜见。本文试求将量子社区发现算法应用于反洗钱业务场景,在图数据的基础上运用量子算法进一步赋能,从而识别出具有洗钱嫌疑的账户图社区,以期为以商业银行为代表的金融机构进一步提升反洗钱业务能力提供新方法。

 

二、量子社区发现算法的研究介绍

 

1.社区发现问题概述

生活中的网络无处不在,从陆地交通路线网到航海轨迹网,从简单集成电路网到复杂电力网,从单个细胞内部网到有相互影响的神经网络,等等[2]。随着近年来科技的发展,网络结构也日益繁杂。研究显示, 网络存在多样性与相似性属性,日常生活中的很多复杂系统可以用复杂网络来代替。社区发现作为复杂网络研究的细分领域之一,最早源于社会学研究,自其产生以来一直广受关注。2002年,Girvan等人[3]将网络节点自然划分为紧密连接的子组,产生了一套发现网络中社区结构的算法。2003年,Newman[4]等人将模块度函数作为拆分潜在网络内部结构的评价尺度后,让社区发现算法得到广泛应用。换言之,社区发现可以被理解为在一个关系网络中尝试挖掘出社群关系,并依据划分评价指标来划分网络结构的过程。

经典的社区发现算法包含图分割算法、层次聚类算法和模块度算法等。KL(Kernighan-Lin)算法[5]是图像分割算法最常见的算法之一,该算法将网络随机划分为两个社区,任取两个社区中的某一节点计算增益函数,通过寻找增益函数值最大化来进行社区划分。GN(Girvan Newman)算法[3]基于层次聚类的分裂,该算法通过计算每条边的边介数中心性 (Edge Betweenness Centrality, EBC)值并尝试删除网络该值最高的边来划分社区。Louvain 算法作为模块度算法中最著名的社区发现算法之一, 2008 年被Blondel [6]提出,首先计算组内各节点之间的模块度增量,选取最大化模块度增量的社区划分,然后将每个社区看成一个新的节点,重新计算模块度,实现节点间的动态聚合,最后在模块度相对稳定后得到社区的划分。2020年,胡章荣[7]基于Louvain 算法来对大型网络中的社区进行识别,实验结果表明,Louvain算法能对社交网络进行有效划分。2021年,孙春全、黎元元等人[8]在医药领域,基于目前世界上采用银杏叶滴丸治疗冠心病、脑梗死的数据,对其合并用药信息采用社区发现算法进行复杂网络分析, 结合冠心病患者自身,挖掘其合并用药规律,为临床医生的诊疗提供可行性参考意见。

近年来,社区发现问题的应用场景不断拓展,在社交网络分析、产品推荐等方面应用不断深化。然而,随着全球产生、访问和存储的数据前所未有的快速增长,网络结构也越来越不可预测,其复杂度直线飙升。社区发现问题面临的任务变得非常艰巨,亟须新的技术和算法提供破局之路。

 

2.量子社区发现算法研究概述

社区发现问题本质上是一个优化问题,可以使用量子近似优化算法进行求解。目前量子近似优化算法主要包括基于通用量子计算机的量子近似优化算法(Quantum Approximate Optimization Algorithm,QAOA)和基于专用量子计算机求解的量子退火算法(Quantum Anneal , QA)。QAOA算法是2014年由Edward Farhi等人[9]提出,其核心思想是通过量子绝热优化算法从初始哈密顿量的基态,逐步迭代演化至目标问题的哈密顿量的基态,并通过经典优化算法更新参数,最终得到目标问题的近似最优解。QA算法1988由Apolloni等人[10]提出,该算法主要是利用热波动来寻找问题的最优解。

目前,国内外已经有大量学者开始研究将量子算法应用至社区发现问题。2015年,Shao、Han等人[11]提出了一种量子局部搜索(Quantum Local Search, QLS)算法,该算法从一个随机解开始,迭代地去更新QA或QAOA优化的子集。该子问题是通过固定所有不在子集中的节点的社区分配,并将它们编码为边界条件来制定的。实验表明,量子局部搜索算法能有效且高效地进行社区发现,并且与最先进传统社区发现算法相比具有良好的性能。2020年,Christian F.等人[12]提出用量子退火算法解决社区发现问题,并利用D-Wave 2X和2000Q在多个图问题中进行验证,问题的求解速度获得了明显的提升。2020年,Sana Akbar等人[13]对基于社区发现问题的算法进行总结和梳理,并系统性地总结了基于量子计算的社区检测技术,同时,对传统算法和量子算法的复杂度和模块度进行对比,可以发现量子算法在社区发现问题中的优越性。2021年,Gemeinhardt Feli等人[14]探讨了基于量子退火算法和基于门电路的量子算法在解决任意数量的社区发现问题方面的潜力,并且在Zachary Karate俱乐部的社交关系图问题上进行了分析研究,实证表明量子退火的替代在模块化上没有产生任何显著差异,并且解决所用的时间明显减少。

 

三、量子社区发现算法在商业银行反洗钱业务的应用

 

1.业务理解

近年来随着数字化支付手段的普及发展,洗钱上游犯罪的手法层出不穷、不断翻新,给人民群众的利益造成了侵害。商业银行在反洗钱实践中,持续对“地下钱庄”、赌博等洗钱上游犯罪开展监测。从商业银行的反洗钱业务实践来看,以地下钱庄监测为例,资金链条一般呈现三个环节,分别为上游、中游、下游,每一环节均对应一组账户。各组账户由犯罪团伙控制,在不同时间段被用于资金流转的不同环节。上游账户负责接收资金,呈现分散转入、集中转出或分散转入、分散转出特征,交易对手庞杂、资金快进快出,不留余额;中游账户负责资金过渡、拆分、转移资金,呈现分散转入、分散转出或集中转入、分散转出特点;下游账户负责通过ATM、第三方网络支付等手段提现或跨行周转;整体资金链条中常出现小额试探性交易的账户测试,用于测试账户能否可用、网上银行等交易是否出现异常、规避银行预警规则等。此类犯罪呈现团伙化特点,团伙成员遍布各地,分散使用多个商业银行账户,且与赌博、腐败等犯罪相互交织,交易追踪难度大。

面对前述复杂的交易行为,运用社区发现的思路对反洗钱业务中的异常交易进行探测,已成为商业银行的重要方法之一。如果将每个账户看作一个节点,当账户存在转账或交易等行为时,该账户节点之间就会存在一条边,也就构建起了一个图谱,形成一个关系网络,从而可以使用社区发现算法进行异常团体的识别。本文针对商业银行反洗钱“地下钱庄”监测相关场景,创新应用基于量子的社区发现算法,使得银行能准确地发现交易的社区分类,尤其是可疑“犯罪分子”聚集的社区,为后续进一步判断该社区中的账户是否存在真正的洗钱风险提供坚实的支撑。

 

2.数据理解

本研究使用的数据集来源于国内商业银行的反洗钱“地下钱庄”监测相关场景。数据集包括账户数据、交易数据、标签数据三大类。账户数据包括账户号、账户所属机构、账户开户日期等;交易数据包括交易流水号、账户号、对手账户号、交易金额、账户余额、对方行号、交易日期、交易时间、交易渠道、摘要代号等;标签数据包括账户号、异常标志等。本文综合考虑客户地域、交易对手特征、交易金额、转账频率、开户时间、交易时间、开户机构等重点特征,提取出该类业务图数据的一张子图,共包含57个账户,66笔交易。

 

3.模型构建

在社区发现算法中,需要将每个节点归类到相应的社区中,使得社区内的权重最大,而社区间的权重最小,即社区对应的模块度最大。该问题可以转化为二次无约束二值优化问题(Quadratic Unconstrained Binary Optimization, QUBO),其数学表达式如下:

其中X=(x1,x2,⋯,xn )Txi∈{0,1},Q为n×n的矩阵,它是通过邻接矩阵A得到,下面给出Q的计算公式。对于n的关系图E,定义邻接矩阵为:

定义g=jAij,通过A和g可得:

其中m为关系图E中所有节点的权重总和。

由于上述问题转化的是二值优化问题,故一次求解过程可以将样本划分为两个社区,其xi取值为1的社区对应的 最小,模块度最大。为了划分更多的社区,需要对划分后的社区进行循环迭代,发现更多的社区。基于上述转化思路,本文创新提出基于量子算法的社区发现问题求解算法(QCD,Quantum Community Detection Algorithm)。具体算法流程如下:

 

输入:节点与节点之间的关系图

 

(1)根据关系图E,计算邻接矩阵A,而后计算矩阵Q

(2)利用矩阵Q,将问题转化为QUBO问题,利用量子退火算法给出问题的近似解;

(3)将属于社区1和社区2的样本分开;

循环社区1和社区2:

While True: 

①计算新邻接矩阵A,而后计算矩阵Q,转化为QUBO问题,利用量子退火算法给出问题的近似解;

②如果得到的结果全为1,结束循环,否则继续对结果进行迭代,直到社区不再进行划分,储存所有划分的社区和对应的节点,结束循环;

 

输出:所有划分的社区和对应节点

 

 

4.模型结果

本研究使用真实的量子退火机D-Wave Systems进行实验,结果多次迭代,实证结果如表1所示。

 

表1 量子社区发现算法实证结果

 

从实证结果可知,通过量子社区发现算法成功将节点划分为5个社区。社区发现的结果如图1,其中红色节点代表可疑账户,绿色节点代表正常账户。 

图1 量子社区发现算法社区划分结果示意图

 

经分析,社区1、社区2为高度疑似洗钱团伙资金账户流转链路。从反洗钱业务视角出发,两个社区具备如下特征:

社区1中,提供资金账户为11,12,13,14,15节点,洗钱链路中的“上游账户”为2,3,4节点,“中下游账户”为56节点。该社群整体的洗钱特点为:提供资金账户的交易金额大致相等,均为100的倍数;其年龄均在50岁以上,开户地分散在多地。“上游账户”在与提供资金账户交易前存在小额试探性交易并在交易完成后出现快速资金转移的情况,账户流入流出比超过95%,快进快出特征明显,且均流入行外账户“中下游账户”中。

社区2中,提供资金账户为6,7,8,9,10节点,洗钱链路中的“上游账户”为0节点与其行外同名账户5节点,“中下游账户”为56节点。该社群整体的洗钱特点为:提供资金账户开户地分散在多地,交易备注存在养老金、投资等描述,“上游账户”与提供资金账户交易的同时存在同名行外账户资金频繁交易,并出现账户整体资金转移不留余额等情况,分散转入集中转出特征明显。

社区1与社区2的最终流出账户均为行外账户56节点,初步怀疑56节点账户存在较高的“中下游洗钱账户”嫌疑,同时社区1与社区2中涉及的账户可能为同一团伙操控。

为了验证本研究设计的量子社区发现算法有效性,本文使用经典的Louvain 算法在相同的数据集上进行实证对比。Louvain 算法是一种基于模块度的社区发现算法,其基本思想是网络中节点尝试遍历所有邻居的社区标签,并选择最大化模块度增量的社区标签。实证显示,Louvain 算法划分的结果如表2所示。

 

表2 Louvain 算法划分的结果

 

从上述结果可知,Louvain 算法和量子社区发现算法的结果基本保持一致,只有节点1在Louvain 算法中被划分到社区4中,在量子社区发现算法中被划分到社区3中,这说明本文设计的量子社区发现算法是有效的,并且随着量子比特数的增加,该算法在处理社区发现问题上可以实现有效的加速。

 

四、结语

当前数字经济时代,量子计算已在金融领域展现出广阔的应用前景,为商业银行数字化转型提供了强有力的技术支持。本文以商业银行反洗钱业务为场景,将社区发现问题转化为二次无约束二值优化问题,并借助量子计算算力创新性地运用量子退火算法,在真实的量子退火机上进行实证。实证结果中,面向商业银行的反洗钱疑似“地下钱庄”监测图数据集,通过量子社区发现算法可以有效地区分交易异常的账户,为后续华夏银行等金融机构相关业务人员针对性地进一步判别账户是否存在风险提供有力支撑。 

 

龙盈智达(北京)科技有限公司徐奇、曹晓峰、冯琳、吕鹏对本文亦有贡献。

 

参考文献:

[1]吴永飞:《量子金融科技助力商业银行行稳致远》,《银行家》2022年第11期,第39-41页。

[2]薄辉:《社区发现技术的研究与实现》,北京交通大学2009年硕士学位论文。

[3]Girvan M and Newman M E J, “Community structure in social and biological networks”, Proceedings Of The National Academy Of Sciences, 2002, 99(12): 7821-7826.

[4]Newman M and Girvan M, “Finding and evaluating community structure in networks”, Physical review E, 2004, 69(2): 26113.

[5]Kernighan BW and Lin S, “An effieient heuristie procedure for portioning graph”, Bell System Technical Journal,1970,49(2): 291-307.

[6]Blondel V D et al., “Fast unfolding of communities in large networks”, Journal of statistical mechanics: theory and experiment, 2008(10).

[7]胡章荣:《基于Louvain算法的社交网络社区发现研究》,《电脑知识与技术:学术版》2020年第23期,第2页。

[8]孙春全、黎元元、谢雁鸣、李向杰:《真实世界中银杏叶滴丸治疗冠心病与脑梗死的合并用药方案研究》,《世界科学技术:中医药现代化》2021年第3期,第8页。

[9]Farhi E et al., “A quantum approximate optimization algorithm”, arXiv preprint arXiv:1411.4028, 2014.

[10]Apolloni B et al., “Quantum tunneling in stochastic and combinatorial optimization”, Parallel Architect Neural Netw,1988, 27-29: 1–13.

[11]Shao J et al., “Community detection based on distance dynamics”, Proceedings of the 21th ACM SIGKDD International Conference on Knowledge Discovery And Data Mining, 2015: 1075-1084.

[12]Negre C F A et al., “Detecting multiple communities using quantum annealing on the D-Wave system”, Plos one, 2020, 15(2): e0227538.

[13]Akbar S and Saritha S K, “Towards quantum computing based community detection”, Computer Science Review, 2020, 38: 100313.

[14]Gemeinhardt F G et al.,  “Quantum k-community detection: algorithm proposals and cross-architectural evaluation”, Quantum Information Processing,2021, 20(9):1-21.

 

注:本文已发表于《反洗钱研究》2023年第6辑。

-END-

前期精彩原创推荐(点击图片进入阅读):

这是科技创新最好的时代,这是属于我们每个人最好的时代,关注“BanTech智库”,专注银行科技发展,探索无界金融生态!

 

 

收藏