我们提出使用称为PaySim的模拟器生成的综合数据集,以解决此类问题。PaySim使用来自私有数据集的聚合数据来生成类似于交易正常操作的合成数据集,并注入恶意行为以稍后评估欺诈检测方法的性能。
内容
PaySim基于从一个非洲国家/地区实施的移动货币服务的一个月财务日志中提取的真实交易样本来模拟移动货币交易。原始日志由一家跨国公司提供,该公司是移动金融服务的提供商,该服务目前在全球14个以上的国家/地区中运行。该综合数据集按比例缩小为原始数据集的1/4。
表头
这是1行的示例,带有标题说明:
1,付款,1060.31,C429214117,1089.0,28.69,M1591654462,0.0,0.0,0,0
步骤-绘制现实世界中的时间单位。在这种情况下,第一步需要1个小时的时间。总步骤744(模拟30天)。
类型-现金输入,现金输出,借方,付款和转帐。
金额-
以当地货币表示的交易金额。
nameOrig-开始交易的客户
oldbalanceOrg-交易前的初始余额
newbalanceOrig-交易后的新余额
nameDest-交易接收者的客户
oldbalanceDest-交易前的初始余额接收者。请注意,没有针对以M(商家)开头的客户的信息。
newbalanceDest-交易后的新余额接收者。请注意,没有针对以M(商家)开头的客户的信息。
isFraud-这是模拟中欺诈性代理进行的交易。在这个特定的数据集中,代理商的欺诈行为旨在通过控制或获得客户帐户来获利,并试图通过转移到另一个帐户然后从系统中提取现金来清空资金。
isFlaggedFraud-该业务模型旨在控制从一个帐户到另一帐户的大规模转帐,并标记非法企图。此数据集中的非法尝试是指在单笔交易中转移超过200.000的尝试。