当前,随着人民银行业务领域信息化水平不断提高,内部审计面对的各类业务数据呈现大规模量级、多样化类型、低价值密度、高处理速度等大数据特性,而内部审计信息化程度远落后于业务工作信息化程度,审计方法手段亟待改进。在大数据环境下,人民银行内部审计工作应以人民银行深化机构改革为契机,强化科技强审支撑,积极探索搭建立体化数据采集和风险探侦体系,通过数据赋能推动审计质量和效率提升。
1.相关性。审计数据采集应当与风险识别的应用具有相关性,能够有助于审计目标的实现,这种相关性必须是直接相关性,即通过模型实现审计目的与采集的数据之间具有必然的、紧密的联系。
2.适当性。审计数据采集应限制在为实现审计目标的适当范围内,以此得到科学合理的审计结论。审计人员在采集数据时应当合理选择审计数据采集的范围,基于适当且必要的原则考虑数据的数量、类型、存储时间、共享范围、处理频率等。
3.合比例性。合比例性即数据采集所带来的风险与实现审计目标所带来的收益相比,须符合一定比例。审计人员应当保持谨慎,不能为达成审计目的而无限度地采集,应当对数据采集的内容和范围进行具体界定,避免造成不必要的数据管理风险。
1.可利用性。在面对海量的系统报表数据时,审计人员要从数据的可获得性和可用性两个方面,对采集数据的可利用性进行判断,其中,可获得性主要考虑审计数据是否能够按照采集原则进行采集或采集到的数据是否足够充分用于风险探侦分析;可用性主要考虑采集的数据是否与审计要求相关,符合审计方案的需要。
2.规范性。审计数据的采集必须建立统一的规范标准,目前,人民银行各级业务系统大都由不同的业务部门独立开发使用,数据格式标准未能统一,审计人员必须对采集的数据按统一标准进行清洗,方便开展全量分析。
3.重要性。审计人员要根据审计数据与审计目的的关联性程度,按照指标数据对审计的重要性程度,对审计数据采集的指标、范围、时间进行区分,对审计方案中所列出的风险较大的重要领域、重点内容,应作为数据重点采集对象进行全面深度采集,从而提升审计数据分析的针对性和有效性。
1.业务系统数据采集。作为国家宏观经济调控部门,人民银行对内对外业务系统众多,而业务系统数据的格式标准统一,采集便利,能够全时段实时采集,是风险探侦审计数据采集的主要来源。主要业务系统具体包括两大类别:一是对外履职的重要业务信息类系统。二是对内履职的重要综合管理类系统。
2.台账报表数据采集。台账报表数据虽然没有业务系统数据采集便捷,但却是审计中接触最多的数据来源,是风险探侦审计的重要对象。
异常检测是指检测与大多数数据实例显著不同的数据的过程。审计人员在面对新的业务开展数据筛查时,往往事先不知道数据应该符合某种规则,运用异常检测算法,可以较好地规避必须事先有统一清晰的审计依据的问题。异常检测需要满足两个基本的假设:一是异常情况在整个数据集群中发生的频率是很小的;二是异常数据的特征显著区别于正常数据。
1.基于统计学的异常检测算法。该方法一般针对单个属性或低维数据,且方法的有效性依赖于给定数据所做的统计模型假定是否成立。
2.基于邻近度的异常检测算法。邻近度方法的思路是如果一个对象远离大部分点,那它就是异常点。
3.基于密度的异常检测算法。密度方法的思路是如果一个对象出现在低密度区域,那它就是异常点。
4.基于聚类技术的异常检测算法。该方法利用聚类算法(如K-Means等)对待检测数据进行聚类,通过聚类结果来分辨正常与异常的数据,远离其他簇(一组对象的集合)的小簇则是异常点。
结合人民银行履职特点,本文在风险探侦模型构建过程中,选用无监督学习的基于聚类技术的异常检测算法,其主要优势在于以下三方面。一是没有标记样本的限制。二是算法相对简洁。三是对数据基本条件的要求较为友好。
根据2022年人民银行结构性货币政策工具管理审计调查资料调阅清单以及货币信贷部门业务资料档案,可将结构性货币政策工具业务资料分为三大类,分别是再贷款类、再贴现、阶段性货币政策工具类业务资料。
从前文可知,各类工具业务办理中所产生的资料主要包含文档和表格两大类,其中文档类包括申请报告、业务审批表、合同文本、核查档案等;表格类包括报账台账、质押清单、报审清单、再贷款发放收回台账等。
根据以往审计情况来看,针对结构性货币政策工具三大类业务,本文从结构性货币政策工具的业务办理过程入手,结合2022年开展的结构性货币政策工具审计调查情况,对主要风险点进行了梳理,包括逆流程办理、贷前资质审查不到位、再贷款分级审批制度执行不到位、先签订贷款合同后签订质押合同、要素填写不完整、业务适用利率错误、投向领域不合规(包括贷款主体不合规和贷款用途不合规)、重复报账、报账台账利率过高、超限额发放政策资金等。
1.模型目标。根据异常检测探侦模型的构建思路,假定目前尚不知晓货币政策工具业务的具体办理要求,即系统不内嵌关于利率水平、单户金额等既定规则,而是通过侦查异常值来发现业务办理中可能存在的风险。
2.所需底层数据。在此项模型构建中,审计数据主要来源为金融机构办理再贷款工具报送的贷款台账。
3.数据挖掘工具的选择。本文数据预处理、挖掘分析均通过IBM SPSS Modeler 18.0软件实现,通过SPSS Modeler内置的强大数据挖掘算法以及图形可视化功能,实现风险探侦模型的构建、验证,帮助审计人员从审计数据中快速找到所需的审计线索。
4.聚类算法的确定。SPSS Modeler内置了K-Means、Kohonen和两步(TwoStep)3种常见的聚类算法。本文根据结构性货币政策工具审计调查的目标及数据指标性质,采用两步聚类算法作为模型算法。该算法具备同时处理分类(标记)变量和连续变量的能力,且能够自动选择聚类数。
支农再贷款是人民银行向各类农村金融机构发放的再贷款,是支持农村金融发展的重要工具,旨在加大对包括农户、小微企业主、个体工商户在内贷款主体的支持,从而有效促进“三农”发展。为切实有效降低上述贷款主体的融资成本,人民银行明确要求地方法人金融机构运用支农再贷款发放贷款的利率应该在5.5%左右,也即金融机构用于获取支农再贷款的报账台账利率应符合前述标准。因此,本文选取利率这个数量型指标作为支农再贷款审计建模的变量。
本文以2021年人民银行江西省某市分行办理支农再贷款的1774条报账台账为数据库样本,选用基于聚类技术的异常检测算法来构建风险探侦模型,在SPSS Modeler工具中,按照下图所示流程构建模型。
1.相关、适当且合比例性的数据采集原则是风险探侦模型应用的前置条件。对于风险探侦模型来说,数据采集是模型应用的前提条件。
2.风险探侦模型在人民银行内部审计中具有广阔前景。实践证明,基于数据挖掘算法的风险探侦模型具有快速、高效、准确查找问题线索的功能,其在结构性货币政策工具审计中的探索运用也为其他业务系统的审计提供了方法指导,具有较好的应用价值。
3.风险探侦模型的应用还面临诸多障碍。目前,风险探侦模型还处在初步探索阶段,尤其是将模型嵌入各业务系统进行实时审计,还存在诸多障碍。一方面,模型与业务系统的数据对接不够顺畅,对表格数据进行清洗整理需要耗费大量的时间精力,影响了审计人员的使用热情。另一方面,对模型的使用需要掌握一定的数据挖掘理论知识,对审计人员的数据分析技术要求较高。
1.加强金融业务数据标准化建设。标准化是新时代审计数据采集的必经之路,也是建立完善风险探侦模型的重中之重。
2.继续完善探侦模型。由于研究时间较短,本文提出的风险探侦模型仍存在几个方面有待完善。一是应加强对业务场景的理解。二是应注重模型样本数据的选择。三是对模型进行定期评估和审阅。
3.加强人才储备。审计部门应转变人才培养模式,组建符合大数据时代发展需求的专业化高素质审计队伍。一是选拔具有IT背景的专业人才。二是搭建数据分析与信息化平台。
文章摘自《中国内部审计》杂志2024年第8期,内容有删减。
作者:李艳 朱锦 赵晓斌 徐芬 刘茜 洪欢 胡岸明
单位:中国人民银行江西省分行
编辑:孙哲