机器学习 (ML) 正在成为审计领域的重要资源。它可以提高财务审计师、内部审计师、鉴证审计师和税务审计师管理大量数据的效率。此外,机器学习还可以帮助合规审计师验证是否遵守法规,并支持信息系统审计师分析复杂的数据集。机器学习能够大大提高多个专业领域的审计效率和有效性。对于审计师而言,理解机器学习如何融入审计过程及其对行业专业人士(特别是提供公正验证的外部审计师)的影响,以及在实施过程中可能遇到的障碍至关重要。
什么是机器学习?
人工智能 (AI) 先驱 Arthur Samuel 将机器学习定义为“赋予计算机无需明确编程即可学习能力的研究领域”。它涉及创建无需人工干预即可进行预测或分类项目的智能模型。这些模型从大量数据中学习,自行发现模式和链接。机器学习可以分为两大类:监督学习和无监督学习。根据 IBM 的定义,监督学习是一种使用标记数据集来训练算法以对数据进行分类或预测结果的机器学习方法。这意味着存在已知结果的设定输入。无监督学习涉及未标记的数据。该模型在没有任何特定指引的情况下寻找模式和联系。
机器学习如何使审计师受益?
机器学习扩大了开展审计的可选范围。它利用复杂的计算机算法和和分析工具从大规模数据集中提取更全面的信息,从而改进了传统的审计方法。这提高了审计流程和结果的效率,同时也保证了审计质量的一致性。
图1描述了机器学习的各种类别,并说明了其在审计语境中的潜在优势。
运营效率
机器学习风险和审计流程
机器学习可以通过多种方式增强审计流程,成为提高效率的宝贵工具。然而,将机器学习引入审计也带来了必须解决的风险(图2)。
根据输入数据的性质,所创建的模型可能会在不知不觉中助长偏见。机器学习模型通常用于欺诈检测。这些模型从历史数据中学习,因此如果训练数据偏向过去欺诈活动中观察到的某些模式,则该模型可能会不公平地针对符合这些模式但合法的交易。信息茧房可能出现在数据收集、预处理和模型训练等各个阶段。
在这种情况下,“信息茧房”一词指的是强化用于训练机器学习模型的数据中预先存在的偏差。当模型从扭曲或不具代表性的数据中学习,然后利用这种偏差做出决策时,就会出现偏差。例如,在欺诈检测中,如果一个模型主要针对电子交易进行训练,它可能会将现金交易误认为欺诈异常,因为它们不太常见。这种有偏见的决策会对审计流程产生影响,因为它会增加误报,增加欺诈调查团队的负担,并可能扩大审计范围以解决由有偏见的结果造成的低效率问题。
为了减轻这些影响,审计师必须确保在训练中使用多样化的数据,并定期更新模型以反映新的交易模式。未经检查的有偏见的模型可能会带来严重后果,包括给金融机构带来法律和声誉风险。
例如,如果银行业的机器学习模型主要基于电子交易数据进行训练且很少接触现金交易,那么它可能会表现出偏差,将现金交易归类为异常,因为现金交易在训练数据集中出现的频率很低。这可能会导致现金交易中误报的发生率增加,同时可能忽略不符合训练数据中观察到的模式的欺诈性电子交易。为了减轻这种偏见,审计师必须保证训练数据是广泛的,并涵盖各种交易类型。此外,持续监控和更新机器学习模型对于适应新兴交易模式和减轻可能影响审计结果的偏见至关重要。
如果金融机构的人工智能系统被认定存在偏见,它们可能会面临诉讼、声誉损害和罚款。这可能是由于算法决策无意中歧视消费者而引起的。有偏见的机器学习模型可能会导致运营效率低下。过度将合法交易归类为欺诈可能会增加欺诈调查团队的工作量,从而导致审计范围扩大。
审计方法
机器学习系统的复杂和动态特性源于它们对大量数据集和可随时间调整的复杂算法的依赖。这使得传统的审计方法(通常是静态和手动的)效率较低。国际最高审计机构组织 (INTOSAI) 强调,机器学习系统存在风险,包括数据安全问题、决策中的潜在偏见以及严格的项目管理和记录实践的必要性。
审计师必须采用专门为机器学习系统设计的新技术和框架来应对这些挑战。例如,ISACA强调透明度、问责制和彻底了解机器学习生命周期的重要性。鼓励审计师关注数据质量、模型开发流程以及可能嵌入机器学习算法中的潜在偏见。
建议采用一种务实的审计方法,即开发一个强调记录、问责制和质量保证的机器学习生命周期模型。这种方法对于让审计师与组织保持一致,并确保他们进行的审计全面有效至关重要。
数据审计
审计师需要确保用于训练和运行机器学习模型的数据可靠、公正、符合监管要求且质量高。可以使用以下数据审计方法来实现这一点:
确保为机器学习建模提供的数据准确、全面且统一。必须注意信息的完整性和准确性,包括数据源的可靠性,以确保数据源和人工智能模型之间不存在差异。必须建立访问和质量控制以维护人工智能模型中的数据完整性,并应建立机制来规范模型向终端用户输出的信息,以防止在将其应用于决策和判断之前进行任何操纵 根据用于训练和评估的数据质量,验证机器学习模型是否按预期执行。 确保机器学习系统内的数据收集、处理和利用方法透明且符合监管标准。
机器学习工具功能强大,但它们通常依赖于敏感数据,例如财务信息或个人医疗记录。机器学习模型应该是安全的,并且不应暴露在任何危及隐私的漏洞中。安全和隐私评估涉及检查系统保护数据和确保隐私的效果。这种方法的目标包括:
验证是否已实施适当的控制措施,以将敏感数据和机器学习模型的访问限制在授权人员或系统范围内 确保机器学习系统遵守相关安全和隐私法规,包括欧盟GDPR,以降低法律和声誉风险 评估数据在存储、传输或处理过程中的加密,以防止数据被拦截或未经授权的访问
模型验证和测试方法通过使用不同的示例对机器学习模型进行测试来检查模型对结果的理解和预测能力。此方法的目的是确保模型给出准确、无偏见的答案。此方法的目标包括:
评估机器学习模型根据已知结果做出的预测的正确性和精确度 评估机器学习模型在各种条件下(例如噪声或不完整的数据)的性能,以确保在现实场景中的可靠性 调查机器学习模型的错误类型和来源,以了解其局限性和潜在的改进领域
结论
来源:ISACA微信公众号
编辑:孙哲