首页 > 最新动态 > 隐私计算赋能大数据审计分析机制研究
最新动态
隐私计算赋能大数据审计分析机制研究
2024-11-143

着云计算、人工智能、物联网等信息技术的飞速发展,大数据已经成为各行各业的重要生产要素。在审计领域,大数据的应用为审计工作带来了巨大变革。理论框架方面,学者们提出了多种大数据审计模型和方法,如基于云的大数据审计平台、基于机器学习的审计数据分析模型等。技术实现方面,随着大数据技术的不断发展,数据采集、存储和处理的速度和质量得到了显著提升,为大数据审计提供了有力的技术支撑。应用实践方面,大数据审计已经在社保、金融、农业、税务、海关等领域得到了广泛应用,并取得了显著成效。

尽管大数据审计在理论和实践方面都取得了显著进展,但仍存在一些问题和挑战。一方面,由于各种因素导致被审计单位提供的数据不完整,甚至数据被恶意篡改等,审计数据的完整性、准确性难以保证。另一方面,用于审计的数据中通常会包含大量隐私数据和保密数据,数据在流转过程中容易被非法获取,审计数据存在隐私泄露的风险。因此,如何确保数据在审计过程中的完整性和隐私性是开展大数据审计的关键。

隐私计算作为一种新兴的技术,为大数据审计提供了新的解决方案。通过密码算法、安全协议、联邦学习等技术,可以实现数据在审计全流程中的隐私保护和安全共享,包括原始数据安全和隐私保护、计算过程中的数据安全和隐私保护以及计算结果的安全和隐私保护。

审计大数据的数据脱敏与完整性校验

由于审计大数据通常包含大量的敏感信息,如个人隐私数据、企业业务数据以及安全级别很高的核心数据等,如果不经过脱敏处理,一旦泄露,将给个人和企业带来严重损失。此外,随着大数据技术的不断发展,审计大数据的应用场景也越来越广泛。在数据采集、传输、交换和共享的过程中,如果缺少有效的数据脱敏措施,可能会导致数据泄露和滥用的问题。数据脱敏技术可以实现对敏感数据的变形,使其在不违反系统规则的条件下,对真实数据进行改造并提供测试使用,从而保护敏感隐私数据的可靠性。数据脱敏是一个复杂且重要的过程,其主要目的是在保护敏感信息的同时,确保数据的安全性和可用性。因此,数据脱敏将成为未来审计大数据处理中不可或缺的一环。

如图1所示,为了在不影响审计质量的前提下确保数据隐私,可首先对原始数据进行数据脱敏。在大数据审计中,数据脱敏主要包括四个步骤。首先,识别敏感信息。对数据进行仔细分析,识别出其中的敏感信息,包括个人身份信息、公司财务数据、业务秘密等。其次,制定脱敏策略。根据敏感信息的类型和级别,制定相应的脱敏策略。如对于身份证号、手机号等个人信息,可以采用基于加密算法的可恢复脱敏;对于财务数据,可以采用聚合、抽样或加密等方法进行处理。再次,实施脱敏操作。利用专业的数据脱敏工具或算法,对审计大数据中的敏感信息进行脱敏处理。这一过程需要确保脱敏后的数据在保持原有特性的同时,不再包含敏感信息。最后,验证脱敏效果。脱敏完成后,需要对脱敏后的数据进行验证,确保其不再包含敏感信息,并且能够满足审计工作的需求。为了避免被审计单位利用原始数据脱敏实施恶意数据篡改,可采用哈希算法对脱敏后的数据生成数字摘要,用于脱敏数据的完整性校验,再用数字签名对脱敏数据签名,用于确保脱敏的数据来自有效的被审计单位。

基于“密态”计算的审计大数据分析

“密态”计算是一种保护隐私数据的计算技术,可在不暴露原始数据的情况下进行数据处理和分析。在审计大数据分析中,直接使用原始数据进行分析可能会带来隐私泄露的风险,但这类数据往往又是大数据审计中非常重要的数据源。而基于“密态”计算的审计大数据分析,通过对数据进行加密或其他形式的隐私保护处理,确保了数据在传输、存储和处理过程中的安全性。

以同态加密为例,其基本原理是在密文状态下进行运算并得到与明文状态下相同的结果,是一种特殊的加密方式。一个加法同态加密方案包括一个加密算法ENC和一个解密算法DEC,对任意两个信息M1和M2,即 ENC(M1+M2)=ENC(M1)+ENC(M2)。

如图2所示,当需要计算被审计单位的某类数据之和时,可以先对所有数据进行同态加密,然后将密文反馈给审计部门,审计部门计算所有密文之和,再通过解密算法解密,获得原始数据的总和。

虽然“密态”计算在审计大数据分析中具有显著优势,但也存在一些挑战。“密态”计算会增加计算复杂性和开销,需权衡隐私保护与计算效率之间的关系;为防止潜在的安全漏洞和攻击,需确保“密态”计算技术的正确性和安全性。如同态加密算法的计算复杂度较高,将影响到数据处理的效率。此外,同态加密的安全性也取决于密钥的管理和使用,因此需要采取有效的密钥管理措施来确保安全。

基于联邦学习架构的审计大数据分析

联邦学习是一种新兴的机器学习技术,它允许多个参与方在本地训练模型,并通过加密和安全的通信协议进行模型参数的交换和聚合,从而在无需交互原始数据的情况下实现协同学习和推理。

如图3所示,联邦学习允许分散的各参与方在不向其他参与者披露隐私数据的前提下,协作进行机器学习的模型训练。在大数据审计的情境中,这意味着各个审计数据源可以在本地进行模型训练,而无需将数据集中到一个中央位置。这大大增强了数据的安全性,并降低了数据泄露的风险。结合联邦学习,大数据审计可以在保持数据分散和隐私的同时,实现跨数据源的分析和模型训练,从而发现更加全面和准确的审计结果。此外,联邦学习还可以解决大数据审计中的一些问题,如数据不平衡和特征重叠。由于不同数据源可能存在数据分布不均或特征相似的情况,通过联邦学习,可以更有效地整合和利用这些数据,提高审计模型的泛化能力和准确性。

基于联邦学习审计大数据分析的应用场

景包括三个方面:一是跨部门、跨机构的协同审计。在涉及多个部门或机构审计中,联邦学习可以实现数据的隐私保护和协同审计。各部门或机构可在本地训练模型,并通过联邦学习框架进行模型参数的交换和聚合,从而共同构建出一个全局模型用于审计分析。二是敏感数据审计。对于涉及个人隐私或商业机密的敏感数据,联邦学习可以在保护数据隐私的同时进行审计。参与方可在数据源处对敏感数据进行处理和分析,仅将模型的参数或梯度信息进行共享,从而避免原始数据的泄露。三是实时经济责任监控。联邦学习还可以应用于实时经济责任监控场景。通过构建分布式联邦学习系统,各部门或机构可以实时将本地数据用于模型更新,并将更新后的模型参数共享给其他参与方,实现经济责任履行的实时监控和预警。

然而,基于联邦学习的大数据审计也面临如参与方之间的数据分布可能不均衡导致的模型训练偏差,通信开销较大影响审计的实时性,以及模型的安全性和稳定性等问题。为了克服这些挑战,可以采取三个优化策略。一是设计适用于非平衡数据的联 邦学习算法,以减少数据分布不均衡对模型训练的影响。二是优化通信协议和模型更新策略,减少通信开销,提高审计的实时性和效率。三是加强模型的安全性和稳定性研究,采用加密技术和差分隐私等机制来保护模型参数的安全,同时确保模型的稳定性和泛化能力。

基于可信执行环境的审计大数据分析

可信执行环境(TEE)是一种特殊的软硬件组合,其核心特征是提供了一个隔离且安全的执行环境,确保其中的代码和资源不会受到外部恶意软件的干扰或窃取。可信执行环境可用于保证计算过程和数据的安全性、隐私性。基于可信执行环境的审计大数据分析,可以确保数据在处理过程中不会被非法访问、篡改或泄露,从而保障数据的完整性和真实性。

如图4所示,在基于可信执行环境的审计大数据分析中,审计数据首先会被加密传输到TEE中,利用TEE的安 全隔离特性,确保数据在处理过程中不会被非法访问或篡改。同时,大数据分析算法和工具也可以在TEE中运行,对审计数据进行深入的分析和挖掘。计算和分析结果会被加密传输到审计部门。与传统的审计大数据分析相比,基于可信执行环境的方法具有三个方面的优势。一是数据安全性高。由于数据和分析过程都TEE中进行,外部攻击者很难获取或篡改数据,从而大大提高了数据的安全性。二是分析准确性高。TEE提供了稳定的执行环境,可对原始数据精准分析,减少外部干扰对分析结果的影响,使得分析结果更加准确可靠。三是灵活性好。TEE可以支持多种大数据分析工具和算法,使得审计人员可以根据实际需求选择合适的方法进行分析。

然而,基于可信执行环境的审计大数据分析也面临一些挑战:如何确保TEE本身的安全性和可靠性,如何高效地处理大规模数据等,审计人员需要综合考虑这些因素,制定合适的技术方案和操作规范。

大数据审计中的隐私计算方案对比分析

本文提出了隐私计算赋能大数据审计分析机制,通过深入研究隐私计算的核心技术,包括数据脱敏、“密态”计算、联邦学习和可信执行环境,构建了一个完整的隐私保护的大数据审计分析框架。然而,该机制仍需要进一步完善和优化。笔者从安全性、计算精度、通用性和性能四个方面总结了大数据审计中的各隐私计算技术的优缺点,如表1所示。虽然数据脱敏技术对敏感内容进行了屏蔽,其通用性和性能都比较高,但仍然无法杜绝数据泄露风险,数据脱敏操作也将导致计算精度受损 ;“密态”计算具有较强的安全性,且计算是无损的、通用的,但该方案的性能较差;联邦学习适用于基于机器学习的大数据审计,其性能适中,但该方案在学习过程中存在数据泄露风险,且计算精度是有损的;可信执行环境的计算精度是无损且通用的,计算效率较高,但其安全性依赖于软硬件环境。未来,应继续深入研究隐私计算和大数据审计的相关技术,以推动其在审计各领域的应用和发展。

表1隐私计算方案对比


作者:王晓勤

单位:四川省审计厅

来源:审计观察


编辑:孙哲



目前170000+人已关注我们,您还等什么?


“阅读原文”一起充电吧!

点我访问原文链接