首页 > 最新动态 > 针对大数据审计的多源异构数据质量建设
最新动态
针对大数据审计的多源异构数据质量建设
2026-04-147
图片

一、引言


近年来,党中央、国务院高度重视审计信息化与数据治理能力建设。《“十四五”国家审计工作发展规划》提出坚持科技强审,充分运用现代信息技术开展审计,提高审计质量和效率;《数字中国建设整体布局规划》则将数据治理提升至国家治理现代化的核心议程。

当前,审计数据呈现来源多元异构、体量达百亿级且持续快速增长、跨域跨模态语义深度关联三重特征。多源异构数据存在相应的质量问题,已成为制约智能化转型的关键瓶颈,而传统人工清洗方法已难以满足效率与准确性方面的要求。新一代信息技术的快速演进,正深度重塑审计数据生态。本文聚焦审计实践中日益突出的“数据质量痛点”问题,针对审计数据在源头、结构、语义等维度的复杂性,提出一套具备智能解析与治理能力的统一质量建设体系。该体系主要涵盖以下方面:(1)建立审计数据的多模态统一解析框架,提升结构化转换能力并确保语义一致性;(2)构建字段标准化机制与指标口径库,从而解决数据冗余、字段歧义等问题;(3)实现数据质量的动态评估与闭环治理,为审计智能分析与风险感知提供高质量数据支撑。通过该体系,可有效突破传统模式下存在的数据融合难、标准缺失、结构不统一等问题,推动审计工作向数据驱动与智能协同方向深度发展。



二、审计数据的特点与难点


当前审计数据呈现出以下典型特征:(1)数据来源多元、模态高度异构:审计对象已从传统结构化数据拓展至非结构化与半结构化数据,如合同文本、PDF标书、图像票据与日志记录,在部分审计项目中非结构化数据占比甚至超过60%。(2)数据体量爆发式增长:多数省级审计平台已管理百亿级记录,涵盖财政、社保、金融等多个业务领域,年均增长率超过35%。(3)语义关联性要求提升:如自然资源资产审计需融合国土、环保、林业等多个部门的结构化与空间数据,对语义对齐与跨模态关联提出更高要求。

多源异构数据存在的质量问题会对审计产生一定影响。表1总结了多源异构数据的特征及其对审计质量的影响。

1.jpg

审计实践中,多源异构多模态所导致的数据质量问题已成为制约智能化转型的重要瓶颈,主要表现在以下三个方面:(1)字段歧义与单位混乱问题:由于审计数据来源多样,缺乏统一的指标定义与格式规范,不同部门或系统对同一指标的命名口径存在差异(如“项目资金”“项目支出”“资金拨付金额”均指代相似概念),金额单位混杂(如元、万元、亿元并存),导致数据比对困难、计算错误频发,严重影响分析的准确性与可比性。(2)结构化与非结构化数据存在割裂现象:审计过程中,大量文本、图像、表格等非结构化信息(如合同扫描件、银行回单、会议纪要)未能与结构化业务数据(如财务系统记录、付款流水)实现有效关联,导致证据链条不完整、审计判断缺乏有力支撑。(3)数据更新滞后与可追溯性弱:部分数据采集存在时效性不足的问题,如社保、医保等系统存在数据上报滞后的现象,导致审计人员在分析时无法获取最新信息,线索断点频繁出现。此外,部分数据缺乏版本管理机制,难以还原其生成和变更路径,对可追溯分析与责任认定的深入展开形成了限制。

为此,围绕“多模态审计数据的清洗融合与统一表达”这一核心主线,本文主要从以下三个层级展开研究:(1)设计多模态数据质量增强机制。结合OCR(光学字符识别)与NLP(自然语言处理)技术,对扫描件、PDF标书、图像票据等非结构化数据进行结构化转换,通过训练专用Audit-NER(审计领域命名实体识别)模型,提高对合同金额、付款条件、项目名称等核心要素的识别准确率。(2)构建审计字段标准化与语义解析框架。构建审计数据标准词典与语义映射规则集,通过词嵌入模型与规则引擎相结合的方式,自动识别并归一同义字段,解决字段歧义与口径不统一问题。(3)建立融合审计知识图谱的质量推理引擎。以审计业务流程与监管逻辑为基础,构建包含指标关系、时间序列、行为模式等维度的知识图谱,结合图神经网络与语义规则挖掘技术,实现不同模态数据间的语义对齐、实体关联与信息补全。



三、大数据审计数据质量的治理框架构建


(一)治理框架的核心目标

本治理框架旨在应对审计领域多源异构数据融合的深层挑战,实现从“数据可用”到“知识可用”的跨越式提升。为达成此愿景,本文设定两大目标:一是构建面向审计业务的统一知识库。将审计工作中的多源异构数据(财务系统、合同文本、票据扫描件等)汇聚融合,通过自动化语义解析技术构建统一知识库。该知识库不仅是数据的简单聚合,而是将原始、孤立的数据转化为结构化、语义化的知识网络,为大语言模型(LLM)提供可信的知识基础,成为推动审计智能化的核心战略资产。二是设计并实现统一的多模态数据解析框架。为了保障统一知识库的高质量构建,需依赖强大的解析引擎作为数据输入机制。因此,本文提出以图像、文本、表格等多模态数据为对象,构建统一的语义解析与融合框架,确保原始数据能够被高效处理为结构规范、字段统一、语义明确的“审计就绪数据”,从源头保障知识建构的数据质量。



(二)技术实施路线:审计数据统一解析与知识库构建

为实现上述目标,本文设计了一套集数据输入、预处理、解析、融合和输出于一体的综合技术实施路径,整体流程如图1所示。

2.jpg

1.输入与预处理模块。输入与预处理模块是整个框架的起点,旨在统一接入并标准化处理不同来源和格式的审计数据。该框架支持处理结构化数据(如数据库和电子表格中的财务数据)和非结构化数据(如PDF、DOC、TXT格式的法规文件、合同文本及扫描件形式的图像票据)。对于非结构化数据,通过OCR技术提取图像和扫描件中的文本,利用NLP技术进行清洗、去噪、格式化处理,并进行初步语义分块;对于结构化数据,直接进行字段提取和清洗,为后续知识图谱构建做好准备。

2.解析与融合模块。解析与融合模块是整个框架的核心,负责将预处理后的数据转化为高质量的知识并构建统一知识库,包含两个相互协同的核心组成部分。

一是面向大语言模型的文本知识库构建,主要处理法规、合同文本、研究报告等非结构化文档。通过语义分块技术,利用NLP依据语义完整性将长文档切分为主题内聚的文本片段,确保每个片段包含完整概念或论点。比如,将审计报告切分为“公司财务状况分析”“关联交易风险评估”和“审计意见”等独立片段。技术上可计算句子间余弦相似度确定分块边界,或使用BERT(双向编码器表示Transformer)等预训练模型将文档嵌入向量空间,随后通过聚类算法切分。同时,为每个文本片段自动生成精炼的摘要作为核心索引,帮助LLM快速理解片段主旨,并提升检索效率。

二是面向逻辑关联的知识图谱构建,这是知识库的结构化核心,主要整合审计核心结构化数据及从非结构化数据源中提取的关键实体信息。依托NLP信息抽取和OCR识别能力,从发票扫描件等数据源中精准提取交易主体、时间戳、金额、关联方等核心审计要素,采用“实体—关系—实体”三元组模型进行逻辑关联,构建审计领域知识图谱。最后通过建立知识图谱节点与相关文本片段之间的双向索引关联,将文本知识库与知识图谱有机融合,形成统一的审计知识库,使其既具备结构化图谱的逻辑关联能力,又拥有非结构化文本的丰富语义表达。

3.输出模块。经过解析、建库和融合后的知识,在最终输出模块以三种主要形式服务于不同的审计应用场景。一是将解析后的数据以结构化、标准化的格式(如JSON、CSV)输出,供其他系统或数据分析工具使用;二是将构建好的知识图谱和文本知识库存储于图数据库(如Neo4j)和向量数据库(如Pinecone、Milvus)中,实现知识的持久化存储;三是提供可视化界面,通过图谱展示复杂实体间的关系,帮助审计人员直观地理解数据并进行交互式探索。通过这一整套流程,本框架将多源异构的审计数据转化为可信、高质量的知识资产,为大语言模型在审计领域的深度应用奠定坚实基础。



(三)知识嵌入表示

为了实现高效的知识检索与应用,所有知识需转化为向量形式。对于文本知识库中的摘要索引和语义分块,使用预训练语言模型(如BERT、SimCSE等)将其编码成高维向量,这些模型能够捕捉文本的深层语义,使得意思相近的文本在向量空间中的距离更近。对于知识图谱中的实体和关系,则采用知识图谱嵌入模型(如TransE、RotatE等)学习实体和关系的向量表示,通过向量运算反映图谱中的逻辑关系。面对图像、表格等不同模态的数据,可采用多模态预训练模型(如CLIP、OFA等)将不同模态的信息映射到同一向量空间,实现跨模态的统一检索。通过向量相似度查找,可实现语义级检索,即用户输入问题后,系统通过计算问题向量与知识库中所有知识片段向量的相似度,快速召回最相关的知识,而非简单的关键词匹配,极大提升了LLM在问答、推理和内容归纳方面的能力。


四、应用场景探讨


为验证所构建的“大数据审计数据质量治理框架”的实用性与可行性,本文选取审计工作中高频、典型的业务场景(发票稽核与费用报销)作为应用示例,系统展示该治理框架如何实现对传统审计流程的数字化重构与智能化升级。

在传统报销稽核流程中,审计人员需人工比对发票本体、报销系统数据、财务报销制度文档三类信息源,存在以下四大痛点:核验效率低,需人工逐项比对关键信息;合规判断具有主观性,审核标准不统一、执行弹性较大;真伪识别与重复检测能力薄弱,缺乏自动校验机制;审计覆盖率受限,人工稽核采用抽样方式,难以实现全量覆盖。

本文提出的治理框架通过多模态解析与统一知识库协同,打通数据源壁垒,实现稽核流程的自动化与智能化。第一步是多模态数据接入与信息提取。系统同步接收发票扫描件与报销系统录入字段,调用OCR模型识别发票图像文本,通过版面分析与命名实体识别,提取发票代码、号码、日期、金额、销售方名称等字段,将提取结果与报销系统数据进行字段级匹配,对金额不符等情况自动标记“需复核”。第二步是知识库驱动的多维合规性检测。系统将结构化信息输入审计知识库,进行规则驱动的多维合规判断。具体包括:抬头一致性校验,将OCR提取的销售方名称与“风险供应商库”进行匹配,并与报销人信息交叉验证;时效合规性校验,根据“报销有效期”规则判断开票日期是否合规;报销金额限额判断,依据报销要求规则判断发票金额是否超限并触发相应规则;附件完整性校验,核查报销单是否已附加必要凭证;重复报销检测,通过发票代码+号码在历史报销库中进行秒级查重。第三步是稽核结论生成与证据链固化。系统基于合规性检测结果自动输出稽核结论,并给出处理意见,同时生成证据包,该证据包包含原始发票图像、OCR提取字段、报销单信息、命中制度条款及知识库比对记录,实现审计全流程可溯源。

该框架在发票稽核场景下展现出核心价值:审核效率大幅提升,平均处理时间缩短至秒级,95%以上合规报销实现自动通审;审计覆盖率提升至100%,实现从抽样到全量稽核的跨越;内控得以标准化执行,规章制度以知识规则形式严格落实;风险识别精度提升,支持异常模式自动识别与风险趋势追踪;数据资产得以积累,稽核过程结构化数据沉淀为可持续优化的审计知识基础。通过对该典型业务场景开展实证分析,本文所提出的智能治理框架有效支撑了审计流程的自动化升级与智能化转型。



五、结语


本文以数据质量治理为切入点,围绕解析与知识协同构建提出了一套系统化解决方案,不仅在方法体系上具有一定的创新价值,也在实务层面展现出较强的适配力和可推广性。未来研究可进一步拓展:增强审计规则的学习与演化能力,引入深度强化学习等技术自动构建规则库;探索跨系统、跨部门的异构审计数据融合机制;加强治理平台与大语言模型的深度融合,提升审计问题识别的语义理解能力与自动问答能力。



文章摘自《中国内部审计》杂志2025年第11期

作者:吴伟忠  钟震宇  王振忠  许仔阳

单位:广东电网有限责任公司审计中心  南京审计大学


编辑:孙哲



目前190000+人已关注我们,您还等什么?
图片


图片
“阅读原文”一起来充电!

点我访问原文链接