首页 > 最新动态 > 基于大模型的审计知识智能问答系统构建研究
最新动态
基于大模型的审计知识智能问答系统构建研究
2025-07-031


一、引言

大语言模型(Large Language Model,LLM)(简称“大模型”)作为新一代人工智能(Artificial Intelligence Generated Content,AIGC)技术的典型代表,正在深刻影响着审计行业的发展。大模型丰富的世界知识、流畅的人机对话能力和强大的语言理解能力使其成为构建审计知识问答系统的最佳模型。问答系统以用户提问和系统回复的方式实现人机交互,可将形式多样的审计应用场景整合到一个系统中,既极大降低了审计人员利用人工智能技术的难度,也增加了人机交互的灵活性,实现了对审计专家经验的充分利用。

然而,由于审计领域知识专业性以及对答案精准性要求,直接应用通用大模型构建问答系统难以满足审计实践需求,因此,探索构建适用于审计领域的知识问答系统具有重要研究意义和实践价值。本文提出一种基于大模型“智能驱动”的审计知识问答系统构建范式,并设计了该系统架构方案,以期为AIGC技术在审计领域的实践应用提供新思路。


二、文献回顾

在信息化背景下,我国审计已经经历了计算机辅助审计、联网审计和大数据审计三个阶段,正在积极探索和实践智慧审计,以提高审计效率和质量。自知识图谱概念被提出以来,信息系统的构建逐渐转向以“知识”为核心,而非传统的“数据”驱动模式,辅以人工智能和知识图谱的智能问答系统实现了从“数据”到“数智”的跃迁,审计方法也从大数据审计阶段过渡到智慧审计阶段

审计数智化转型时代,大数据是实现智慧审计的抓手,为智慧审计提供海量的电子数据;而人工智能开始在智慧审计中发挥大脑作用。在智慧审计实践方面,陈雪嵩探讨了大模型在企业内部审计中的应用思路及技术细节;刘锦讨论了AIGC技术在审计全过程的应用场景,并探索“开源大模型+检索增强生成技术(Retrieval-Augmented Generation,RAG)”在审计领域的应用原型与实践效果;万钧从审计知识管理视角设计了基于大模型的审计知识应用框架,即通过构建审计知识仓、审计知识管理系统和审计知识应用场景,形成一套高效的审计知识管理应用体系。然而,大数据到人工智能不仅是从数据到知识的跃迁,更是从传统范式到融合范式的探索。因此,本文在刘锦研究基础上,从系统构建视角进一步探究AIGC技术与审计领域深度结合的理论框架,从理论上创新审计大模型构建新范式,即“智能驱动”范式,进而设计基于大模型的知识问答系统架构方案,让AIGC技术赋能审计高质量发展。


三、审计问答系统应用场景探讨

(一)当前审计信息检索面临的困境

目前审计机关利用信息检索技术强化审计知识支撑时,主要面临以下三类矛盾:

一是丰富的审计知识与低效的检索方法之间的矛盾。随着信息技术在审计行业的深入应用,审计领域积累了大量的专业知识和历史数据,包括法律法规、政策文件、审计报告、财务报表等,它们构成了审计知识的基础。尽管审计知识量巨大,但审计人员在检索知识时往往依赖于传统的搜索引擎技术,这些技术在处理非结构化文本、多表格数据时难以快速准确地找到所需信息。

二是相关性低的原始检索结果与生成式答案之间的矛盾。基于检索系统获得的反馈信息往往包含若干个相关网页,这些网页的内容信息分散、“杂质”较多,并非用户想要的答案形式。审计人员期望系统可以将这些分散的信息整合起来,根据用户输入需求,形成一个连贯、有逻辑、按照指定格式输出的结果。

三是简单信息检索结果与复杂问题推理之间的矛盾。信息检索系统常基于关键词匹配,能够快速反馈与查询相关的信息,但缺乏对信息背后复杂逻辑的理解和分析。此外,此类检索方式只能触及信息表面,无法深入分析信息的深层次含义及上下文联系;而审计人员期望得到一个准确、精炼的答案。因而信息检索无法满足需要进行深入分析的复杂问题和多跳推理问题的应用需求。

(二)审计知识智能问答应用场景设计

基于大模型的审计问答系统应立足于审计行业,以满足审计人员业务需求为核心,以互动式问答为使用模式,旨在清晰、准确地回答审计相关问题,辅助撰写审计相关文档。基于此,本文将该系统命名为审计知识智能问答大模型系统(简称“审计问答系统”)。具体来说,本文认为该系统需要满足以下三类应用场景。

1.审计知识的理解与智能问答

审计问答系统的第一个任务是与审计知识相关的交互式问答。审计人员向问答系统输入问题,并期望获得准确答案。该场景对应的系统设计难点在于:(1)问答系统能够准确理解审计人员输入的各种类型、各种表达方式的问题;(2)问答系统能够准确回答这些问题,这里既需要考虑答案准确性,也需要考虑答案多样性。这就要求问答系统在模型构建时既具备充足且广泛的知识储备和自然流畅的语言表达能力,也需要学习和掌握审计领域相关知识,如审计法规制度文件、审计案例等,还需要在问答系统中辅以企业内部资料的知识库支持,实现对隐私信息或精准度要求极高问题的答案溯源。

2.审计问题定性与法规推荐

第二个任务是检查审计项目是否存在违规违法问题,并判断哪些法规制度可以作为该问题的审计依据。这一应用场景要求问答系统能够从输入的审计底稿中总结审计问题,并“检索”而非“生成”恰当的法规制度作为该审计问题的定性依据和处罚依据。该场景对应的问答系统设计难点是基于审计底稿的问题总结能否抓住本质,进而在定性问题上能否引用恰当且准确的法规制度。这要求问答系统的答案具有零幻觉能力和尽可能高的准确率,并依据已有的法规制度等知识检索出原始文件作为解释和佐证。

3.指定格式/内容的审计文档生成

审计问答系统不仅需要回答审计相关问题,还能够根据审计人员需求总结、改写、扩写、撰写各类审计文档。这些需求要求系统可以分步执行审计人员的命令,并具有较强的上下文记忆能力。此外,在这一过程中,系统可能需要与审计人员进行多轮交互,并在审计人员提供的知识和提示下实现最终文档生成。


四、“智能驱动”的审计问答系统构建范式

在审计领域,审计问答系统主要是指针对企业或审计机关的各类审计知识及围绕这类知识所衍生的各类问答场景,构建一个基于大模型的智能问答系统。该系统以企业知识体系为知识源,以大模型为引擎,结合检索增强生成技术和智能代理技术,构建一个既满足开放性也满足精准性需求的审计知识智能问答系统。为此,本文提出一种“智能驱动”的审计问答系统构建新范式,在“数据驱动+模型驱动”融合范式基础上,强调以大模型为基座,以高质量领域数据为素材,构建“智能驱动”新范式,体现世界知识与领域知识协同决策的诉求。

(一)传统范式下问答系统面临的挑战

传统检索/问答系统构建时根据所需要关注的领域视野、问题类型和数据资源Dsmall,构建满足功用的系统,即构建映射函数y=f(x)。对输入问题x,问答系统反馈答案,其中函数f由领域数据资源Dsmall将问题映射为答案,该映射过程可以是基于字符串匹配的记录查询、基于关键词检索的搜索引擎、基于知识图谱的答案推理。然而,数据驱动或模型驱动的研究范式在实际应用中面临严峻挑战。一是模型针对性较强,即模型是为特定类型的任务而设计的(如分类模型、推荐模型、检索模型等),不具备任务迁移能力;二是数据来源较窄,即针对特定应用领域构建数据资源,面向领域外的问题数据覆盖面不足;三是系统使能有限,即模型是基于特定领域的有限数据量构建而成,其具有“从零构建”“一类问题一个模型”的特点,进而使得应用企业需要构建多个功能类似的系统,增加了企业建设成本;四是无交互问答,即系统只能根据用户输入问题给出一个答案,无多轮的人机交互能力。

(二)“智能驱动”范式下的模型阐释

如图1所示,本文提出的“智能驱动”问答系统构建范式可有效应对上述挑战。该系统构建范式具有如下三个特征。

图片

首先,该范式以大模型为内核,已包含了广泛的世界知识。世界知识是指大模型以海量的、包含各种场景的世界知识语料库数据Dbig为基础,以包含数百亿甚至千亿参数规模的深度神经网络模型为框架,在模型预训练过程中编码了从基本事实信息到复杂社会规范和逻辑结构的广泛世界知识,并以自然文本的形式存在。因此,大模型具有通用人工智能的特点,不仅能回答有明确答案的问题,还具有较强的逻辑推理和求解不确定性问题的能力。因而模型映射函数f(·)=F(Dbig)使能较强,即针对用户输入x,问答系统依据大模型输出相应结果y=f(x)。该交互形式广泛适用于各类型问答任务,包括领域知识和世界知识问题。

其次,“智能驱动”范式具有较强的领域适应能力。领域适应是指问答系统能够理解审计领域的具体需求和细粒度知识和提问,进而满足知识问答和智能决策的需求。这里需要通过知识对齐和检索增强生成两种方式实现领域适应。在知识对齐阶段,使用较小规模的领域数据Dsmall使原有大模型对齐领域数据,即f->f’,f’(·)=F(Dsmall),其中F(Dsmall)即为大模型的知识对齐函数,一般采用可微调算法f'(·)=F(Dsmall)使得模型的映射函数由f调整为f'。知识增强是指通过整合企业或审计机关内部知识和资料以提高问答结果的精准性,即构建审计知识仓。在检索增强生成阶段中,针对用户输入x,从审计知识仓中检索与之相关的知识源k,并将其交由大模型根据问题进行答案整合。需要说明的是,在领域适应训练与应用时,可将开放的通用大模型下载到本地并利用小规模领域数据中进一步训练和在局域网内部署应用。

最后,“智能驱动”范式具有灵活的人机协同能力。在人机协同决策过程中,可将人类决策过程抽象为智能代理可完成的业务流程。智能代理通过对用户提问的深入分析,并通过知识库检索、大模型答案生成、信息组织和规划等一系列过程实现最终决策。这一过程利用大模型内嵌的广泛知识、领域知识仓的精准知识以及智能代理的业务流程智能化编排答案推理过程,最终完成智能决策。

简而言之,“智能驱动”范式的审计知识智能问答系统具有开发成本低、脱机/局域网使用、领域适应性强、使能创新能力更强的优势。


五、基于大模型的审计问答系统架构设计

当前通用大模型直接应用于现实业务场景时容易产生幻觉问题,这会降低系统性能,无法满足用户的期望。审计大模型应着眼于人与模型的协同合作,共同高效、准确地完成审计任务。这一需求不仅要求审计大模型能够掌握审计领域概念、术语、知识等,还需要大模型能够理解审计工作基本流程,以其较强的上下文记忆能力、知识检索与复杂问题推理能力、流畅的文本生成能力等辅助审计人员高效、高质量地完成审计工作。因此,本文从领域适应角度设计基于大模型的审计知识问答系统架构方案,使其能够对审计领域的术语、概念和规则有更深入的理解,从而提供更准确和可靠的结果。系统架构如图2所示,包括五层结构:数据仓库层、数据工程层、模型仓库层、模型任务层和系统应用层。

图片

(一)数据仓库层

数据仓库层的主要功能是为大模型知识对齐和推理应用提供领域专有数据。基于对审计大模型应用场景的抽象与凝练,并结合审计大模型构建实践经验,本文认为与审计问答系统密切相关的领域知识包括所在企业或机关所使用的审计法规制度、审计案例、审计问题定性与法规推荐、审计报告文档等信息。这些领域数据涉及审计业务的方方面面,具有质量高、专业性强、文档较长等特点,既可为审计大模型知识对齐提供高质量的训练数据源,也可为审计大模型推理应用提供可溯源的审计知识仓,提高了问答系统的可解释性和忠诚度。此外,数据仓库层需要确保领域数据覆盖全面、实时。

(二)数据工程层

数据工程层的主要功能是为问答系统提供各类数据处理与转化组件,包括:

1.数据清洗,即将原始非结构化文档分块、切片转化为细粒度文本片,如将电子书《审计常用定性表述及适用法规导向——固定资产投资审计》按章节内容分成若干文本片,每个片段涉及一个审计问题的【表现形式】【定性依据】【处理处罚依据】等字段。

2.数据标注,即对审计数据标注类别信息,如对上述电子书中的审计问题“未按规定缴纳印花税”标注所属类别为“固定资产投资审计”。

3.特征抽取,即针对较长文本从中抽取出所涉及的审计疑点、法规名称等自定义特征,以便对该数据进一步构建大模型微调任务和提高检索召回的准确率。

4.问答对构建,即对结构化文本数据通过大模型转换为问答对形式,其作用在于将法规制度等条款型文本转化为自然问答对形式,便于构建大模型知识对齐的指令数据集。

5.指令构建,即通过提示工程将问答对根据不同任务需求进一步转换为指令数据,通常包括一个问题、任务描述或预定义的文本片段,用于指导模型生成合适的文本结果。指令能够帮助语言模型更好地理解特定任务。

6.数据向量化,即将文本片和问答对等非结构化数据通过向量模型转换为数值向量并存储到向量数据库中。此外,在审计业务场景中经常面临审计人员对提交的临时/局部/私有知识文档进行检索的场景,而这些知识在审计大模型知识对齐阶段并未涉及,需要在推理阶段额外提供给大模型。为解决这类知识更新问题,可采用数据向量化方式将临时输入文档切片并转换为数值向量为审计大模型回答用户提问提供新的独有数据。

最后将整理好的数据分别存入指令数据库和向量数据库中供领域大模型知识对齐和推理应用使用,数据工程的整体处理流程如图3所示,通过对数据仓库中各类型数据进行处理与转化,可将繁杂无组织的领域原始数据转化为精简无冗余、高质量、具有强特征表达能力的大模型数据。

图片

(三)模型仓库层

模型仓库层主要为问答系统提供关键算法模型,包括:(1)提示工程,即设计和优化输入提示以有效引导大模型生成所需输出的过程。提示工程的目标是通过精心设计的提示词,结合用户输入使系统的回复更加准确、相关。(2)通用大模型,主要指当前主流开源大模型,如LLaM、QWen、ChatGLM等。由于大模型是在数万亿字符集上通过复杂的深度学习算法训练而得,已具备了广泛的世界知识与流畅的人机对话能力,是问答系统走向通用人工智能的重要桥梁。使用已有的开源大模型作为审计智能问答系统的基础模型可有效节约开发成本和开发时间。(3)嵌入模型,即将文本、图像等转换为数值向量的模型,如Text-embeddings、M3E等。嵌入模型选择的关键在于该模型能否将领域文本映射到一个恰当的语义空间,使得文本之间相似度度量更加准确。嵌入模型对大模型能否从大规模知识库中检索到恰当的答案至关重要。(4)微调算法,指在通用大模型(如QWen)基础上,通过在特定任务或领域数据集上进行知识对齐,以优化模型在特定应用场景中的表现。在领域大模型建设中,基于指令数据集通过微调算法(如LoRA)构建一个领域适应性好、知识与任务理解能力强的领域大模型是一种常见建设思路。(5)智能代理是使用自然语言处理和机器学习技术来创建能够自主感知、决策和行动的系统。利用大模型的自身能力,智能代理可以不断学习和适应新的任务和环境,因而可用于知识检索与归纳、审计定性法规推荐、审计报告生成、财务报表分析等复杂任务。

(四)模型任务层

模型任务层的主要功能是根据审计知识智能问答系统建设要求抽取和设计大模型建设任务,主要包括:

1.知识对齐

基于大模型知识对齐的本质特征,结合提示工程抽象出各类大模型微调任务。一般可以将知识对齐任务分为3个层次,包括句子级、段落级和文档级,并构建不同任务的微调指令数据集。句子级任务侧重于信息抽取与短语分类,如从审计文本中抽取审计问题、法规名称等实体,构建实体关系分类等。段落级任务侧重于根据提供的信息自动回答各类审计问题,如审计知识的概念与定义、法律制度相关问答、审计问题定性与法规推荐等。文档级任务侧重于综合文件的分析和生成,包括审计风险/问题分析、审计案例/报告生成等,该答案在满足准确性要求下,还具有较强的开放性和多样性。

2.检索增强生成

检索增强生成的目的是从审计知识仓中准确无误地找到与用户查询最相关的知识片,这对降低大模型幻觉问题至关重要。受限于训练数据的时效性和领域局限性,当涉及实时数据或专业领域知识时,大模型的生成结果可能不够准确,这时需要引入额外的知识库辅助大模型生成准确答案。例如,审计大模型在回答法规制度类问题时需要准确生成法规原文内容,这时可从向量数据库中检索出相关文本片段并按相关性排序作为问答系统的答案输出。

基于RAG的审计大模型推理流程如图4所示。首先对审计知识仓中的文本切片并通过索引优化构建与向量数据库之间的索引关系;其次,在大模型推理阶段,根据用户输入问题从向量数据库中通过相似度计算及检索重排获得一组与问题相关的文本片作为召回信息反馈给审计大模型;最后,在大模型答案生成阶段,对输入的用户问题结合召回信息重写问题,并按用户输入要求生成相应答案。这一过程既利用了大模型对输入问题的解析和重构能力,也利用检索召回技术为大模型生成答案提供相关素材,有效降低了大模型的幻觉问题。

图片

3.模型评估

模型评估的目的在于评测所构建的审计知识问答系统能否满足审计人员的实际应用需求。在审计大模型系统评估中,除了常规的系统功能性、兼容性、并发性、可用性等评估指标外,还需评估大模型的通用人工智能水平,一般可通过测试生成答案的准确性、相关性、忠实性等评估大模型语言理解能力、语言生成能力和任务完成能力,通过对噪声和敏感数据的测试评估大模型的鲁棒性和确保内容安全能力。

(五)系统应用层

系统应用层的主要功能是实现产品部署与应用,进而获得一组审计大模型生态系统,即为审计人员设计一个或多个方便易用的审计知识问答系统前端。从审计实践调研中发现,审计大模型的主要应用场景包括审计问题定性与法规推荐、审计智能问答、审计文档生成等。面向上述场景,适宜的审计大模型信息系统形态包括:(1)微信小程序:该产品形态简单易用、便于推广,适用于非敏感审计信息查询检索,如查询审计准则与法律法规、审计问题表现与相似案例等。(2)Web浏览器方式是常用的问答系统呈现方式,该方式可在企业局域网内部署,产品功能较为丰富,可实现多轮问答、基于自定义文档的问答与内容生成、数值计算、审计报告生成等各类任务。(3)系统插件,即将大模型嵌入到企业的其他内部信息系统(如审计业务系统)中,辅助提升其智能化水平,如实现从审计底稿中自动总结审计问题、对审计问题自动生成问题分类与推荐定性依据等功能。(4)OpenAPI,即将审计大模型的各类功能以标准化接口形式封装起来,使得这些功能能够被关联企业或下游机关单位方便地集成和调用,从而大大扩展了智能问答系统的应用范围和推广价值。


六、审计大模型问答系统构建实践——以中石化审计智能问答系统为例

大型国有企业内部审计由于审计数据量庞大且审计流程复杂,其工作既依赖于人工操作,也需要辅以大量的电子文档(如法规制度、审计案例等),因而整个审计过程耗时冗长、效率不高且效果不彰。为提高审计工作效率、准确率和覆盖率,基于本文提出的“智能驱动”范式设计审计问答系统架构方案,以中石化内部审计为应用需求,探讨基于大模型的审计知识问答系统示范应用。

(一)审计知识智能问答系统需求分析

通过对中石化审计部实际应用场景深入解析与探讨,归纳出中石化审计知识问答系统的开发需求。

1.准确性。系统首先需要保证能够精确理解用户的查询意图,并提供准确无误的答案或信息,真实反映中石化内部审计相关的知识和法规。

2.时效性。系统应能够识别并纠正错误或过时信息,保持知识的时效性和准确性,如《中华人民共和国会计法》2024年7月已施行新版本,需要及时将该知识更新到系统中。

3.唯一性。系统提供的答案或解决方案具有排他性,即在特定情境下是最适用和最合适的,特别是针对企业内部信息和有确定答案的问题,要求系统能够给出唯一准确的答案。

4.开放性。针对审计文档生成、审计底稿总结、审计意见撰写等具有一定开放性和发散性的任务,系统在确保准确性的前提下,能够变换语言组织,给出更加开放多样的答案。

5.隐私性。问答系统应实施严格的访问控制措施,确保只有授权用户才能访问相应等级的知识库信息。

6.安全性。确保基于大模型的问答系统在所有阶段都受到保护,这包括数据安全、模型安全、系统安全、内容安全、认知安全和伦理安全等。

(二)中石化审计知识智能问答系统构建

1.模型选择。在审计实践调研基础上凝练和抽象出三个关键业务场景,即审计知识的理解、审计问题定性与法规推荐和审计文档生成。基于上述应用场景抽象出审计大模型知识对齐任务,进而实现领域任务个性化定制,并构建一份包含多个任务的审计大模型评测数据集用于评估现有大模型(如Baichuan、Qwen、ChatGLM3)对审计领域知识的掌握和运用能力,最终选择国产大模型通义千问(Qwen-14B)为问答系统提供通用世界知识。

2.领域适应。参考已有大模型训练思路,构建面向中石化内部审计的大规模、高质量、有监督指令数据集并通过指令微调获得中石化审计大模型。该模型以中石化审计关键业务场景为基础,通过审计领域数据微调让通用大模型掌握更丰富、更细粒度的审计领域知识、概念及其关系,并理解中石化内部审计中的常见问题。此外,在模型评估阶段,从多个维度、不同指标对比评估了中石化审计大模型与通用大模型在审计任务上的完成能力。表1对比展示了该模型与Qwen-14B在中石化审计中一系列任务上的性能。评估结果表明中石化审计大模型具备更强的中石化审计领域任务完成能力,任务理解与答案质量均优于通用大模型,领域适应性良好。

图片

3.人机协同。以检索增强技术为大模型提供细粒度的中石化内部审计知识,以智能代理封装审计问答系统业务流程,并以Web浏览器方式作为问答系统呈现方式。在该模式下,基于中石化审计大模型的问答系统已预先载入大量审计相关文档、高质量问答对等审计知识仓。智能代理判断用户提问意图并选择恰当的业务流程实现对输入问题的解析与优化、对相关知识的检索与召回、调用大模型进行答案组织与生成输出等。图5展示了基于智能代理的问答结果及答案溯源信息。可以看出,基于领域大模型的审计知识问答系统不仅能更准确地理解各类审计任务,还能给出更加准确、可解释的答案来源。此外,审计人员可通过与大模型进行多轮对话、向系统提交文档等方式实现人机协同,使得该系统能更好地理解不同审计人员的提问意图,也能实时接收审计人员经验知识实现更高效的人机交互,共同完成审计作业。

图片


七、结语

随着以大模型为代表的通用人工智能的快速发展与广泛应用,人工智能驱动的审计知识智能问答系统成为实施智能化审计流程的有力助手。相关监管及研究机构已经开始探索大模型审计相关研究与实践,从数据、模型、应用场景等开展前瞻性的探索。各级审计机关和国有企业内部审计部门也应结合自身发展现状,有步骤、有计划地开发基于大模型的审计知识问答系统。借助大模型所内嵌的丰富世界知识与较高智能水平,辅以高质量审计领域知识与审计人员的专业经验,相信基于大模型的审计问答系统能够提高审计工作效率、提升审计工作质量。

为充分发掘大模型潜力,审计部门可根据自身业务需求的迫切性,凝练大模型应用场景、构建大模型运用数据源进而定制部门私有化大模型系统,让通用人工智能真正助力审计工作,也希望本文的研究框架能为大模型落地审计领域提供一定的指导和借鉴,也为行业大模型健康有序发展提供支撑

作者:黄佳佳 周立云 徐超

来源:会计之友微信公众号


编辑:孙哲



目前180000+人已关注我们,您还等什么?
图片


图片
“阅读原文”一起来充电!

点我访问原文链接