生成式大语言模型在内部审计定性中的应用研究_最新动态

首页 > 最新动态 > 生成式大语言模型在内部审计定性中的应用研究

最新动态

生成式大语言模型在内部审计定性中的应用研究

2026-05-229

一、引言

　　内部审计定性是指对审计发现的问题性质进行判定，并依据相关法规制度提出处理与处罚建议。该过程需要审计人员凭借丰富的专业知识和实务经验，对复杂的证据进行综合分析与主观判断。然而在实务工作中，内部审计定性工作存在法规引用不规范、判断标准不一、查阅成本高、知识利用效率低等问题。随着企业经营复杂程度不断提高，内部审计对定性判断的质量与效率提出更高要求。

　　近年来，生成式大语言模型（简称“大模型”）的快速发展为审计定性工作提供了新的思路。大模型具备较强的自然语言理解与生成能力，能够协助审计人员快速分析文本证据、检索匹配相关法规条款，并规范定性结论的表达方式。例如，DeepSeek等大模型在问答推理等任务中表现出较高准确性与较强语言组织能力。

　　二、文献综述

　　（一）内部审计定性研究

　　1.内部审计定性重要性

　　作为连接审计证据与处理意见的枢纽，审计定性是形成审计成果和报告的重要基础。内部审计定性判断的准确性直接关系到审计结果的公正性和权威性，关系到审计风险控制与法律责任归属。

　　2.内部审计定性面临的困难

　　当前内部审计定性面临多方面的困难与挑战：一是判断标准存在主观性，导致定性结果准确性不足，实务中常见的问题包括定性与事实不符、表述与定性不一致；二是法规引用错误，表现为引用已废止、引用条文不完整、将处理依据误作定性依据等；三是缺乏统一裁量标准，使得处理建议的幅度与类型存在较大随意性，削弱了结论说服力和审计权威性。

　　3.现有内部审计定性方法

　　实际调研和相关文献显示，目前内部审计定性主要以审计人员为主导，计算机系统仅在法规条文匹配方面提供辅助功能，常见做法包括：

　　一是互联网查询。审计人员使用法律法规平台、公告网站及搜索引擎查询依据，该方式具备获取便捷、无额外成本等优点，但信息准确性与法规条文精确度缺乏保障。

　　二是定性手册、问题清单与经验汇编。随着审计工作的规范化和专业化，专门的审计定性手册、问题清单和经验汇编等参考资料出现，如中国时代经济出版社出版的审计定性依据速查手册系列图书，有利于规范审计定性操作。但由于仍以人工方式翻阅，限制定性效率。

　　三是法规系统检索，包括企业内部自建或外部购买法规系统。部分企业通过自建专门的法规数据库，实现了较高效的审计法规信息的统一管理，但其建设、运行和维护依赖于长期的资金和技术支持。此外，市场上有标准化的法规检索系统供企业采购使用，如中国时代经济出版社推出的“审计问题定性检索系统”。该系统目前虽然能够直接通过审计问题检索到相关的现行法规条文，但无法支持更复杂的语义理解。

　　（二）大模型及审计应用研究

　　1.大模型的技术特点

　　当前大模型具有以下关键技术特征：一是上下文学习能力。大模型无需针对特定任务进行专门训练，仅凭借上下文中的提示词（Prompt），即可快速理解并完成新任务。二是知识记忆能力。大模型在预训练过程中已隐含地学习了大量公开文本所涵盖的广泛知识，包括基础常识、通用知识以及特定领域的术语。三是语言生成能力。大模型通过学习概率分布，进而生成语义连贯、逻辑通顺的文本内容。四是存在幻觉问题。大模型存在明显的技术缺陷，例如可能产生缺乏事实依据甚至完全错误的幻觉内容。

　　上述技术特征决定了大模型在审计定性领域的适配性与局限性。一方面，其上下文学习、知识记忆与语言生成能力可高效辅助审计人员快速处理审计工作，高效编辑或整理审计文档；另一方面，“幻觉”问题则需要在实际应用过程中，精心设计应用场景，强化人工校验机制，确保输出质量。

　　2.大模型在内部审计中的应用

　　在内部审计领域，大模型可以通过对海量的文字资料进行分析，提供专门的技术支持，解决数据处理效率低、异常检测不精确等问题，同时提升审计工作的智能化水平和决策支持能力。此外，大模型还可以提供构建智能审计知识库的路径，对法规政策、审计经验进行智能化检索和应用。

　　（三）文献述评

　　综上，当前内部审计定性面临标准缺失、规则适用混乱、判断结果不一等多重挑战。尽管部分企业已引入法律法规库、检索系统等工具，但多依赖关键词匹配，难以满足深层语义推理需求。大模型的应用仍处于探索阶段，缺乏以企业为主体进行定量分析的系统研究。因此，本文以GX企业为例，开展大模型在审计定性中应用的方法与实践研究。

　　三、大模型在内部审计定性中的应用方法

　　（一）应用框架

　　本文参考Ties de Kok提出的将大模型应用于研究任务的四步法，设计适用于内部审计定性场景的应用框架（见图1），包括四个关键步骤：明确研究任务、选择模型与训练方法、设计有效提示词与评估应用成效。

　　（二）应用步骤

　　1.明确研究任务

　　在任务启动阶段识别应完成目标并界定所需知识。内部审计定性涉及审计人员对法规制度的理解和审计专业判断的运用，定性判断具有主观性和多因素性。为提高大模型在审计定性中应用的准确性，需要系统性地收集、整理和筛选与审计定性相关的法律法规信息，包括审计政策、审计法律法规、审计准则、招投标管理办法、财务法律法规、企业内部控制标准等。

　　2.选择模型与训练方法

　　应用大模型通常可采用以下三种方式：零样本（Zero-Shot）、少样本（Few-Shot）与微调（Fine-Tuning）。零样本（Zero-Shot）方式无需大模型训练，仅通过提示词即可完成任务，部署成本最低，但依赖外部知识库支撑；少样本（Few-Shot）方式通过提供少量示例提升生成效果，在成本与效果间得以平衡；微调（Fine-Tuning）方式是在大量领域数据基础上对大模型进行再训练，适合长期规划与高精度场景。

　　3.设计有效提示词

　　提示词工程（Prompt Engineering）是指通过系统设计任务指令、上下文信息与输出格式要求，引导大模型生成符合业务要求的内容。在采用零样本或少样本方式时，提示词的设计质量直接影响生成内容的准确性。在审计定性过程的不同阶段需设计对应的提示词模板。提示词设计策略包括角色设定、指令清晰化、格式规范化与情境嵌入。提示词组合策略示例如表1所示。

　　4.评估应用成效

　　应用大模型之后，单位可从系统功能、用户体验和审计工作改进三个方面进行效果评估。系统功能方面，对完成任务的情况进行评估，例如检索准确率、响应速度等指标。用户体验方面，分为用户操作体验和用户行为体验，操作体验可通过定期发放问卷或访谈收集用户反馈的方式来评估；行为体验可通过日志数据分析用户行为，例如功能使用频率、停留时间、跳出率等指标。审计工作改进方面，评估大模型使用节约审计工作成本、提高审计工作效率以及达成审计工作目标情况。

　　四、GX企业内部审计定性现状

　　（一）GX企业介绍

　　GX企业是一家大型国有企业，业务涵盖基础设施建设、实业投资等领域。公司设有独立的内部审计部，直接向董事会审计委员会负责。审计部下设若干审计科室，拥有专业的审计人员队伍。近年来，GX企业积极推进数字化转型，已开发智慧审计平台并引入法规制度库。

　　（二）内部审计定性工作开展情况

　　1.开展审计项目情况

　　GX企业内部审计部依照年度审计计划，开展包括经济责任审计、物资服务采购审计、工程审计、非采购合同审计等多类型的专项审计任务。企业未单独设立财务收支审计项目，该类审计内容融入经济责任审计等专项审计。当前，经济责任审计与物资服务采购审计为GX企业审计工作重点。

　　2.内部审计定性流程

　　GX企业的内部审计工作流程（见图2）分为审计准备、审计实施、审计报告、审计整改和成果运用五个阶段。其中，审计定性工作主要集中在审计实施阶段与审计报告阶段，具体场景如下：审计人员通过查账、核对等方法发现问题线索后，需要检索相关法规制度具体条款，将其作为定性依据、处理处罚依据记录在审计工作底稿中；在最终编制审计报告时，将定性依据、处理处罚依据引用到审计报告中以支撑审计结论。

　　3.法规制度库应用情况

　　为辅助审计定性判断，GX企业已在智慧审计平台开发法规制度库模块，用于集中管理并支持检索各类审计相关法规制度文件。审计人员可通过关键词在系统中查找适用法规条款，手动筛选后将条文内容填写至审计底稿中。

　　该模块在一定程度上提升了法规制度查找的便利性，但实际运行中仍存在以下局限：一是内容覆盖不全。法规制度库主要收录公司内部审计制度和部分常用法律法规条文，覆盖范围有限，缺乏最新更新。二是检索方式原始。目前法规制度库仅支持基于关键词进行文档名称和文档内容检索，无法进行智能语义匹配。三是流程整合不足。法规制度库作为独立工具未与智慧审计平台打通。

　　（三）内部审计定性工作问题及成因

　　GX企业内部审计定性工作中当前存在的问题及其成因分析如下：一是缺乏智能工具的支持。企业尚未引入大模型等智能化工具，人工查阅工作负担大。二是缺少知识库支撑。企业尚未建立结构化的审计知识库，过往案例经验尚未系统整理与复用，导致知识获取效率低下。三是缺乏标准化流程。关键环节如法规匹配、问题定性在执行中存在较大随意性，不同审计人员标准不一。四是审计人员结构和能力限制。企业审计部人员平均年龄偏大，对新技术的接受和使用能力受限，多数人员为财务审计科班出身，法律、计算机等跨领域知识和能力欠缺。

　　五、基于大模型的GX企业内部审计定性优化设计

　　（一）优化思路

　　1.内部审计定性流程优化

　　针对当前以人工判断为主的工作模式，本文提出“基于大模型推理、结合人工专业判断”的人机协同优化思路。优化后的GX企业审计定性流程（参见图3）中，大模型基于知识库自动检索与审计问题相关的法规条款，完成初步定性分析与判断（包括审计结论、意见及建议），以及基于审计底稿自动生成初步审计报告中的定性内容（包括审计依据、审计发现、审计结论、审计意见和审计建议等），审计人员主要负责大模型生成结果的复核确认和补充完善。

　　2.大模型应用

　　本文构建了基于大模型的知识库平台，其具体构建路径为：依托Cherry Studio^①平台构建知识库，通过硅基流动（Siliconflow）^②平台提供的嵌入模型与推理模型，实现“向量检索+生成式问答”的集成式部署。审计人员在输入问题后，平台调用嵌入模型将其转化为语义向量，并在向量空间中匹配最相关的法规条款，实现跨语义的智能法规问答。平台整体采用“大模型+RAG（Retrieval-Augmented Generation，检索增强生成）”架构和流程（见图4），实现基于本地法规知识库的问答式对话。

　　（二）具体步骤

　　1.知识收集

　　首先，梳理审计过程中涉及的各类法规文本、制度文件与典型案例，覆盖国家法律、行业规范及企业内部规章等。本文收集了以下知识内容：一是外部法规政策，包括国家层面的法律法规、内部审计准则等；二是内部制度文件，包括内部审计管理办法、风险控制制度以及审计工作底稿模板等；三是审计案例与经验，整理历史上同业发生的审计案例及其定性处理结果，包括其引用的法规条款和最终处理处罚意见建议等。

　　2.选择模型与训练方法

　　鉴于大模型无需专门训练即可理解通用语言知识，宜优先采用零样本（Zero-Shot）方式直接调用通用大模型；当零样本（Zero-Shot）方式效果不佳时，再考虑使用少样本（Few-Shot）方式或对大模型进行微调（Fine-Tuning）方式。在上述优化次序下，需要为审计定性优化选择适合的大模型，选型考量因素清单参见表2。

　　本文在实验过程中对表2中所列的6个大模型在不同应用场景中的表现进行了评估，基于“成本低、效果优”原则，选择应用DeepSeek系列大模型。将DeepSeek-V3用于日常审计文本摘要和政策问答等场景，将DeepSeek-R1用于疑难审计问题的深入分析和审计报告的自动生成。

　　3.提示词设计

　　针对审计定性任务的特点，设计大模型提示词（Prompt），以引导大模型输出符合审计业务要求的内容和格式。本文以GX企业专项审计中发现的违规招待费为例，设计简单适用且结果较优的提示词，如表3所示。

　　（三）应用成效评估

　　为评估本平台在实际审计问题定性流程中的应用效果，本文选取GX企业典型审计实例，包括审计证据、审计问题、定性依据与处理建议等内容，构建标准化数据集，并开展大模型表现测评。测评时采用传统人工处理方法作为系统性能的对比参考基准。

　　在测评方法的选择上，本文参考国家标准《人工智能大模型第2部分：评测指标与方法》及相关文献，采用客观测评和主观测评相结合的方法。客观测评指标包括：（1）micro-F1值，用于衡量大模型给出的定性结论和检索结果与标准答案的匹配程度；（2）平均处理时间（Average Execution Time，AET），用于衡量系统在实际应用场景中的响应效率。主观评测指标采用MOS分值（Mean Opinion Score），由项目组人员对大模型输出内容在可读性、准确性与实用性等维度打分（评分范围为1分至5分）。下文对大模型在审计定性流程中应用成效的评估结果进行分析。

　　1.在准确性方面，大模型在多个任务应用上显著优于传统人工方法，尤其在法规条文检索和审计问题定性两个环节表现突出。在法规条文检索任务中，大模型的micro-F1准确率为0.91，而人工方法为0.79，可见大模型在理解文本语义与匹配法规条文方面更具优势。在审计问题定性任务中，大模型的准确率为0.86，人工方法为0.77，可见大模型在基于规则判定违规性质方面具备可靠性。然而，在审计证据分析环节，人工方法表现更为稳定，micro-F1准确率为0.84，略高于大模型的0.78，可见零样本大模型在面对复杂、缺乏结构化提示的多源证据时，存在理解偏差或判断失准情形。

　　2.在处理效率方面，大模型辅助方式显著优于人工方法。以法规条文检索为例，人工完成一轮查询平均耗时约为300秒，而大模型仅需20秒。总体平均来看，传统人工方法的平均处理时间为大模型辅助方法的6倍到8倍之间，该效率提升能为审计人员释放更多用于分析与判断的时间资源。

　　3.在用户满意度方面，大模型在法规条文检索、审计问题定性和处理处罚建议三个环节均显著高于人工操作，表明项目组使用者对大模型提供的结果满意度更高。其中法规条文检索环节满意度最高，达到4.7分。然而在审计证据分析环节，大模型得分略低于人工方法。

　　六、大模型应用成本分析

　　为评估本文所提出的应用方案在实际落地中的经济可行性，本文基于GX企业审计部的使用需求，对三类可行方案进行了成本测算与功能比较，分别为API调用开源大模型、私有化部署本地大模型以及购买法规检索服务系统。

　　（一）API调用开源大模型成本测算

　　本文采用的模式是基于大模型服务平台通过API接口远程调用大模型。其调用费用按照Token数量计费，在GX企业使用情境下（11人、每天10次调用、年均200工作日）的工作负载，根据DeepSeek大模型API的调用计费标准估算大模型运行成本：DeepSeek-V3大模型的计费为输入端2元/百万tokens，输出端8元/百万tokens；DeepSeek-R1大模型的计费为：输入端4元/百万tokens，输出端16元/百万tokens。本文成本测算基于2025年6月DeepSeek API公开计费标准，实际部署以平台最新价格为准。年度大模型运行费用约为100元—400元，年度总支出约为1万元—2万元。

　　（二）私有化部署本地大模型成本测算

　　私有化部署方案通过本地GPU（Graphic Processing Unit，图形处理器）服务器运行开源大模型。以常见的开源大模型（DeepSeek 32B）为例，为保障推理效果，建议配置NVIDIA A40-48GB，搭配64核CPU、128GB内存及至少4TB存储空间的服务器主机，包括部署调试与技术支持等初始投入共约20.5万元（见表4）。该方案适合对数据安全和大模型控制能力要求较高的单位。

　　（三）购买法规检索服务系统成本测算

　　该方案指企业购买法规检索服务系统，获取法规文本检索、条文分类等功能，年费用约为3万元—5万元。此类系统功能相对固定，仅具备检索功能，适用于对法规精度有较高要求但不涉及语言生成任务的组织，无法支持审计定性的自动化与深层次分析需求。

　　（四）综合对比分析

　　综上可见，三种方案的成本与适配场景存在明显差异。从总成本来看，私有化部署方案初始投资约20.5万元；传统法规检索系统虽无初始投入，但年服务费用为3万元—5万元。相比之下，本文采用的API调用方案以零部署成本和每年约1万元—2万元的使用费用，在性价比方面最具优势。如果企业希望开展大模型的自主微调，可进行大模型本地私有化部署，以获得更高的可控性和大模型定制能力。不同方案成本与功能对比分析如表5所示。

　　七、大模型应用风险评估

　　在大模型的实际应用中，除成本考量外，亦需评估大模型引入可能带来的风险，主要包括以下三类：

　　一是数据隐私与信息安全风险。通过API方式调用外部大模型服务需将审计底稿、合同文本等企业内部数据以向量形式传输至第三方平台，存在业务机密泄露风险。为防范该风险，一方面应对上传数据进行结构化脱敏处理，避免敏感字段暴露；另一方面，针对高敏感审计任务，可采用在局域网内部署蒸馏版大模型的方式，保障数据在本地封闭处理。

　　二是API服务提供商变动风险。企业对外部大模型服务平台的依赖程度较高，若平台出现策略调整，如接口下线、价格上涨、访问受限等，可能造成审计系统运行中断，影响业务连续性。对此，应在系统架构中预设替代性大模型作为备份方案；并在合同条款中明确服务保障与价格波动控制机制。

　　三是大模型生成内容偏见风险。大模型输出内容基于训练数据进行概率生成，常存在事实错误、语义歧义或偏向特定判断逻辑的问题。为解决此类问题，需设置二次审核机制，由审计人员对生成内容进行核实确认和补充完善。在技术层面，通过控制大模型的温度参数来调节输出的确定性，审计场景中可将温度设为0以增强输出的可靠性。

　　八、启示

　　一是应以审计智能化应用的性价比为导向。本文的研究表明，通过API调用大模型，能够以较低成本满足内部审计中常见审计定性任务需求。对于GX企业这类中型组织而言，采用该方式可以快速部署、低成本运行，其效果显著。相比高投入的私有化部署模式，该路径为中小企业提供了一种务实可行的AI应用方式，帮助其以最小代价获得智能化转型的初步成效。

　　二是应以内部审计流程的标准化为基础。通过构建结构化的审计知识库、设计标准化的提示词模板，有效引导大模型输出更加准确、一致的定性判断结果。这种机制不仅减少了因个人经验差异带来的判断偏差，也促进了审计知识的归集、共享与规范应用，为审计工作的制度化与知识化积累奠定了基础。

　　三是应以分阶段的技术引入为策略。大模型的引入应当采用递进式策略：初期可通过API方式实现快速接入；中后期定制需求提升，可考虑私有化部署方式；未来随着组织技术能力的提升，进一步开展大模型微调，构建面向审计场景的企业级专用大模型。

　　四是加强内部审计人员的技术能力。审计人员不仅需要掌握基本的业务知识，还需了解AI工具的使用方法。通过系统性培训与实战操作，提升审计团队对AI的理解力与适应力，推动审计人员向“业务+技术”融合型角色转型。

作者：詹馨怡刘梅玲

来源：会计之友

编辑：孙哲

目前190000+人已关注我们，您还等什么？

戳“阅读原文”一起来充电!

阅读原文

点我访问原文链接