基于大数据的建模演化分析及可视化技术在内部审计中的应用
——以H烟草公司烟叶审计为例

2023-01-05 16:45:31湖北省烟草公司宜昌市公司 潘丽琼、严传林、杨静

摘  要:本文结合烟草公司内部审计工作实践,探索审计重难点领域技术攻关,研究基于大数据环境下的关键风险指标的建模演化分析及可视化技术在审计工作中的应用,有效提高审计监督质效,提升风险防控能力,充分发挥审计的“免疫系统”功能,研究结论对实现内部审计作业数字化转型具有一定的参考价值。

关键词:大数据审计;建模演化分析;可视化技术

1  研究背景

大数据时代的来临,引领了审计技术方法的革新.习近平总书记在中央审计委员会第一次会议上指出,“要坚持科技强审”;国家审计署侯凯审计长指出:“将大数据分析与审计工作紧密结合”;2020年以来的新冠疫情对在线审计工作提出更高要求,倒逼企业审计模式、审计技术迅速转型升级。由此可见,新时代信息技术下审计技术与方法的研究已经成为亟需研究的重大问题,如果将著名数学家华罗庚先生“把书读厚再读薄”的观点应用到审计工作中,即是搜集尽可能多的数据并提炼出关键信息。长期以来,受企业信息系统集成建设水平及审计信息化手段的限制,审计依赖于及抽样分析;大数据时代给出了“样本=总体”全数据模式,通过全维度数据开展智能化的数据挖掘与分析,进行综合审计判断,形成更为精准的审计结论,并从多层面探索有效的审计新思路、新方法,上述成果将在智慧审计作业不断演进的过程中充分发挥出审计的“免疫系统”功能。

2  文献综述

2.1大数据审计

通过大数据技术手段采集审计证据,对被审计单位的经营、财务、管理等各类数据的真实性、可靠性、有效性和安全性进行综合审查与评价活动.大数据审计特征可以总结为6M,即多对象(Multi-agency)、多目标(Multi-objective)、多关系(Multi-relationship)、多时点(Multi-timepoint)、多工具(Multi-tool)、多模式(Multi-model).大数据审计所具备的这些特点,促进审计工作从样本向总体转变,从局部向整体转变,从微观向宏观转变,从事后向事中、事前审计转变。

2.2大数据审计分析

以发现审计疑点为目标,综合运用传统数据分析方法、大数据挖掘、自然语言处理、模式识别等技术方法并考虑数据处理的实时性需求,对无法明显获取或深度隐藏的审计风险线索,通过一系列数据演化分析,最终显性识别风险因子(Risk Factor,RF)和准确定位关键风险指标(KeyRisk Indicator,KRI)。

2.3大数据审计可视化技术

数据可视化技术借助图形化的手段,以更简洁清晰的方式表达被审计数据信息中内在因素间的关联关系,从海量数据中快速发现审计疑点,提高审计效率.目前,大数据审计可视化技术主要可分为文本可视化、网络可视化和时空数据可视化、多维数据可视化等。

表2-1    数据可视化分类情况表

可视化类别

功能

典型方法

文本可视化

将文本中的词频与重要度、逻辑结构、主题聚类、动态演化规律等语义特征直观地展示出来。

标签云方法、Tile Bars 方法、Word Tree、FP-Tree、ThemeRiver、EventRiver 等

网络可视化

基于网络节点和连接的拓扑关系,直观地展示网络中潜在的模式关系。

H-Tree、圆锥树、气球图 Balloon View、树图技术 Treemaps、Voronoi 图填充、TreeNetViz 等

时空数据可视化

对时间与空间维度以及与之相关的信息对象属性建立可视化表征,对与时间和空间密切相关的模式及规律进行展示。

流式地图 Flow map、时空立方体等

多维数据可视化

对具有多个维度属性的数据变量进行展示。

散点图、投影、平行坐标等

3 审计方法概述

烟草企业多年来积累了海量烟叶收购、烟叶合同、烟叶物资、补贴数据,特别是二维码射频识别技术(RFID)运用,极大提升了企业内部与外部信息数据量。大数据环境改变了审计对象,促进烟草企业审计技术运用的不断升级和转型,为审计理念、审计制度、组织模式、技术方法的更新奠定了数据基础。基于烟叶审计既有工作内容多样性带来的固有风险,也有烟农众多带来的抽样风险,审计检查过程可谓“走遍千山万水、历经千辛万苦、问题千头万绪”,2020年以来,H烟草公司将烟叶大数据审计纳入创新项目,利用智慧审计作业平台实现数据清洗和打标,综合运用数据建模、回归分析、因子分析等多种方式,形成基于大数据的烟叶审计建模演化分析研究方法。基于近5年全量基础数据,通过数据汇聚、风险因子判别和关键风险指标审计建模等程序,以“靶向制导、精准审计”为目标,从海量数据中锁定风险数据和可疑行为,并借助可视化技术的应用,以更简洁清晰的方式表达审计数据信息内在因素间的关联关系,实现对烟叶审计风险和问题线索的准确定位,大幅提升审计效率与效能。

4 技术路线

以传统大数据审计七步流程法为基础,创新运用信息系统固化工作流程、自动生成分析报告并以可视化形式展示,实现智慧审计作业。


图4-1    智慧审计作业技术路线

4.2 大数据审计作业平台建设

拓展数据来源途径,加强业财审合作推进平台建设:一是从烟叶合同、烟叶收购等业务数据库中,提取烟农基本信息、合同产量、合同面积、收购全过程业务数据及技术员信息;二是通过财务物资系统提取补贴标准及补贴总量、总额;三是对原有业务、财务系统完善升级,构建基于基层管理需求、业审方共享的数据平台,通过系统间对应取数、标准设定等方式快捷生成分户烟农补贴数据,优化基层技术员应用桌面及功能,增加分户补贴明细汇总、单项补贴公示清单、全部补贴汇总表表单功能,为获取数据提供有效保障。

4.3 数据清洗挖掘

根据审计主线、业务规则和流程,应用ETL(抽取、清洗、加载)机制在业务数据库管理系统(Database Management System,DBMS)中抽取烟叶收购、调运、合同及物资补贴数据整合到同一DBMS,形成审计中间表;根据风险因子和数据优先级规则(回归、聚类、主成因分析法等),对不符合要求的数据如不完整数据、错误数据、重复数据进行过滤和修正,并对不同口径的数据进行转换;根据审计模型要求对数据点统计计算并自动打标,形成疑似风险数据;通过系统数据设置对数据库和数据字段进行智能扫描,以接口方式定期向指定DBS加载结果数据,并运行前端数据模型分析工具后自动产生报告,形成数据自动采集、加工、推送到产生分析报告的全流程智慧审计作业。

图4-2    ETL工作流程

4.4 建模演化分析

4.4.1 分析审计风险因子

根据审计覆盖范围所涉及业务关联领域访谈结果、已暴露的风险事件、制度规范文件等,结合业务发展流程的关键环节和关键要点、对应信息化系统的关键要素、已开展审计项目线索,初步梳理归纳业务风险事项。

表4-1    烟叶收购管理业务风险明细表

审计内容

风险因子

现象

关键要素分析

风险判定(阀值)

1

合同管理

(总量)

1.超计划种植;2.超计划收购;3.收购结束后,烟农家中还库存有较多的烟叶未收购。

1.种植面积大于上级主管部门指导性种植面积;2.实际收购量大于上级主管部门下达的收购计划;3.收购计划已完成,烟农手中还有大量烟叶未收购。

种植面积=指导性种植面积;收购总量=计划收购量;售后烟农库存=0。

1.种植面积>指导性种植面积,超计划种植;2.收购总量>计划收购量,超计划收购;3.售后烟农库存>0,超计划种植。

2

合同管理

(分户)

1.少种多签,利用多签合同获取较多的补贴政策或收购区域外烟叶,有可能导致收购计划无法完成;2.多种少签,合同外的烟叶用于贩卖或到区域外交售;3.内外勾结签订空合同,用于贩卖烟叶或收购区域外烟叶。

排除灾害因素和其他特殊因素后,1.合同调整频次较高,面积和产量调整幅度较大;2.合同不执行或执行率较低。

售烟数量=合同数量,合同调整在两次以内(移栽后核查一次,收购中后期一次),调整幅度不大。

1.收购合同调增幅度>10%,调增频次高于2次,多种少签;2.收购合同调减幅度>10%,调整频次高于2次,或合同执行率<80%,少种多签或烟叶外流;3、收购合同没有执行,签空白合同或烟叶外流。

3

收购数量管控

数量升损超过行业规定比例(收购量的±1%)。

1.收购中短称,导致数量升溢较多;2.收购烟叶水份超限、青杂较多,质量不合规,损失较大;3.开空票导致数量出现亏空。

数量升损率=(调拨总量-收购总量)/收购总量*100%,数量升损率≦±1%。

1.数量升溢﹥1%,损害烟农利益;2.数量损失﹤-1%,秤量不准、空票、保管不善。

4

收购等级管控

金额升损超过行业主管部门规定的比例(正常为收购额的±0.5%,灾年比例适当有调整)。

1.违反国家价格政策,损害烟农利益,压级压价,低等级收购,高等级调出,有受到物价部门处罚的风险;2.损害企业利益,降低标准收购,高等级收购,低等级调出,让企业蒙受损失。

金额升损率=(调拨总额-收购总额)/收购总额*100%,金额升损率≦±0.5%。

1.金额升溢﹥0.5%,存在压级压价损害烟农利益;2.数量损失﹤-0.5%,抬级抬价损害企业利益。

5

收购调拨小等级变幅超标(原收直调,等级合格率低于98%)。

收购标准把握不够精准平稳,成件时进行了一定挑选,导致收购的烟叶成件时等级发生变化。

小等级变幅=(调拨数量-收购数量)/收购数量*100%,小等级变幅≦±2%。

小等级变幅﹥±2%,未按标准组织收购。

6

工商交接等级合格率

1.收购的烟叶等级质量较低,工业接收时降级处理;2.不讲诚信,将收购的烟叶提级上调,获取短期利益。

国家局等级纯度允差,现行《国标》中也明确指出烟叶纯度允差,即允许上、下一级混入本级允许差(以百分数表示)。

上等烟等级纯度允差不超过10%,中等烟不超过15%,下低等烟不超过20%。

7

廉政风险

非正常时段收购

1.避开监督,非上班时间或夜间收购特定关系人的烟叶;2.停秤日收购特定关系人烟叶。

收购作息时间上午7:30至下午18:00。

作息时间以外收购,停秤日收购。

8

收购比例或单户均价异常

1.烟农上等烟比例过高;2.烟农均价较高;3.烟农亩平收入较高。

上等烟比例≦80%;均价=平均均价;亩平收入=平均亩平收入。

1.上等烟比例>80%或90%;2.均价全县前50名或全组前10名烟农;3.亩平收入全县前50名或全组前10名烟农。

9

重复计量或开空票

相邻几秤烟叶等级、数量相似度高,且时间间隔较短。

计量连续、等级数量一致、时间间隔短。

秤数相邻等级数量一致。

10

合同产量约定不公平

合同单产约定明显过高或过低。

平均合同单产=收购计划/实际种植面积;合同约定单产=合同产量/合同面积。

合同约定单产><平均合同单产50斤。

11

冒用他人收购合同结余收购

1.收购后期单日多频次交售;2.收购后期单日交售等级个数较多;3.烟农等级明显比例失调、不符合正常等级占比规律。

单日交售次数>3次;单日交售等级个数>5个;上中低等烟占比失调,过高或过低。

1.单日交售频次>3次;2.单日交售等级个数>5个。

12

不按主检定级

开票

调高等级为特定关系人开票,谋取利益。

收购发票有无主检字确认。

收购发票无主检签字确认。

13

技术服务

技术指导不力,服务质量不高,烟农满意度差

部分烟农上等烟比例较低、均价较低、收益低,烟农满意度低。

上等烟比例≦80%;均价=平均均价;亩平收入=平均亩平收入。

1.上等烟比例<40%或30%;2.均价全县后50名或全站后10名烟农;3.亩平收入全县后50名或全站后10名烟农。

4.4.2构建关键风险指标模型

根据审计风险因子对应的关键要素,从与系统数据产生关联的角度分析,按业务程序分别形成烟叶收购风险审计模型及磅组管理风险审计模型。

4.4.2.1烟叶收购风险审计模型

基于某户烟农烟叶种植水平相对总体基本稳定的前提假设(包括该烟农种植水平的时间纵向总体及该烟农所在收购组大田状态气候因素的区域横向总体),经过研究建立能综合反映种植水平的“均价”为中心的5个关键风险指标,对当年每户烟农的收购均价进行分析预测,分析结果与当年实际收购均价AverPricet的偏离值ε1即为审计风险因子,对ε1从高到低进行排序,从而确立审计主线。

AverPricet=α1*AverPricet-1+α2*GroupAverPricet+α3 *DealNumt +α4*ContractRatet +α5*TotalWeightt +ε1

AverPrice表示农户均价,即当年农户烟叶总售价(元)/烟叶总产量(千克);GroupAverPrice表示收购组均价,即当年收购组收购的烟叶总价值/烟叶总重量(千克);DealNum表示售烟次数,即农户在烟叶收购季向收购组交割的次数,同一天多次的按一次计算。ContractRate表示合同履约率,即农户当年实际售烟的重量/烟叶采购合同的约定重量;TotalWeight表示总重量,即当年农户出售烟叶的总重量。t表示当年,t-1表示上年。

本模型采用OLS(最小二乘法)对样本进行回归分析,估计出样本总体的系数(即α1、α2、α3、α4和α5),然后将每个农户的年度数据代入模型,计算得出其风险因子ε1的数值,该数值与烟叶溢价风险正相关。

4.4.2.2 磅组管理风险审计模型

基于收购期每天未成件库存烟叶数量、收购与调出阶段各等级升降级总量以及数量金额的升损情况伴随管理风险假设,经过研究建立以库存、升损数据为中心的关键风险指标5个,汇总形成管理风险值ε2。

ε2=α1*NumberOfAbnormalInventory +α2*AverageInventory Tolerance+α3*StandardDeviationofInventory Tolerance +α4 *Grade Difference +α5 *Increase/Lose Ration

Number of Abnormal Inventoryge 表示库存异常值,指的是收购期每天每个等级的散烟库存超过成件标准的次数之和;Inventory Tolerance表示库存容忍度,指的是每天各等级散烟库存实际总量/每天各等级散烟库存上限值总量,Average Inventory Tolerance表示收购期每天容忍度的平均值;Standard Deviation of Inventory Tolerance表示散烟库存容忍度标准差;Grade Difference表示烟叶等级差异度,指的是等级差异变更绝对值总量/收购总量(等级上调、下调均以绝对值加总);Increase/Lose Ration表示升损比,计算公式为(金额升损比+数量升损比)/2。

考虑到近年来站点布局调整对统计数据口径的限制因素,该模型权重设计采用专家打分法,由于各指标的返回值悬殊较大,上述指标参加计算前还必须对步长进行标准化处理,最终计算得出每个站组的管理风险值ε2数值。

4.4.3 数学模型分析

以烟叶收购风险审计模型为例,系统前端通过应用分析工具(STATA),调优模型阈值、减少模型制定和实施过程中因人员经验、抽样分散等客观因素造成的审计输出偏差;后端采用大型关系型数据库技术,基于大数据独立审计数据仓库,对关键风险指标模型进行探索、开发、采用OLS(最小二乘法)对样本进行回归分析后,估计出样本总体的系数(即α1、α2、α3、α4、α5),然后将每个烟农年度数据代入模型,计算得出该农户烟叶收购风险因子(ε1)的数值,该数值与烟叶溢价风险正相关。

选取14个收购站组2016-2020年共15000多户的烟叶收购数据(共计926273条),经过数据预处理,按照“-年度”整理生成13618条数据进行回归分析。

表4-2   回归分析结果

模型的拟合优度为0.891(该值越接近1,说明对观测值的拟合程度越好),即模型的有效性为89.1%。模型中4个变量的t值均在1%的水平上显著,即上年均价(AverPricet-1)、收购组均价(GroupAverPricet) 、总收购量(TotalWeightt)与被解释变量当年均价(AverPricet)显著正相关,交售次数(DealNumt)与被解释变量当年均价(AverPricet)显著负相关。针对相关性不显著的合同履约率,修正为变量合同调整率(ContractAdjustmentRatet)。

4.5可视化技术应用

4.5.1可视化建设目标

可视化界面作为烟叶大数据监控的汇聚平台,将前述各步骤工作成果精准直观展示,对风险点进行常态化、动态化、持续性监控,自动输出异常、违规情况、风险报告并推送给风险责任人。对超过警戒阈值的风险指标,审计部门及业务部门联合采取定期和不定期审计核查、整改跟进等措施,推进形成智慧审计闭环。该模块还将超出阀值的单户告警信息在一个界面集中滚动展现,便于职能部门精准定位告警信息,采取相应措施。通过可视化界面应用,可以准确定位风险的来源,减少查询分析时间,提高系统的整体可用性。

4.5.2可视化建设流程

包括后端数据准备、UI沟通需求与设计及接口开发/页面搭建工作。

图4-3   可视化大屏设计流程

4.5.3 可视化模块设计思路及效果展示

可视化大屏以风险地图为核心从6个方面设计展示。各模块包括:磅组管理风险地图,各磅组位置点通过经纬度定位在风险地图中呈现,采用Flow map技术,通过对时间与空间维度以及与之相关的信息对象属性建立可视化表征并进行展示;磅组风险分布情况双柱图展示的数据信息为风险值阈值下风险区域汇总信息和区域磅组总数,精确提供风险区域对比画像分析;各风险磅组风险情况滚动表展示各基层营销部管理区域内磅组风险信息汇总值,各磅组与相应地图板块联动,支持自动轮滚,使用网络可视化技术,支持风险阈值设置;烟农风险信息轮动面板围绕数学模型风险指标(均价、售烟次数、收购额、收购量)按降序排序取各磅组前三、后三,采用动态轮滚方式集中展示风险信息;烟农收购风险评估轮播图通过动态轮播显示不同烟叶类型、不同风险标准差风险磅组排名情况并支持板块下钻;高风险指标区域户数占比环形图,动态显示各区域烟农风险比例分布情况和户数占区域比,支持用户动态设置风险标准差阈值范围,直观掌握各区域风险户数占比情况。

图4-4烟叶大数据智慧审计大屏图

图4-5烟叶大数据智慧审计大屏图

4.6结果验证

线上线下全域协同,形成审计结果。结合大数据审计6M特征,针对异常数据要进一步拓展思维,充分从相关性而非简单的因果性角度进行排查,遵循“集中分析、发现疑点、分散核实、系统研究”的大数据审计工作模式,对大数据分析模型扫描出的高风险对象,对照烟叶审计程序框架开展技术验证测试。一是分析样本与风险因子RF的逻辑关联性;二是通过对异常数据进行核实(随机抽样、系统抽样、现场核实等),结合烟叶收购管理风险相关指标(见表4-1),包括基本烟田情况、烟叶生产补贴、灾害补贴等相关数据信息,判定控制点和关键风险KFR指标模型是否关联有效;对模型未覆盖风险因子,通过远程相关数据分析和烟田信息追踪、烟农走访、电话沟通、烟站检查等方式现场核查,判断模型未覆盖部分是否存在风险;在烟叶专项审计中,通过业审融合工作机制、线上线下相结合的方式,确保审计结果的客观性、精准性。

5 成效及展望

5.1成效

企业将审计作业数字化与构建机制长效化(包括领导机制、工作机制、整改机制、容错机制)、项目管理标准化、审计服务精细化紧密融合,聚焦烟叶生产管理内控建设及执行情况、烟叶专项巡察反馈问题以及基层群众身边的腐败和作风问题开展审计工作取得了查错防弊增值服务的良好效果。从审计效果方面来分析,在合同管理、收购管理、库存管理、补贴管理方面查找问题推动整改起到了警示震慑作用,相关性数据分析结果对风险锁定作用尤为突出;同时基层烟站工作人员、基层审计人员在风险控制中有了明确的抓手,风险意识整体提升,烟叶风险因子及各站点风险值标准差呈现逐年下降的趋势。

从审计效率成本来分析,经初步统计,实现烟叶审计 70% 的风险点建模固化,纳入信息化监控并自动输出风险报告,为企业决策层、管理层及执行层提供精准直观的风险控制信息。相比传统抽样审计项目审计耗时降低80%,项目审计费用降低60%;审计样本覆盖率从不足 10% 提升至100%,确保了风险防控不留死角。与此同时,建模审计实现了绝大部分风险点自动取数,快速确定审计方向、精准锁定审计目标,审计问题及审计证据精准度提高85%,在提升项目实施效率的同时,大幅提高了审计质量,并有效弥补了企业审计人员不足、业务水平参差不齐的缺点。

5.2展望

大数据审计是现代企业审计的必然趋势,也是审计工作“查病”、“治已病、防未病”并实现增值服务的重要载体,中国内审协会发布的《第1101号-内部审计基本准则》明确以风险为导向的内部审计基本工作思路是以客户为中心,紧紧围绕客户的组织目标进行风险识别评估,将有限的审计资源投入到高风险领域。在下一步工作中,将着力打破专业审计分工界限,持续开展审计大数据平台建设及建模审计创新在企业各个领域的应用并逐步建立大数据在总体分析和系统研究中的应用规范,优化资源配置、健全考核机制,实现“多专业融合、多角度分析、多方式结合”的数字化审计模式,推进企业内审工作的数字化转型, 不断提升审计工作价值。

参考文献

[1]陈伟,2019,基于可视化分析技术的大数据审计案例研究[J],中国注册会计师,2019(6),P61-64

[2]刘勇军,张平,蒲臻诣,2020,基于大数据的KRI建模在经营业绩审计中的应用[J],中国内部审计(8),P32-37

[3]徐超,陈勇,葛红美,何炎祥.基于大数据的审计技术研究[A].电子学报 URL:http://www.ejournal.Org.cn

[4]何晓群,2007,现代统计分析方法与应用[M],中国人民大学出版社