摘 要:摘要:税务信息化建设取得了巨大成果,但仍然存在很大的发展空间,其中丰富而宝贵的数据资源得不到充分利用是制约税务信息化发展的关键因素,而数据挖掘是实现信息化的必由之路。本文主要针对税收数据利用和数据挖掘做初步分析探讨。目前的税收数据利用存在数据质量低、数据利用程度不够、构建数据模型不成熟等主要问题,解决这些问题促进信息化建设的进一步发展就要求我们在工作中提高数据采集的一致性、完整性和准确性,加强数据深度分析利用,进一步探索数据挖掘的实质。
关键词:关键词:税务信息化;数据质量;数据深度利用;数据挖掘
中图分类号:TP39 文献标识码:A 文章编号:
自上个世纪80年代中期以来,我国的税务信息化建设历经二十多年的时间,取得了巨大的发展成果。但是税务信息化建设仍然面临着很多挑战,特别是如何对积累下的丰量而宝贵的数据资源进行分析利用,如何引用数据挖掘技术构建可行性的税务数据模型,为各级税务管理部门提供征管指导和决策支持,成为信息化应用的关键问题。
1.数据利用问题简述
《信息与信息化社会》中将信息按照信息的加工处理程度分为一次信息、二次信息和三次信息。其中一次信息是指未经加工的原始信息;二次信息是在原始信息的基础上加工整理而成;三次信息是根据二次信息提供的线索,对一次信息和其他材料进行分析综合。目前税务信息化工作中数据形式主要是纳税人登记信息、申报信息、财务报表等一次信息和基于这些信息的简单汇总、分类、计算,如查询统计、税源分析、税负分析等二次信息。根据一、二次信息,分析综合得出为各级税务机关税收经济分析、监控和预测提供决策支持的三次信息还比较匮乏。如今的税收数据利用程度已经不能满足实现有效税收管理和正确决策支持的内在需求,更达不到对税收与经济形势发展的内在联系及其规律进行分析和预测的目的,因此税收数据的深度利用成为税务信息化发展必然要求。
2.数据质量和数据深度利用的关系
首先,数据质量是数据利用的根本,是做出正确决策的基础。当前的税收数据存在不一致、不完整、不准确等问题,直接影响了数据深度利用的效果。一是缺乏统一的数据标准。原始数据来自于不同业务系统,可能存在标准不统一、内容不一致的问题。二是数据采集不全面。数据采集中主要注重纳税人的登记、申报、入库数据,而企业的产值、产销存、用工情况等数据未纳入系统进行管理,影响了信息数据采集的准确性和完整性。税务机关与其他社会部门间信息共享程度比较低,数据交换的广度和深度还远不够。数据质量要过关是数据利用的前提,二者相互制约。
其次,税收数据的深度利用是针对大量涉税数据,包括税务系统内部数据和来自于其他部门、企业、居民等外部数据,用于帮助各级税务部门进行税收管理和决策,其主要目的是 “了解过去、掌握现在、预测未来”。目前数据利用还处于起步阶段,数据的查询、分析和监控功能还不够全面发挥,仅限于静态查询、分类统计的层面上。数据深度利用的目的主要是从现有的数据中发现并证实一些过去不了解的信息,从而达到“了解过去、掌握现在、预测未来”的目的,从而更好地改进税务工作,做出更可信的决策。例如,通过对过去几年税收收入的分析,预测未来一年内各月的税收收入情况,从而合理制订下年度的税收计划;通过对过去一年内纳税人的纳税信用分析,预测本年内各纳税人的纳税依从性,从而确定稽查的重点对象,从更少的纳税人中稽查到同样数量的逃漏税额。也是对数据质量的一种校验,二者相辅相成。
3.如何实施运用数据利用
数据利用在信息化发展、决策支持上是如此重要,那么,数据利用是如何实施的呢?任何一个数据深度利用项目的实施,都大致遵循这样一个流程:计划阶段、数据收集阶段、数据获取阶段、数据加工处理阶段、数据分析阶段、结果报告阶段、结果发布阶段。其中,第四阶段—数据分析阶段是一个核心阶段,也是数据利用的主要职能所在。除此阶段之外,数据利用的功能还上延到了数据获取阶段,下伸到了结果报告阶段。从税务信息系统的数据库中获取数据,依据利用要求对数据进行加工处理和分析,以报表—如税收月报表、图形—如用饼图展示各地税收收入份额、模型—如用于预测下年度税收的模型,或者单个数字—如预测得到的每个纳税人的逃漏税概率—的形式给出结果。对于可用的模型,可以进行一定的开发,将其添加到税务信息系统中备用;对于可用的数字结果,可以将其添加到数据库中备用。
3.1 灵活发挥数据统计分析功能,了解过去。结合实际开发适合本地业务要求的统计分析数据系统,对税收数据从区域、行业等多个角度进行横向、纵向对比、分析,综合利用。例如,利用纳税人的登记信息、经营状况、财务状况、税款缴纳情况等数据,根据一定的数据模型进行统计分析,对纳税人评估,为税收管理工作人员提供业务支持。
3.2 利用数据指导和促进税收征管工作,掌握现在。对税收执法行为的关键业务数据进行在线追踪,及时发现和处理征管中存在的问题,指导税源管理和纳税服务工作,确定税收征管工作的重点和方向。有针对性地筛选重点企业进行监控,对可能发生纳税终止行为的企业进行预警,变事后追查为事前监管,确保税款足额入库,降低税收成本。将工作中发现的偷逃税嫌疑线索及时提供给稽查部门,稽查部门在查案中发现征管上的问题要提出整改意见并反馈给征管部门。也可以对纳税人纳税行为数据进行分析,改进纳税服务方式,提高纳税服务水平。例如:可以通过纳税人办理纳税事项的频率和相关性,确定服务窗口的数量和位置。
3.3 建立税收决策支持系统,预测未来。利用海量涉税数据搞好税收经济分析,使税务机关发现问题并制定或调整相应的税收管理制度指导基层工作,并对税收经济与宏观经济发展形势进行分析预测,提出相应意见和建议。建立税收决策支持系统要搭建结构先进、规范、可扩展和面向OLAP应用的数据仓库系统,并基于数据仓库进行数据挖掘。数据挖掘主要基于人工智能、机器学习统计等技术,高度自动化地分析原始数据,做出归纳预测,从中挖掘出潜在的模式,从而将数据资源转换成为有用的信息。在税收征管工作中引入数据挖掘技术就是辅助各级税务机关在税收数据的基础上做出税收决策,比如在历史收入数据的基础上,预测下一年度的税收收入,为决策层制定下一年度税收收入计划提供一个科学可靠的依据。
4. 涉税数据的价值挖掘
4.1 数据挖掘技术在数据分析利用中的应用
由上述可知,我们必须要找一种好的数据分析技术来为我们完成海量涉税数据的分析和模型的构建,以便更好的利用数据和开发新的软件工具。较为先进的数据挖掘技术可以为数据分析提供实际的理论和工具支撑。数据挖掘技术是指从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的潜在有用的信息和知识的过程,并以易被理解的方式表示出来,比如图表、饼图,表格等形式表示出来。数据挖掘的过程其实是将一套标准的思考问题的过程通过计算机等辅助工具来实现从而得出我们需要的结果而已,也就是说数据挖掘工作的解决方案就是给工作的每一步过程一个细化的描述。常用的挖掘技术和方法包括:决策树方法、神经网络方法、粗糙集方法、遗传算法、模糊论方法、统计分析方法、概念树方法等。
数据挖掘是一门综合性的新技术,汇集了从数据库技术发展到现代的数据仓库(Data Warehouse)技术,以及统计分析的各种方法,人工智能的方法等诸多方面,能自动地从大量资料中发掘出对决策有用的信息,用尽量少的案例获得尽可能多的信息。在税务部门应用方面,一个典型的例子是美国加州税务启动了基于IBM DB2数据库软件的综合逃税人监察项目,使加州税务能够在超过2.2亿项的独立税务信息中利用数据挖掘技术进行业务分析,大大节约了税收成本。数据挖掘与传统的数据分析(如查询、报表、联机应用分析)的本质区别在于数据挖掘是在没有明确假设的前提下去挖掘信息,发现知识,数据挖掘所得到的信息应具有先未知,有效和可实用的特征。
4.2 数据挖掘的主要功能
数据挖掘技术一般可以完成五种功能:
(1)分类:指按照分析对象的属性分门别类加以定义从而建立类组。例如按照纳税户的资本,区分为重点税源户,一般税源户。
(2)推估:根据与所估计的目标变量相关的其他变量和已有数据来推算预测变量的未知值。例如按照纳税户的各种登记信息来推估其今后的纳税额。
(3)预测:根据估计对象的过去观察值来预测未来值,与推估的区别在于这种预测以变量本身过去的值估计未来值。例如由纳税户过去的纳税额及其他信息来预测其未来的纳税额。
(4)关联分组:将所有对象按某种规则划分为相关联的类从而将它们放在一起。例如同一行业、纳税额相近以及其他一些满足一定条件的的纳税户可设为一类,也可设计其他规则关联不同的纳税户,从而起到分类管理,分类研究的目的。
(5)同质分组:将成分各异的总体分割为若干具有相同性质的群。但它不是事先的分隔,而是直接根据数据自然产生的分隔。比如可将具有相同性质的纳税户放在一起来研究。
5. 总结
综上所述,税收业务最终体现在数字上,数据是信息化的基础,数据深度利用是发挥数据资源作用的关键,数据挖掘技术是税务数据开展深度利用的新兴科学,为充分展现数据资源的潜能,将数据深度利用和数据挖掘技术有效结合,已是体现我们促进税收工作的真实效用的信息化建设的方向,有待于我们进一步的探索和研究。
参考文献:
[1]高玉虎等. 对加强税收数据深度利用的研究与探讨[J].现代经济信息,2008年8月
[2]左春荣等.数据挖掘技术在税收征管信息化中的应用[J].中国管理信息化,2007年10月
[3]程剑东.国外税收信息化管理经验借鉴[J].公共管理,2011年3月
中国论文网(www.lunwen.net.cn)免费学术期刊论文发表,目录,论文查重入口,本科毕业论文怎么写,职称论文范文,论文摘要,论文文献资料,毕业论文格式,论文检测降重服务。