从数据挖掘到数据中台:数据分析正在深刻影响财务管理
2019年6月29日,由数千名财务人员和有关专家参与评选的“影响中国会计从业人员的十大信息技术”结果出炉。上海国家会计学院党委副书记、副院长、中国会计学会会计信息化专业委员会主任委员、本次评选专家委员会主任刘勤教授与北京元年科技股份有限公司总裁韩向东等有关专家在当天举办的高峰论坛上共同公布了评选结果,财务云、电子发票、移动支付、数据挖掘、数字签名、电子档案、在线审计、区块链发票、移动互联网、财务专家系统榜上有名。其中数据挖掘技术的排名从2018年的第6名上升为第4名,得票率也达到了47%的高水平,显示出数据挖掘对财务人员的重要性越来越强,给财务管理带来的影响正在不断加大。
评选结果发布
上海国家会计学院于2002年率先发起了“影响会计从业人员的十大IT技术”评选,引起了业界极大关注。从2017年开始又连续举办了三届,评选结果在业内得到了广泛传播。对于相关研究教学有着直接的影响,对会计从业人员的职业规划、学习培训等方面有了积极的参考。刘勤教授指出,信息技术正在促使会计行业的深刻变化,基础的算账工作和业务处理逐渐由信息系统或人工智能程序所取代,会计人员会将转向财会数据的挖掘利用和财务决策支持的岗位上。会计行业对基层会计核算人员的需求减少,而管理会计和信息处理的人员需求会增加,因此需要持续聚焦对中国会计从业人员有重要影响的信息技术,打造引领会计人员职业发展和行业变革的风向标。
上海国家会计学院党委副书记、副院长
中国会计学会会计信息化专业委员会主任委员
本次评选专家委员会主任 刘勤教授
北京元年科技股份有限公司高级副总裁李彤博士认为,随着企业数据越来越多,如何让数据发挥价值越来越困扰企业的管理者,数据挖掘的高得票率也反映出企业对这项技术的关注度空前高涨,值得进一步分析解读。李彤认为,数据挖掘有三个关键词:数据、算法、知识。首先要有数据,而且是达到一定量的数据,通过算法处理获得原来未知的知识,用以指导企业的业务、运营和决策。
元年科技高级副总裁 李彤
数据库技术和数据处理技术已经有60年的历史,传统的面向关系处理交易的数据框架解决了流程标准化的问题,效率得到了大幅提升。随着企业积累的数据越来越多,如何存储、管理、运营这些数据面临很多挑战。 1980年代,OLAP(联机分析处理)技术专注提供数据分析服务的特性让管理者可以更加灵活、个性化地对数据进行加工利用。ERP中的关系型数据和分析型数据得到了分离,在做大数据量分析计算的时候,也不要影响业务的正常运行。
做OLAP分析时主要依靠人工,比如发现利润或销售收入有问题,可以按产品、客户逐级往下找,最终发现在某一个区域/市场的某个产品上出现了问题,再去看看什么因素影响了销售业绩,就能找到解决办法。2000年后,随着企业数据量越来越大,没有办法靠人工总结经验,必须要依靠算法解决问题,这是数据挖掘技术产生的背景。
沃尔玛通过对海量消费者购物小票中的商品关联分析,发现有30%购买尿布的消费者会同时购买啤酒,这是通过数据挖掘技术发现的知识。利用这个知识可以很好地帮助他们在陈列货架的时候,把尿布和啤酒放在相近的位置,可以非常有效地促进啤酒的销售。这个通过数据挖掘技术得到的结果是有逻辑关系的。很多年轻父亲经常上超市给孩子买尿布的同时,顺手也给自己买了啤酒。如果没有数据挖掘,依靠人工很难得出这样的结论。因此,数据挖掘的核心就是数据+算法。
实际上在数据挖掘的领域中算法非常多,大概可以分成两大类:
第一类:描述类,了解现在产生数据的知识、规律
首先是最基本的聚类分析,通过了解消费者的特征、年龄、学位、收入、性别、需求获得用户画像。
其次是关联。找到数据之间的联系,比如说前述案例中的啤酒和尿布的关联分析。
再次是异常检测。对数据的状态进行观测的时候,经常会发现一些异常数据。这些异常数据可能因为数据质量或某些特殊的问题。比如信用卡欺诈和骗保等,对于异常行为的监控能控制业务运营风险。
第二类:预测类,对未来发生的行为进行预测分析
首先是分类,通过建立数学模型,利用历史数据对新的数据进行判断。比如利用大量邮件做了垃圾邮件识别的模型,有一个新邮件进来的时候,就可以相对准确地判断出来它是不是垃圾邮件。
其次是回归分析。一家美国零售企业也会和电商做“猜你喜欢”一样的工作,会给消费者推荐可能感兴趣的商品。有一次收到了一位父亲的投诉,抱怨零售商向他17岁女儿推荐婴孕用品的广告信息。过了一个月之后,他主动找到商家来道歉,因为他发现他的女儿真的怀孕了。这就是通过预测模型计算的结果,通过女儿的一些行为,对她有一些预测,这就是回归分析。
再次是序列分析。基于时间序列对时间归位进行预测。比如有一些季度性波动的销量预测,可以用时间序列进行分析。
电商企业最怕是退货,某德国电商公司每天会产生大量的订单,但有30%-40%的退货率。退货成本非常高,是正常发货成本的2-3倍。因此,了解分析退货的原因非常重要。
数据研究人员建了一个数据挖掘模型。首先直觉认为退货跟购买商品的件数有关,40%的客户在购买商品的时候就已经决定要退回一部分,所以先分析了数量和退货率的关系。通过聚类分析,把数据分为三个类别,在不断进行迭代运算,直到所有数据点分类都不会变的时候,计算完成。结果发现退货率最高的“劣质客户”,在购买4件以上的商品的时候,退货率达到3%。退货率高低还可能与客户付款时间有关,加上付款时间维度后,再通过聚类分析和计算发现了劣质客户的特点:购买了4-8件的客户付款时间长,有4天以后才付款的客户。
根据一系列调查分析给出了这样的解决方案:通过多购买再退货来选择的客户,意味着客户对商品信息了解不够。尤其是女士在买衣服的时候,很难判断哪个款式、尺码、颜色适合她。因为电商退货政策特别方便,尤其是在“6·18”和“双十一”大促的时候,如果下手慢了就没有了,所以她干脆会多买几件,这些客户是典型买回来之后一定会退一部分。解决方案是给她们更多信息,通过评价、图片、买家秀多了解商品,再给予一些优惠,避免额外的采购和退货。
挑剔和有选择困难的客户对商品不一定很满意,付款时间长是因为和客服进行了大量的沟通。终于下了决心买回来还是不满意,最终产生了退货。对于这种客户,也可以采用特殊的策略,来避免她们的退货行为。这就是通过数据挖掘给出的结果,让我们更能理解数据背后的意涵。
同样的,百货公司也通过对销售的精准预测控制库存。这种预测就采用了回归分析的方法。首先认为产品销量和搜索次数有关,发现1000次以上搜索商品的销量会比较高,于是建立了这样的回归模型,用简单的直线来模拟出这样的结果。也可以增加客户评价和库存量的维度分析对销量的影响,可以做出很多回归的方程,比如说库存量、评价数、搜索量,可以对某些商品进行预测。
李彤分享数据挖掘的应用
李彤表示,没有特定的“一招打遍天下”的数据挖掘方法,一定是在理解业务的基础上了解手里的数据。通过一些直觉判断设计初步模型,用这个模型跑出一些数据来验证直觉是否准确。不准确的话再增加维度,调整分析模型,非常个性化。需要对每一个应用场景反复迭代,直到模型验证成功才能投入到解决实际问题的应用中。
数据挖掘运用到多种技术,其中包括统计学的计算方法、回归方程、用多变量训练的机器学习、数据库技术、高性能计算等多种技术的整合,确保数据挖掘能够产生准确的结果,最后用可视化技术呈现出来。在算法层面通常有科学计算的工具,包括一些比较简单的编程语言,用描述性脚本进行算法编写的语言,比较适合财务人员来学习掌握。
除了算法之外,企业数据挖掘应用要从数据获取、数据清洗、治理到建立数据仓库,再抽象出多维模型,才能提供给算法模型进行数据加工和处理。需要在企业建立一整套的数据架构支撑才能做好数据挖掘的工作。
数据挖掘工作并非一帆风顺,过程非常曲折,受到三方面制约:
1、数据质量
如果数据都是垃圾,那肯定挖不出来金子,挖出来的也是垃圾。
2、算法
只有真正深入掌握了统计学和数学的人才能做数据挖掘工作。随着会计机器人把会计人员解放出来,在会计人员当中会产生大量的会计科学家,在数据挖掘领域会有很多贡献。
3、计算性能
数据量大、算法复杂,对计算性能就会有很高的要求,也是制约数据挖掘发展的重要因素。
数据挖掘是大数据核心的应用,在金融领域已经有很多实践,因为金融行业数据种类多、数据量大,没有数据挖掘,很多业务问题解决不了。同时,数据挖掘正成为不少企业建立数据中台、提高企业数据业务质量的重要内容,包括对传统管理会计系统的升级、支撑场景化的分析、传统商业智能的转型升级、大数据的应用落地和有关主数据、元数据、数据质量管理的数据治理体系五个方面,利用数据挖掘技术建立企业围绕数据中台架构的数据分析体系。
通过数据中台能力建设,不断解决前端应用的场景变化,建立多变量、多因素的复杂的决策网络预算、经营预测。尤其是能够深入到销售预测、供应链预测等深入应用模型,为管理预测提供更加准确清晰的数据支持。在数据中台架构下,对价格变动影响销量的预测,把大数据和数据挖掘技术结合起来,利用数据挖掘技术在某些点上把价和量的预测做得更加科学,结合收入、成本、费用、利润、现金流等维度,能够输出更多的结果。
要做到这样非常灵活的预测不是很容易,李彤认为,要从基础开始,利用数据中台架构,建立一套经营分析预测的网状模型体系。既要建立一整套面向管理逻辑和分析架构,还需要OLAP技术、大数据技术和内存计算技术,才能在未来数字化转型过程当中,能够实时产生知识和决策。总之,数据分析正在深刻影响财务人员的工作内容和风格,从而进一步改进企业的整体管理和运营。