伍强精品课堂:数据背后的逻辑

作者:尹军琪 时间:2021/09/01 来源:伍强智能科技

        从事物流系统设计,物流园区规划,首先就要进行数据分析,这一观点逐渐为行业所接受。数据分析分析什么,已经有专门的教科书进行讲解,不是本文的重点。本文重点是谈数据背后的逻辑问题。

        对于数据分析,大家普遍感到困惑的是分析的是否正确有用和如何使用,哪些数据是不对的和失真的,哪些数据需要修正,哪些数据需要补充。对这些问题的回答,核心问题是探讨数据背后的逻辑,理清数据关系,才能正本清源,数据分析的结果才有意义。

数据失真是一种客观存在

        数据作为反映客观世界的一种方式,有时会失真,从而使真实世界发生扭曲。失真的原因很多,主要有以下几种:其一是数据记录问题,数据记录有记错和数据丢失,这一问题发生的可能性非常大。数据不管是记录在何种载体上,由于记录手段问题,接口问题,传感器问题,存储媒介问题以及环境问题,错误和丢失在所难免;其二是人为造假,这个更为普遍。造假是人类不可杜绝的一个现象,每个时期,每个国家,每个地方,每个角落都存在。无论是处于何种动机,造假的代价之一就是使真实世界不再真实,这是十分令人痛惜的;其三是偶发数据,虽然可能是真实反映,但又非常态,或者是经过调整后的数据,并非第一手数据。

        人们有时候调侃,历史没有真相。是指历史上的很多事件,真真假假,其真相成为永远的迷。这里既有历史事件记载者的故意,也有以讹传讹的原因。有的真相很简单,但如果当事人或传播者故意误导,可能真相真的就成为历史之谜,再也无人知晓。

        现实中的实例也不胜枚举。比如国民经济统计,看起来很简单的一件事,但实际就很难做到十分真实准确,有时还相差甚远。物流行业数据统计也是如此。我们到现在也没有一个权威的统计数据,告诉人们每年的堆垛机的产量,输送机的产量,分拣机的产量,货架的产量等,都只是一个大概估计。

        总之,数据失真,既有技术原因,也有人为因素,人的因素又分为主观故意、无心之失或能力所不能及。这是一种客观的存在,谁也改变不了。

数据之间的逻辑关系

        面对一个不真实数据所描述的世界,人们往往难以分辨数据真假。其实,熟悉数据分析的人,一般会从数据之间的逻辑关系中判断出数据的可信程度。虽然我们不知道真相的具体细节,但通过逻辑分析和比对,会基本还原真实世界大致的情况。

        一句谎话,往往要10句谎话去掩盖。这句俗语说明了一个基本事实,就是事物之间是有千丝万缕的联系的。反映到数据,就是数据之间是具有逻辑关联性的。这一事实为人们甄别数据的真伪提供了参考和方法,但有时也不是万能的。

       对物流数据分析来说,年销售额、箱单价、日收货量、日发货量、库存量、退货量、库存周转天数等这几个数据是互相影响的,所以我们可以从彼此的关系中,发现问题所在,可以判断数据是否真实可靠。

        特别是在大数据时代,对事物的真相判断会更加准确。因为大数据会从多个角度去描述同一件事情。比如一家企业的运营状况,可以从员工人数、营业额、收入、纳税额、工资、奖金、办公开销、投资、研发经费、宣传费、差旅费、按月度计算的流水等多个维度进行分析,还可以从行业平均利润分析其利润额合理性等。一旦某些数据出现大的偏差,则可以判断其数据真实性值得怀疑。

        对一个物流中心来说,很多数据之间具有强相关的逻辑性。比如销售额与发货量的匹配,输送线的输送能力与系统产能的匹配,库存与销售的匹配,发货区、发货月台与发货量的匹配等,其中的逻辑关系其实并不复杂。然而,对一些用户来说,并不完全知晓这些关系,从而对系统的能力产生认知上的错误。

        有了数据间的逻辑,就为我们处理数据提供了参考。有些数据需要删除,有些需要修正,有些则需要补充。

数据的偶然性与必然性

        数学证明上有一个非常重要的证明方法-反证法。即要证明一个命题是否正确,只要证明其反命题不正确即可。而要证明一个命题不正确,则只需举例一个反例即可。比如要证明是无理数,只要证明其反命题,即是有理数这个命题是错误的即可。这一方法对于数据分析也是非常有用的。


        大千世界,变幻万千。对数据分析者而言,识别数据的真伪是一方面,而如何正确的分析,则是更为重要的方面。数据分析为我们描述了一个历史现状作为前提。因此,不要站在一个错误的前提下,对未来进行预测,那样会毫无意义,且非常危险。

        如何去伪存真,不是一件容易的事情,尤其对于初学者而言。比如要如何筛选和修正一些历史的数据,就是一项复杂且繁琐的工作。有些数据是客观存在的,也是真实的反映,但却不具有普遍性,是一种偶然,一种异常。对这些数据的处理,即要求对偶然和必然的事件要有一个分析和判断。

        我们常常看到,某一天的物流数据非常异常,但却是客观存在。比如某一商品销量很大,或某一天的发货量很大等,就可能是因为某一偶然事件所引起。而这一事件有时并不具备普遍性。有点类似于电信号中的干扰信号。对这一类数据的过滤和修正是必要的。不要一叶障目,不见泰山。

        另一方面,也不要轻易放过偶发事件背后的逻辑分析,有时甚至会有意外的发现和作用。如对“双十一”数据的分析,或对某一网红带货事件的分析等,就会指导物流设计在面对此类现象时,如何有效处理。

        在数据分析时,一旦遇到特殊的数据,既不能视而不见,也不能简单的删除。而是要做进一步的甄别。这一点考验着分析师的敏锐和耐心。

        有很多数学方法可以用于辨别偶然性和必然性,过滤一些干扰数据。比如,为了避免算术平均值法给人的一种假象,可以用阶梯算术平均来修正,或采用均方差来评估数据分布的偏离程度。我们在统计个人收入时,经常看到平均数有时没有多大意义,而阶梯分析的数据更加容易看清楚数据的真相,如分析1%的高收入人群,其对财富的占比等。阶梯算术平均法在分析物流数据时,很容易得到库存和发货的ABC分布结果。更加深入细致的分析,还可以进一步对标准差进行分析,从而有助于确定设计指标。例如在一个物流中心的设计中,人们常常需要一个较合适的设计目标。这一目标的确定就跟标准差有关。最简单的做法是,约70%天数的作业在常规时间完成,其它30%天数的作业通过加班完成,这可能是一个比较合理的尺度。

物流数据背后的逻辑

        在实际应用中,抽样统计在统计中有非常大的作用。比如市场调查和舆情调查,目前还基本采用这一方法。我们在物流作业中,往往也采用随机抽样的方法,对产品质量进行评估。为什么1%甚至更低的随机抽样会大致反映真实情况呢?这就是概率论给我们带来的启示。其实,我们在做物流数据分析时,随机抽样仍然不失为一种有效的方法。

        对很多系统来说,数据反映的往往只是表象。比如,人们对于一个物流中心的评估,每年的发货量反映的其实只是一个非常粗略的总数,背后隐藏的真相往往大相径庭,两个具有同样发货能力的物流中心,往往不具有可比性。因为差异是多方面的。

1)工作时间

        从大的方面讲,工作时间可能是单班、双班和三班,其差异已经是非常大的了。而进一步分析,每个班次有的只有4~5小时,有的会有9~10小时,差异也很大。有的年工作360天,有的只有200多天。这些差异,会导致分析的结果出入很大。

2)单元货物的价值

        单箱价格也是影响非常大的因素。物流系统能够比较的是物流量而非销售额。但往往被人们忽视。就如同错把物流费用与GDP做比较,不考虑产业结构、地域、道路收费、工资等差异,从而得出我国物流技术水平低的结论一样,其实是不真实的。一个以日用、食品配送为主的配送中心,其单件价格只有几十元,而一件药品会高达上千元甚至几千元,即使是同类商品,因为构成品质不一致,产地不一样,价格也会相差很大。比如进口产品和国产的比较。

3)业务的均衡性

        有的配送中心,其业务波动性大,随季节变化幅度非常大,而有的会比较均匀。这在数据分析时容易被忽视。但其影响巨大,比如图书与医药。图书,尤其是教材教辅类图书表现出明显的季节性,而药品的季节性影响就要低很多。如果再细分到每一天,每一周,每一个月和每一季度的话,会得到非常惊人的结果。如何均衡业务,其实对于提升物流系统的处理能力有非常大的作用。这就是物流反过来促进管理,促进市场的典型例子。与此类似的还有库存周期和库存量,这两个指标其实决定了物流中心处理能力的天花板,但又不是物流系统本身所能解决的问题,必须要与采购策略进行联动。总体来说,我国很多行业的物流管理还是粗放的,可以优化的方面很多,而业务均衡性则是一个有很大潜力的优化目标。

4)拆零比

        随着电子商务的兴起,拆零作业在物流配送中心的比重越来越大,也严重影响了物流作业的效率。一方面,人们看到定制化带来的服务提升,另一方面,配送成本也随之大幅度提升。特别是最近几年,围绕拆零拣选的技术投入大幅度提升。面对这一现状,对于toB业务,是否可以从提高整件配送比例出发,降低物流成本,成为一个新的课题。即使对于拆零拣选,如何采用单元化技术,使拣选更高效,其意义是多方面的,未来肯定会成为企业关注的方向。

        除此之外,可比较的方面还有很多,如作业人员的数量,设备的投入,自动化水平等,均影响物流配送中心的作业和业绩,有些还互相关联和影响。而这些都是表面数据看不到的,或表现不出来的。

        总之,数据分析不是简单的数据堆砌和结果呈现,而是要挖掘其背后隐藏的真相。数据分析的价值在于发现数据背后的逻辑和特征,找出普遍性和规律性的东西,找出导致问题发生的根本原因和改进方向,从而指导未来进行的科学预测和规划。

部分图片来源于网络

Baidu
sogou