
021-6052-6572
021-6052-6567
021-3872-0550
招聘时看过了简历,之所以还要面试,是因为简历中的信息往往不能够全面地反映求职者的能力及其与招聘岗位的契合度。同样的,仅仅依赖对数据的简单统计描述,数据分析师和数据驱动的决策也往往会错失一些重要的信息。所以,有经验的数据专家通常会在进行深入分析前先“面试”一下数据,即对原始数据有一个亲身的感知。用数据分析师的行话来说,就是看一下“数据到底长得什么样”。在大数据时代,把原始数据都看一遍当然是不现实的也是不必要的。所以真正的数据面试通常是用一种人机配合的做法,即通过分析师对原始数据的查看与数据软件处理的交互来实现。
数据面试一般可分为两个步骤。
数据面试的第二步则是看一下数据中每个变量的分布直方图(histogram)。如果是随时间变化的变量,还应该作图看一下它随时间波动的情况。一般的统计软件都提供这些功能,但是我常常发现连一些颇有经验的数据分析师也经常会忽略这一步,而只是看一下均值方差等常见的简单统计量。其实分布直方图包含的信息要比均值方差多得多。它不但让我们能一目了然地看到是否有极端值的存在,还往往能带给我们市场细分的新启示。我曾经分析过一家电商的销量分布直方图,发现其月销售额是由大量千元左右的中低值定单和近百个超大定单(数十万元以上)构成的。据此进一步追溯原因,才了解到原来这家B2C网站的用户中还存在一些商业用户。而这些商业用户作为一个重要的细分市场,当然也需要与一般终端用户在营销上区别对待了。
在实践中要真正了解分布直方图所展示信息的背后成因,往往需要回到原始数据中去查看一番。因此数据面试的两个步骤通常是交替使用,密切结合的。曾经有过这样的一个例子。分析师利用某信用卡公司的数据研究持卡人用该公司信用卡加油的情况,其中一个变量是持卡人两次用该卡的加油时间间隔。通过查看这一变量的分布直方图,他们发现有相当多持卡人的这一间隔分布在一天之内和数月之后的这两个极端。原因会是什么呢?分析师接着回到原始数据中去查看这些持卡人的消费纪录明细,发现这些持卡人平时几乎不用该卡,却喜欢在自驾游时带上这张卡,并用于加油餐饮等。管理层获知这一分析结果,很快根据多年的行业经验做出了自己的判断:这些持卡人很可能有多张信用卡并常用竞争对手的信用卡,然而那些卡的额度可能不够高,日常消费使得可用额度不足了;所以出门旅游就用平时不常用的那张卡。有了这一洞察,下一步针对这类持卡人的精准营销策划就能积极展开了。
当然,随着数据的不断增加,数据中的变量数目可能会多到连查看每个变量的分布直方图也变得不现实。这时我们就只能有选择地挑选一些变量进行查看,就如同因为面试时间有限,只能挑一些重要的问题来问一样。那么我们应该如何来挑选出需要特别查看的变量呢?一个好的做法是从业务和统计两方面着手。从业务角度出发,我们可以挑选出与业务最相关的那些变量。这里数据分析师自身对业务的熟悉度以及分析师与业务人员之间的沟通起着重要作用。从统计角度出发,我们可以用分析软件找出不符合正态分布的那些变量,着重于查看那些偏离正态分布最多的变量。通俗地讲,这些变量是“长”得最怪的,因而更有可能带给我们意想不到的洞察。另一个好的做法是用分析软件找出每个变量可能存在的异常值(outlier),然后对这些异常值进行“面试”。异常值往往是最富含信息量的,它们或许反映了数据收集中的差错,或许折射出企业运营中的失误,或许能成为重大发现的引子(比如历史上许多药品的发现)。
在大数据时代,数据资源正成为和人力资源一样重要的企业竞争优势的来源。因此,管理者应具备如重视人才一样重视数据的意识。有了这一意识,企业上下,从管理者到数据分析师,每个围绕数据的利益共同体成员,才能够尽快形成做好数据“面试”的好习惯。