电子商务数据分析指标体系

【前言】

一个企业建立的数据分析体系通常细分到了具体可执行的部分,可以根据设定的某个指标的异常变化,相应立即执行相应的方案,来保证企业的运营的正常进行。EC数据分析联盟根据以往的经验,理出电子商务企业这的数据分析体系,这里的数据分析体系只是一个大致的、框架性的,这里更多是一个成熟的,共性的指标,而更多的则需要大家根据自身的情况去细化和完善,从而制定对企业更有意义的指标。期间,感谢@洪建飞的智慧贡献,这篇文章更多的是起一个抛砖引玉的作用。

【正文】

1120120119151952

此电子商务数据分析体系包括网站运营指标、经营环境指标、销售业绩指标、运营活动指标和客户价值指标五个一级指标。网站运营指标这里定为一个综合性的指标,其下面包括有网站流量指标、商品类目指标以及供应链指标等几个二级指标。经营环境指标细分为外部经营环境指标和内部经营环境指标两个二级指标。销售业绩指标则根据网站和订单细分为2个二级指标,而营销活动指标则包括市场营销活动指标、广告投放指标和商务合作指标等三个二级指标。客户价值指标包括总体客户指标以及新老客户指标等三个二级指标。

1、网站运营指标

网站运营指标主要用来衡量网站的整体运营状况,这里Ec数据分析联盟暂将网站运营指标下面细分为网站流量指标、商品类目指标、以及供应链指标。

1.1 网站流量指标

网站流量指标主要用从网站优化,网站易用性、网站流量质量以及顾客购买行为等方面进行考虑。目前,流量指标的数据来源通常有两种,一种是通过网站日志数据库处理,另一种则是通过网站页面插入JS代码的方法处理(二种收集日志的数据更有长、短处。大企业都会有日志数据仓库,以共分析、建模之用。大多数的企业还是使用GA来进行网站监控与分析。)。网站流量指标可细分为数量指标、质量指标和转换指标,例如我们常见的PV、UV、Visits、新访客数、新访客比率等就属于流量数量指标,而跳出率、页面/站点平均在线时长、PV/UV等则属于流量质量指标,针对具体的目标,涉及的转换次数和转换率则属于流量转换指标,譬如用户下单次数、加入购物车次数、成功支付次数以及相对应的转化率等。

1.2 商品类目指标

商品类目指标主要是用来衡量网站商品正常运营水平,这一类目指标与销售指标以及供应链指标关联慎密。譬如商品类目结构占比,各品类销售额占比,各品类销售SKU集中度以及相应的库存周转率等,不同的产品类目占比又可细分为商品大类目占比情况以及具体商品不同大小、颜色、型号等各个类别的占比情况等。

1.3 供应链指标

这里的供应链指标主要指电商网站商品库存以及商品发送方面,而关于商品的生产以及原材料库存运输等则不在考虑范畴之内。这里主要考虑从顾客下单到收货的时长、仓储成本、仓储生产时长、配送时长、每单配送成本等。譬如仓储中的分仓库压单占比、系统报缺率(与前面的商品类目指标有极大的关联)、实物报缺率、限时上架完成率等,物品发送中的譬如分时段下单出库率、未送达占比以及相关退货比率、COD比率等等。

2.经营环境指标

EC这里将电子商务网站经营环境指标分为外部竞争环境指标和内部购物环境指标。外部竞争环境指标主要包括网站的市场占有率,市场扩大率,网站排名等,这类指标通常是采用第三方调研公司的报告数据,相对于独立B2C网站而言,淘宝此方面的数据要精准的多。网站内部购物环境指标包括功能性指标和运营指标(这部分内容和之前的流量指标是一致的),常用的功能性指标包括商品类目多样性、支付配送方式多样性、网站正常运营情况、链接速度等。

3.销售业绩指标

销售业绩指标直接与公司的财务收入挂钩,这一块指标在所有数据分析指标体系中起提纲挈领的作用,其他数据指标的细化落地都可以根据该指标去细分。EC这里销售业绩指标分解为网站销售业绩指标和订单销售业绩指标,其实两者并没有太大的区别,网站销售业绩指标重点在网站订单的转化率方面,而订单销售指标重点则在具体的毛利率、订单有效率、重复购买率、退换货率方面,当然还有很多指标,譬如总销售额、品牌类目销售额、总订单、有效订单等等,上里并没有一一列出。

4.营销活动指标

一场营销活动做的是否成功,通常从活动效果(收益和影响力)、活动成本以及活动粘合度(通常以用户关注度、活动用户数以及客单价等来衡量)等几方面考虑。EC这里将营销活动指标区分为日常市场运营活动指标、广告投放指标以及对外合作指标,其中市场运营活动指标和广告投放指标主要考虑新增访客数、订单数量、下单转化率、每次访问成本、每次转换收入以及投资回报率等指标。而对外合作指标则根据具体合作对象而定,譬如某电商网站与返利网合作,首先考虑的也是合作回报率。

5.客户价值指标

一个客户的价值通常由三部分组成:历史价值(过去的消费)、潜在价值(主要从用户行为方面考虑,RFM模型为主要衡量依据)、附加值(主要从用户忠诚度、口碑推广等方面考虑)。这里客户价值指标分为总体客户指标以及新、老客户价值指标,这些指标主要从客户的贡献和获取成本两方面来衡量。譬如,这里用访客人数、访客获取成本以及从访问到下单的转化率来衡量总体客户价值指标,而对老顾客价值的衡量除了上述考虑因素外,更多的是以RFM模型为考虑基准。

数据分析体系建立之后,其数据指标并不是一层不变的,需要根据业务需求的变化实时的调整,调整时需要注意的是统计周期变动以及关键指标的变动。通常,单独的分析某个数据指标并不能解决问题,而各个指标间又是相互关联的,将所有指标织成一张网,根据具体的需求寻找各自的数据指标节点。至于如何关联指标,下面这张来自麦网总结的图片或许能给你些许启发:

110

文章原文:http://www.shujufenxi.net/?p=653

俺们幸福的瞬间

 

协同过滤算法的实现过程

协同算法的实现分为三步:收集用户对项目的评分、计算收集数据的最近邻居、产生推荐结果。

收集用户对项目的评分

根据用户对项目评分数据的来源可以将评分分为显式评分和隐式评分,显式评分是指用户显式的给项目选择一个评分,这种评分方式是用户提供最准确的描述用户偏好的方式,但是这种方式需要用户额外的工作,并且面临“冷启动”问题;隐式评分是指系统通过分析用户的行为来推断用户对项目的爱好,如利用用户在一个项目上花费的时间评价对该项目的偏好程度,这种方法的不足是具有不确定性;

m个用户对n个项目的评分可以用一个如下所示的m*n的评分矩阵来表示,其中U1、U2、……、Um为m个用户,I1、I2、……、In为n个商品,矩阵的每个值M(i,j)为用户Ui对项目Ij的评分:

image

计算收集数据的最近邻居

协同过滤的出发点是计算用户的最近邻居,因此就归结为计算两个用户或项目的相似度,从而可以得到用户或项目的相似度排序。计算相似的算法主要包括欧几里德距离(Euclidean Distance Score)、皮尔逊相关度(Person Correlation Coefficient)、余弦相似性(Cosine-based Similarity)、调整余弦相似性(Adjusted Cosine Similarity)、Jaccard系数等。各种相似度的计算方法各有所长,要根据具体的应用场景来选取一种或几种综合使用。前二者适用于时间序列这样的稠密数据或二维点,后三者适用于像文档这样的稀疏数据;

1) 欧几里德距离:它以经过人们一致评价的物品为坐标轴,然后将参与评价的人绘制到图上,并考察他们彼此间的距离远近,欧几里德距离的计算公式如下:

clip_image001

根据公式可知,计算两个用户相似度的前提就是两个用户有相同的评价项。下图所示的X轴、Y轴分别为商品A和商品B,而在第一象限偏好空间里则是每个人对商品A和商品B的评价:可以发现用户A和用户B的空间距离较短(评分较为接近),根据欧几里德距离的结论,偏好越相似的人,其在偏好空间的距离就越短。

image

2) 皮尔逊相关度:它是通过判断两组数据与某一直线拟合程度来判断相似度。下图为用户A和用户B对五个商品的评分,虚线为最佳拟合线,其绘制的原则是尽可能靠近所有的点,如果用户A和用户B对五个商品的评分完全相同,则最佳拟合线为一条45度的对角直线,并且会覆盖图中所有的点。

clip_image001[14]

image

采用皮尔逊方法可以修正“夸大分值 (grade inflation)”的情况,因为即使用户B总是倾向于给出比用户A更高的分数,但最终的直线仍然拟合度较高,这是因为他们两者有着相对近似的偏好。也就是说,如果某人总是倾向于给出比另一人更高的分数,而两者的分差又始终保持一致,则他们依然可能会存在很好的相关性。而此前提到过的欧几里德距离评价方法,会因为一个人的评价始终比另一个人更为“严格”(从而导致评价始终相对较低),而得出两者不相近的结论,即使他们的品位很相似也是如此。当然,这一行为是否是我们想要的结果,取决于具体的应用场景。

3)余弦相似性:对于像文档向量这样的具有相对较少非零属性的数据,如果统计0-0匹配,则大部分文档与其他大部分文档都是相似的(类似于Jaccard系数),同时还要考虑如何处理非二元向量,这时可以采用余弦相似度方法,该方法将两个用户表示为两个m维的用户空间向量,它们之间的相关性用两个向量的余弦来度量,余弦值越大,表示两个向量直接的相关性越大,反之则越小。具体公式如下,根据公式可知,它不考虑两个数据对象的量值,对于长度为1的向量,该度量可以通过简单的计算点积取得。

image

4)修正余弦相似性:用余弦相似性计算两个用户的相关性有一个较大的缺点是没有考虑评分的尺度问题,修正的余弦相似性可以减去用户对项目的平均评分来改善上述缺陷。具体公式如下:

image

5)Jaccard系数:对于对称的二元属性可以采用简单批评系数(SMC)来度量,其值为“值匹配的属性个数”与“属性个数”之比,即(f11+f00)/(f01+f10+f11+f00);而对于非对称二元属性,考虑如果每个非对称的二元属性对应于商店的一种商品,则1表示该商品被购买,而0表示该商品未被购买。由于未被顾客购买的商品数远大于被其购买的商品数,因而像SMC这样的相似性度量将会判定所有的事务都是类似的,这就需要采用Jaccard系数进行度量,其定义为“匹配个数”与“不涉及0-0匹配的属性个数”之比,即f11/(f01+f10+f11)

产生推荐结果

有了最近邻集合,就可以对目标使用者的兴趣进行预测,产生推荐结果。依据推荐目的的不同进行不同形式的推荐, 较常见的推荐结果有Top-N推荐和关联推荐。

  • Top-N 推荐,针对个体使用者产生,对每个人产生不一样的结果,例如:透过对用户A的最近邻用户进行统计,选择出现频率高且在A使用者的评分项目中不存在的,作为推荐结果。这和一般网站上见到的“最热门”列表是不同的。热门列表是基于全部数据集产生的,它对每个人都是一样的。
  • 关联推荐,又称为基于关联规则的推荐,它是对最近邻使用者的记录进行关联规则(association rules)挖掘。与传统关联规则针对全部数据进行挖掘不同的是,此方法仅对最近邻用户的购买记录进行关联规则挖掘。它最突出的优点就是,可以帮助你发现你感兴趣的而以前却从来没有注意过的商品。在 Amazon 介绍书的详细信息的页面上,可以看到这种推荐的一个实际应用。