引言
客流预测、销量预测非常重要。比如开店选址,需要预估客流;搞促销活动,需要提前备货;工厂生产,需要供应链订货计划等等。准确的预测可以为计划制定提供关键指导。本文以常见的客流、销量为例,阐述如何进行预测。
我们知道,客流有很多种,比如景区客流、店铺客流、交通客流、线上客流等等,但每种客流的影响因素是不一样的。准确且全面地收集这些数据,是保证预测精度的前提。
例如,景区客流和天气、节假日、票价优惠、位置、交通状况等很有关系。很多景区(如海滨浴场、滑雪场、爬山等)还存在季节性或周期性。除此之外,很多突发因素(如疫情)也对客流有巨大的影响。若想准确预测景区客流,就需要尽量收集这些数据以备分析。
类比考虑,店铺客流和节假日、促销活动、天气、竞对、交通、地段等有关系,那么就需要对这些数据进行收集。此处需要注意的是,新店预测和老店预测是完全不同的:
- 新店还未成立,相当于冷启动预测。此时因为没有任何历史数据,需要以相似店铺、相似地段的其它店铺作为参考,并建立一个拟合模型。实际上,很多人用人脑估计,就是在不自觉中进行类比拟合了,只是主观经验缺乏准确性。
- 老店已有足够的历史数据,相当于根据历史预测未来。此时可以根据历史数据及相关的影响因素建立一个时序预测模型。实际上,我们很多人根据历史经验判断,就是在做类似的事,但是这种判断同样具有很强的主观性和模糊性。
这些问题都可以使用暖榕敏捷数据挖掘系统来解决。对于冷启动问题(如新景区、新店、新路线预测),可以使用智能拟合引擎或线性回归与归因引擎处理;对于已积累了较多历史数据的情况(如老景区、老店、老路线),可以使用时序预测引擎处理。
一个店铺的例子(景区也可参考)
我们手头有一年的真实店铺销量数据,现在根据这些数据,预测未来1000天店铺的销量(景区的客流或收入预测也可参考此例)
原始数据样例
未来预测结果
节假日的影响(含影响大小、影响置信度和置信区间)
可见,这个店铺在节假日的时候销量基本都会上升,尤其是在劳动节和元旦期间,上升得最多。
另外可以看到,国庆节上升的置信度最高(柱状区间最窄),也就是说,在国庆期间,几乎可以确定销量将上升200~300。
天气、寒暑假等其它因素的影响(含影响大小、影响置信度和置信区间)
由图可见,可以很确定的一点是,在非寒暑假期间,销量将显著下降(最后两个柱状图,暑假(否)和寒假(否),带来销量的下降)。换句话说,在寒暑假期间,销量将显著上升,寒暑假对销量起到很大的拉动作用。
有关该例的细节,可以参考以下链接:知乎 – 安全中心
一个交通客流预测的例子
交通预测的套路和景区预测、店铺预测本质是一样的,同样要考察影响因素。例如,新路预测需要考察道路等级、交叉口个数、途径POI特征、附近人群特征,并建立拟合模型;老路预测需要考察历史客流、节假日、天气、封路、修路等等,并建立时序预测模型。
实际上,哪怕没有任何相关因素的数据,也可以根据历史规律,预测未来。下面使用仅有一个序列,不包含任何因素的数据进行预测。
原始数据样例
该数据为旧金山湾区某高速公路的拥堵率,没有任何其它数据(如节假日、天气、封控、修路等),连时间戳都没有。如下图所示:
预测结果
同样使用时序预测引擎进行预测:
可见,回测结果和原始数据的重叠度很高,预测结果也很好地找到了序列的规律,说明预测精度还是很理想的。
由于数据只有一列,十分单薄,相信数据的维度若能更丰富一些,预测精度应该会更高。有关该例的细节,可以参考以下链接:知乎 – 安全中心?
小结
本文着重介绍了基于时序预测引擎的销量/客流预测。但实际当中,还有非常多需要冷启动的场景,比如店铺选址、新店预测销量等。如前文所言,这类情况更适合建立拟合模型(智能拟合引擎或线性回归与归因引擎),有兴趣的伙伴可以自己尝试。后面我们将对这类问题进行细致讲解。
如若转载,请注明出处:https://www.dasum.com/203089.html