数据防泄漏大讲堂
威斯尼斯人官方登录
威斯尼斯人官方登录如何做数据标准化:哪类数据需要标准化处理|844vv|
将一个东西标准化✿★,可以提高生产效率✿★,数据也是如此✿★。但在开始化之前威斯尼斯人官方登录✿★,我们需要先来看看✿★,哪些数据需要进行标准化处理844vv844vv✿★,以及如何处理✿★。
数据标准化是指研究✿★、制定和推广应用统一的数据分类分级✿★、记录格式及转换✿★、编码等技术标准的过程✿★。
主要指的是数据治理中的数据标准化工作✿★,包括数据交换✿★、数据质量和数据标准等一系列内容✿★,可称之为“数据标准化体系建设”✿★。在这个内涵下✿★,要做好数据标准化844vv✿★,需要做✿★:
但我们今天所说的✿★,并不是这个“数据标准化”✿★。而是“数据预处理(也称 数据清洗)”中的一种数据处理手段✿★。
没错✿★,只有当工厂实现了“零件标准化”✿★,才真正算是步入了工业化时代✿★,生产效率得到了极大的提升✿★。
因为有了它844vv✿★,工厂生产零件可以完全按照图纸规范来威斯尼斯人官方登录✿★,并且就算是不同厂家生产的零件威斯尼斯人官方登录✿★,只要是按照图纸规范来的✿★,都是可以通用的✿★。此举大大提高了零件的质量和可用性✿★,并且使得工厂之间的协同和合作变得尤为高效✿★,零件再组装成更大的可用商品也就更高效和保质保量了844vv✿★。
数据标准化需要将数据对象按照我们后续处理的要求切成所需的形态✿★,我们要做的✿★,就是定义这个“模具”并让它开始工作✿★。
比如现在要分析门店销售额和店均销量对门店竞争力的影响✿★。在业务认知上✿★,此两者的权重应是相当的✿★。但数值的量级却是不一样的威斯尼斯人官方登录✿★。
门店销售额的数值量级远大于店均销量✿★,必然就会导致店均销量对结果的影响被拉得微乎其微✿★,而这并不符合业务实际✿★,也不符合我们想要的影响因子系数配比✿★。
首先✿★,我们需要确定一个原则✿★,既然是“去量钢化”✿★,那么我们要做的就是✿★:把所有参与计算的自变量的取值区间拉到同一个区间✿★。
min-max标准化这个方法即是将这个统一取值区间定义为✿★:[0,1]✿★。不管原本多大量级的指标✿★,都需要经过处理后落在这个区间内844vv✿★。
这里有个公式✿★:(X-min)/(max-min)✿★,所有数据经过这个公式的运算后都可以落在[0,1]区间上✿★。属于最简单的线性变换法✿★。
z-score标准化这个方法即是将这个统一取值区间定义为✿★:围绕0上下波动✿★。主要是基于均值判断单个具体值是偏高还是偏低✿★。
中心化✿★:X-Mean(让数据变成平均值为0的一组数据)均值化✿★:X/Mean区间化✿★:a+(b-a)*(X-Min)/(Max-Min)【可将数据压缩到区间[a,b]中】
比如现在要分析不同商品的优劣✿★,从而用于选品的决策844vv✿★。而评价商品的优劣则需要从多维度来评估✿★,涉及到若干个指标✿★。常见的✿★,如动销和同质化✿★。在业务认知上✿★,代表动销的指标动销率✿★、销量等✿★,数值越高则商品表现越好✿★;代表同质化的同功效SKU数✿★,数值越低说明同质化程度越低则商品表现(稀缺性优势)越好✿★。到这里✿★,各位看官应该可以看出来✿★,这两种指标的作用方向是不一样的✿★,即✿★:一个是越高越好✿★,另一个是越低越好✿★。
商品评分随动销率的增高而增高✿★,这没问题✿★。但商品评分随同功效SKU数的增高而增高就不合理了✿★,同质化程度的增加只能说明该商品的稀缺性和独特竞争优势走弱✿★,商品评分应该随之降低才是符合业务实际的✿★。
经过如此数据处理后✿★,便可将负向指标转为正向指标✿★,且结果将落在[0,1]区间内✿★,从而实现了数据的标准化✿★。
作用✿★:对中间型指标数据的线]区间✿★。原数据等于理想值✿★,处理结果为1✿★;原数据越靠近理想值844vv✿★,处理结果值就越接近1✿★。
作用✿★:对区间型指标数据的线]区间✿★。原数据若在理想区间内✿★,处理结果为1✿★;原数据越靠近理想区间范围✿★,处理结果值就越接近1✿★。
对于这两类“不够标准化”的数据威斯尼斯人官方登录✿★,经过以上两种处理之后✿★,则满足了数据应用的标准✿★,可以进行下一步使用了✿★。这便是“数据生产链”中“数据标准化”工作的意义与常见的方法✿★。希望对各位理解数据工作的具体内容有所帮助✿★。威斯尼斯人官方网站✿★,威斯尼斯人网路安全✿★。澳门尼斯人游戏电玩网站✿★,澳门尼斯人游戏电玩✿★,澳门尼斯人游戏✿★。