什么是分位数?

分位数Quantiles-风君雪科技博客

分位数Quantiles-风君雪科技博客

显然,分位数是用来定位的,表示某个样本在整个样本空间中的位置信息。

通过CDF(累积分布函数)可以很好地理解分位数的概念。CDF是一个单调递增的函数,F(q) = F(x<=q) 。CDF曲线中横轴是随机变量的取值,竖轴是小于某个取值的概率。

由于CDF单调递增,因此一定存在一个逆函数F-1。F-1以小于某个取值的概率为输入,以对应的随机变量的取值为输出。

如果已知P(X<=xalpha) = alpha  = F(Xalpha) ,则通过CDF的逆F-1可直接求出对应的Xalpha的取值Xalpha=F-1(alpha),Xalpha即为F的alpha分位点。

分位数Quantiles-风君雪科技博客

以下是一个均值=10,标准差=0.5的正态分布概率密度曲线的例子,x=9.020的垂线与该分布的概率密度曲线和X轴所围成的左侧区域面积=0.025,

该面积表示在随机变量X的总体分布中,有2.5%的值小于9.020,也就是说在总体分布中,随机变量X的取值小于9.020的概率为2.5%。

同样,x=10.98的垂线与该分布的概率密度曲线和X轴所围成的右侧区域面积=0.025,该面积表示在随机变量X的总体分布中,有2.5%的值大于10.98,

也就是说在总体分布中,随机变量X的取值大于10.98的概率为2.5%(也即是随机变量X的取值小于10.98的概率为97.5%)。

在这个分布中,x=9.020的值被称为X的2.5%分位数(即:X2.5%=9.020),x=10.98的值被称为X的97.5%分位数(X97.5%=10.98)。

随机变量X有95%(即:97.5% – 2.5%=95%)的取值落在9.020至10.98之间。每个分位数都是随机变量所有可能取值中的某个值。

按照定义,若某个值Xp被称为随机变量X的p分位数,则随机变量X的取值小于Xp的概率为p。

                        分位数Quantiles-风君雪科技博客
以下是该正态分布对应的累积概率分布曲线,该曲线的纵轴表示的是累积概率,比如:x=9.020对应的累积概率为2.5%(即:随机变量X的取值小于x=9.020的概率为2.5%),

x=10对应的累积概率为50%(即:随机变量X的取值小于x=10的概率为50%), x=10.98对应的累积概率为97.5%(即:随机变量X的取值小于x=10.98的概率为97.5%)。

分位数Quantiles-风君雪科技博客
分位数的概念很重要,我们在研究过程能力时,通常将被研究过程的特性的99.865%分位数与0.135%分位数的差值

(即:被研究过程的特性其中间99.73%的区间范围)定义为过程变异(Process Variation)的宽度。建立SPC控制图,

如:均值极差(Xbar-R)控制图时,也是分别以样本均值和样本极差的0.135%分位数和99.865%分位数作为下控制限(LCL)和上控制限(UCL)。

对于服从正态分布的过程的特性X,其0.135%分位数X0.135%=μ-3σ,99.865%分位数X99.865%=μ+ 3σ,因此,过程变异的宽度=6σ。

对于服从任意分布的随机变量,过程变异的宽度= X99.865% – X0.135%。以下是任意分布时的概率密度分布曲线的例子。

随机变量取值X=xi时的概率P(X=xi=△xf(x),因为△x趋于0,因此在连续分布中,随机变量取值X=xi的概率P(X=xi)趋于0。

分位数Quantiles-风君雪科技博客