想用非参数方法估计一个连续型随机变量的 pdf, 目前有样本
.
从连续型随机变量的 pdf 定义出发, 是概率分布函数的导数,
, 于是我们用这个式子来估计 pdf.
然后随便找点损失函数,用数值方法优化一下 h,这样可以得到 pdf
的一个非参数估计
根据 pdf 的定义,h 是应该趋于 0 的,那么上式中 h 该取
0,但是由于样本数量有限,是抽样得来的,所以不能这样做。那么很自然的想到,在
x 的 h 邻域内的这些点也不应该有相同的权值,越靠近 x 对我估计的 pdf
的贡献应该越大,课程上这样引入了其他核函数。
上面使用的核函数就是简单的指示函数
在于距离不超过时为
1,其他为 0.
新的核函数要让于距离不超过时越靠近权值越高,远离
x 权值就低。
2 问题
现在产生了两个问题: 1. 核函数是分段函数,把上面估计 pdf
的式子中的指示函数换成其他分段的核函数也会让产生的 pdf
有很多不可导的点,能否直接于距离不超过这个限制,通过核函数直接加权。比如核函数为标准正态分布
pdf,核函数不分段,最后生成的一定是一个处处可导的 pdf。 2.
什么样的核函数可用?
来看第二个问题,见到了两个核函数,标准正态分布 pdf 和
他们的特点是在上的积分都是
1.
如果用
拟合出的 pdf 基本上是真实 pdf 的 100 倍
同学(易大师)给出了一个简单证明:
kf proof
但是如果从原理部分理解过来,并不能得知为什么这样的核函数能用。选取的核函数应该要和指示函数等价,也就是说对于一个,样本落在的邻域的比例要和这些样本的核函数的和相等。不过由于我们正在估计这个随机变量的
pdf,样本的分布是不知道的,我觉得无法推出这个条件。
Lecture
Notes on Nonparametrics 找到了一个 lecture
notes,里面详细介绍了核函数相关内容,section 2.2 中提到 2 阶核函数都是从
得到的。
3 …?
想一想该如何解释为什么核函数可以这么取:
固定一个,按照待估计连续型随机变量的分布再生成个样本,这
n 个样本的核函数值的和应该恰好等于落在 y 的 h
邻域内的样本的数量。(为了方便,直接取 h=1,并且假设 n 个样本都位于 y 的
h 邻域内)
算到这里我就不会算了,我觉得没什么办法能处理,应该是不会等于的。
观察这个式子,固定 y 不行,对所有 y 再积分也不行,y
取所有样本也不行,感觉无法解释。
但是如果假设再生成的样本是均匀分布,那么一个样本的核函数值的期望就是
这就是核函数的积分,结果是 1。n 个样本的核函数值的和的期望就是 n
至于为什么不假设样本是服从和要估计的随机变量分布相同而是用均匀分布,我觉得只是因为好算,而且当
h 取得较小的时候区别不是很大。