核密度估計

核密度估計（英語：Kernel density estimation，縮寫：KDE）是在概率論中用來估計未知的密度函數，屬於非參數檢驗方法之一，由Rosenblatt (1955)和Emanuel Parzen(1962)提出，又名Parzen窗（Parzen window）。Ruppert和Cline基於數據集密度函數聚類算法提出修訂的核密度估計方法。

核密度估計在估計邊界區域的時候會出現邊界效應。

在單變量核密度估計的基礎上，可以建立風險價值的預測模型。通過對核密度估計變異係數的加權處理，可以建立不同的風險價值的預測模型。

一些比較常用的核函數是：均勻核函數 $k(x)={\frac {1}{2}},\;-1\leq x\leq 1$ ，加入帶寬 $h$ 後： $k_{h}(x)={\frac {1}{2h}},\;-h\leq x\leq h$ 。

三角核函數 $k(x)=1-|x|,\;-1\leq x\leq 1$ ，加入帶寬 $h$ 後： $k_{h}(x)={\frac {(h-|x|)}{h^{2}}},\;-h\leq x\leq h$ 。

伽馬核函數 $k_{x_{i}}(x)={\frac {x^{(\alpha -1)}\exp {(-x\alpha /x_{i})}}{(x_{i}/\alpha )^{\alpha }\Gamma (\alpha )}}$ 。

定義[編輯]

設 $\left(x_{1},x_{2},\cdots ,x_{n}\right)$ 為從單變量分布中抽取的獨立同分布樣本，給定點 $x$ 有未知的概率密度 $f$ ，我們對估計函數 $f$ 的形狀感興趣，其核密度估計器是

{\widehat {f}}_{h}(x)={\frac {1}{n}}\sum _{i=1}^{n}K_{h}(x-x_{i})={\frac {1}{nh}}\sum _{i=1}^{n}K{\Big (}{\frac {x-x_{i}}{h}}{\Big )},

其中 $K$ 是非負的核函數，帶寬 $h>0$ 為平滑參數。帶下標h的核被稱為縮放核，定義為 $K_{h}(x)=1/h\cdot K(x/h)$ 。直覺上講，在數據允許的範圍內應當選擇儘可能小的帶寬；然而，偏差和方差之間總有所權衡。

常用的核函數有：均勻核（Uniform）、三角核（Triangular）、雙權核（Biweight）、三權核（Triweight）、Epanechnikov核、正態核（Normal）等。從均方誤差的角度來看，Epanechnikov核是最佳的^[1]，儘管對於前面列出的核來說，效率的損失很小^[2]。由於其數學特性良好，正態核經常被使用，即 $K(x)=\phi (x)$ ，其中 $\phi$ 是標準正態密度函數。

參考文獻[編輯]

唐林俊、楊虎、張洪陽：核密度估計在預測風險價值中的應用 The Application of The Kernel Density Estimates in Predicting VaR，《數學的實踐與認識》2005年10期

這是一篇與統計學相關的小作品。你可以透過編輯或修訂擴充其內容。

^ Epanechnikov, V.A. Non-parametric estimation of a multivariate probability density. Theory of Probability and Its Applications. 1969, 14: 153–158. doi:10.1137/1114019.
^ Wand, M.P; Jones, M.C. Kernel Smoothing. London: Chapman & Hall/CRC. 1995. ISBN 978-0-412-55270-0.

[1] Epanechnikov, V.A. Non-parametric estimation of a multivariate probability density. Theory of Probability and Its Applications. 1969, 14: 153–158. doi:10.1137/1114019.

[WJ1995-2] Wand, M.P; Jones, M.C. Kernel Smoothing. London: Chapman & Hall/CRC. 1995. ISBN 978-0-412-55270-0.

[1]

[2]