Chapter 7. Statistical Estimation Notes
Chapter 7. Statistical Estimation Notes
Justify these from different points of views and end up with the same conclusion.
1. 最大似然估计
求取参数向量x的最大似然估计问题可以描述如下:
1.1 附加了IID噪声的线性测量
假设vi独立同分布,在R上具有概率密度p. 从线性代数上,上式y是关于x的仿射函数; 从统计学,vi是随机变量,观察值yi分布由参数变量(不是随机变量)决定. 上式的似然函数为
对数-似然函数为:
1.2 噪声服从一些常见概率分布时的ML估计.
Justify these from different points of views and end up with the same conclusion.
- Gauss 噪声 ·、vi是均值为0,方差为σ2的高斯分布时,p(z)=(2πσ2)−1e−z2/2σ2,此时对数−似然函数为 其中,矩阵A的行向量为aT1,...,aTm.x的ML估计为xml=argminx||Ax−y||22.这就从ML的角度解释了最小二乘逼近问题/l2范数逼近问题.l(x)=−(m/2)log(2πσ2)−12σ2||Ax−y||22
- Laplace噪声 vi服从Laplace分布时,p(z)=(1/2a)e−|z|/a(a>0),x的ML估计为x=argminx||Ax−y||1.也即l1范数逼近问题.
2. 最大后验概率估计
最大后验概率估计问题可以看成最大似然估计的Bayes形式,此时,假设未知参数x服从某一项预先设定的概率分布. 将定x(待估计向量)和y(观察向量)是随机变量,其联合概率密度为p(x,y). 和统计估计的假设不同,在统计估计中,x是参数,而不是随机变量.
第一项和对数-似然函数本质上是一样的;第二项是根据先验概率密度对不大可能发生的x(即px(x)较小的x)的惩罚项.
3. 非参数分布估计
$设随机变量X在有限集合\{a_1, ..., a_n\}\subseteq\mathbf{R}上取值.X的概率密度分布为p\in\mathbf{R}^n, \mathbf{prob}(X=a_k)=p_k. p\succeq 0 且\mathbf{1}^Tp = 1. \\ 反之,如果某一个概率密度分布p\in \mathbf{R}^n满足p \succeq 0 且 \mathbf{1}^Tp = 1, 令\mathbf{prob}(X=a_k) = p_k,则p定义了某一随机变量X的概率密度分布. \\
因此, 概率单纯形$
与在{a1,...,an}中取值的随机变量X的所有可能的概率密度分布是意义对应的关系.
- 概率及期望值的界
给定概率分布的先验信息,如p∈P,可以计算某个函数期望值的上界和下界或者某一集合上概率的上下界.
例如,为了确定函数Ef(X)的一个下界,其中X的概率密度分布满足先验信息p∈P,我们求解下列凸优化问题:minimize ∑ni=1f(ai)pisubject to p∈P 最大似然估计
假设有N组服从独立同分布的采样点x1,...,xN.ki表示这些采样点取值为ai的次数,k1+...+KN=Nl(p)=∑ni=1kilogpi上述问题是p的凹函数.最大似然估可以通过极大化,得到凸优化问题.
最大熵
minimize ∑ni=1pilog(pi)subject to p∈P最大熵分布时满足先验信息的最确定的或者最随机的分布.
最小KL散度
在满足先验信息的条件下,为了找到和给定先验分布q具有最小Kullback-Leibler散度的概率分布p等价于求解以下凸优化问题:minimize ∑ni=1pilog(pi/qi)subject to p∈P当给定的先验分布是均匀分布时,即q=(1/n)1,上述问题简化为最大熵问题.
4. 最优检测器设计及假设检验
4.1 假设检验
假设X是随机变量,在{1,...,n}中取值,其概率密度分布和参数θ∈{1,...,m}的取值有关.对θ的m个取值,X的概率分布由矩阵P∈Rn×m表征,其元素为
而矩阵P的第j列对应参数数值θ的概率分布.
基于观察样本X估计θ的问题,即样本X来自于m种可能的概率分布,我们需要确定是哪个?
θ的m个取值成为假设,从m个假设中猜想哪个是正确的(即产生观察样本X的概率分布),这个问题成为假设检验.
参数θ的取值也可以不取{1,...,m},例如可以取$\theta\in\{\theta_1, ..., \theta_m\},其中\theta_i是参数值. 这些参数值可以是实数或者实向量,例如确定了第k个概率分布的均值和方差.
此时,参数估计误差的范数||\theta^{-} - \theta||是有意义的. $
假设检验是从{1,...n}(可能的观察样本集合)到{1,...,m}(假设的集合)的函数ψ.如果X的观察值为k,那么θ的猜想值为θ−=\pshi(k). 直观的想法是做最大似然估计:
对上述推广, 给定X的观察值,θ的估计值θ−∈{1,...,m}是随机的.其分布取决为X的观察值.此时,可以定义一个矩阵T∈Rm timesn,其元素为:
$如果我们得到观察值X=k,那么假设检验以概率t_{ik}给出估计值\theta^-=i. 给定观察值X=k,T的第k列,t_k给出了\theta^-的概率分布. \\
如果T的每一列都是单位向量,那么\theta^-是X的观察值的一个确定性函数.
$
进一步的,对由矩阵T决定的随机假设检验,定义假设检验概率矩阵D=TP:
其中,pkj=prob(X=k|θ=j),tik=prob(θ−=i|X=k)
则,Dij表示当i=j时,θ−=i的概率.m×m概率矩阵定义了由矩阵T定义的随机假设检验的性能.
对角元素Dij表示正确地检验出θ=i的概率,对角元素Dij(i≠j)是θ=j却误判为θ=i的概率
如果D=I,则假设是理想的:无论参数θ如何,猜想都是正确的,θ−=θ
D的对角元素排列成一向量,称为检测概率,用Pd表示,即
错误概率是上述概率的补,用Pe表示,即
由于检测概率矩阵D的每一列和为1,错误概率又可以表示为Pei=∑j≠i(Dji)
4.2 假设检验设计
本节的假设检验设计问题的目标函数是D,同时也是T(即优化变量)的线性、仿射或者凸分片线性函数.
对正确检测出第j个假设的概率添加一个下界:
对将θ=j误判为θ=i的概率添加一个上界:
- 极小极大假设检验设计
极小极大错误概率maxjPej作为优化目标,得到线性规划问题:minimize max jPejsubject to tk⪰0,1Ttk=1,k=1,...,n - Bayes假设检验设计
首先用一个先验分布q∈Rm描述对参数的假设则,假设检验的错误概率为qTPe,这是T的仿射函数.qi=prob(θ=i)
解如下线性规划问题,得到Bayes最优假设检验minimize qTPesubject to tk⪰1,1Tt+k=1,k=1,...,n. - 由统计量定义假设检验的目标函数
1.偏差
当θ=θi时,可以表述为下列线性函数2.均方误差Ei(θ−−θ)=∑mi(θ−−θ)Dji3.. 平均绝对值误差Ei(θ−−θ)2=∑mi(θ−−θ)2DjiEi|θ−−θ|=∑mi|θ−−θ|Dji
5. Chebyshev界和Chernoff界
最近事情比较多,没空写了 -_-!
6. 实验设计
-_-!
参考文献
熵的社会学意义——阮一峰
Convex Optimization by Stephen Boyd and Lieven Vandenberghe
Convex Optimization Edx