[转载]robustfit等在matlab的应用（Matlab插值与拟合实例讲解）_清仪

http://blog.sina.com.cn/u/2061663921

首页博文目录关于我

个人资料

微博

加好友发纸条

写留言加关注

博客等级：
博客积分：

博客访问：
关注人气：
获赠金笔：0支
赠出金笔：0支
荣誉徽章：

正文字体大小：大中小

[转载]robustfit等在matlab的应用（Matlab插值与拟合实例讲解）

(2016-12-13 13:54:57)

标签：

转载

分类： Math_and_Matlab

原文地址：robustfit等在matlab的应用（Matlab插值与拟合实例讲解）（转载整理）作者：ccpacer

robustfit参考资料：

http://www.weizmann.ac.il/matlab/toolbox/stats/robustfit.html

http://www.mathworks.cn/help/toolbox/stats/robustfit.html

§1曲线拟合

实例：温度曲线问题

气象部门观测到一天某些时刻的温度变化数据为： t
0
1
2
3
4
5
6
7
8
9
10

T
13
15
17
14
16
19
26
24
26
27
29

试描绘出温度变化曲线。

曲线拟合就是计算出两组数据之间的一种函数关系，由此可描绘其变化曲线及估计非采集数据对应的变量信息。

曲线拟合有多种方式，下面是一元函数采用最小二乘法对给定数据进行多项式曲线拟合，最后给出拟合的多项式系数。

1. 线性拟合函数：regress()

调用格式： b=regress(y,X)

[b,bint,r,rint,stats]= regress(y,X)

[b,bint,r,rint,stats]= regress(y,X,alpha)

说明：b=regress(y,X)返回X处y的最小二乘拟合值。该函数求解线性模型：

y=Xβ+ε

β是p?1的参数向量；ε是服从标准正态分布的随机干扰的n?1的向量；y为n?1的向量；X为n?p矩阵。

bint返回β的95%的置信区间。r中为形状残差，rint中返回每一个残差的95%置信区间。Stats向量包含R2统计量、回归的F值和p值。

例1：设y的值为给定的x的线性函数加服从标准正态分布的随机干扰值得到。即y=10+x+ε ；求线性拟合方程系数。

程序： x=[ones(10,1) (1:10)’]

y=x*[10;1]+normrnd(0,0.1,10,1)

[b,bint]=regress(y,x,0.05)

结果： x =

1 1

1 2

1 3

1 4

1 5

1 6

1 7

1 8

1 9

1 10

y =

10.9567

11.8334

13.0125

14.0288

14.8854

16.1191

17.1189

17.9962

19.0327

20.0175

b =

9.9213

1.0143

bint =

9.7889 10.0537

0.9930 1.0357

即回归方程为：y=9.9213+1.0143x

2. 多项式曲线拟合函数：polyfit( )

调用格式： p=polyfit(x,y,n)

[p,s]= polyfit(x,y,n)

说明：x,y为数据点，n为多项式阶数，返回p为幂次从高到低的多项式系数向量p。矩阵s用于生成预测值的误差估计。(见下一函数polyval)

例2：由离散数据 x
0
.1
.2
.3
.4
.5
.6
.7
.8
.9
1

y
.3
.5
1
1.4
1.6
1.9
.6
.4
.8
1.5
2

拟合出多项式。

程序：

x=0:.1:1;

y=[.3 .5 1 1.4 1.6 1.9 .6 .4 .8 1.5 2]

n=3;

p=polyfit(x,y,n)

xi=linspace(0,1,100);

z=polyval(p,xi); %多项式求值

plot(x,y,’o’,xi,z,’k:’,x,y,’b’)

legend(‘原始数据’,’3阶曲线’)

结果：

p =

16.7832 -25.7459 10.9802 -0.0035

多项式为：16.7832x3-25.7459x2+10.9802x-0.0035

曲线拟合图形：

也可由函数给出数据。

例3：x=1:20,y=x+3*sin(x)

程序：

x=1:20;

y=x+3*sin(x);

p=polyfit(x,y,6)

xi=1inspace(1,20,100);

z=poyval(p,xi); %多项式求值函数

plot(x,y,’o’,xi,z,’k:’,x,y,’b’)

legend(‘原始数据’,’6阶曲线’)

结果：

p =

0.0000 -0.0021 0.0505 -0.5971 3.6472 -9.7295 11.3304

再用10阶多项式拟合

程序：x=1:20;

y=x+3*sin(x);

p=polyfit(x,y,10)

xi=linspace(1,20,100);

z=polyval(p,xi);

plot(x,y,'o',xi,z,'k:',x,y,'b')

legend('原始数据','10阶多项式')

结果：p =

Columns 1 through 7

0.0000 -0.0000 0.0004 -0.0114 0.1814 -1.8065 11.2360

Columns 8 through 11

-42.0861 88.5907 -92.8155 40.2671

可用不同阶的多项式来拟合数据，但也不是阶数越高拟合的越好。

3. 多项式曲线求值函数：polyval( )

调用格式： y=polyval(p,x)

[y,DELTA]=polyval(p,x,s)

说明：y=polyval(p,x)为返回对应自变量x在给定系数P的多项式的值。

[y,DELTA]=polyval(p,x,s) 使用polyfit函数的选项输出s得出误差估计Y DELTA。它假设polyfit函数数据输入的误差是独立正态的，并且方差为常数。则Y DELTA将至少包含50%的预测值。

4. 多项式曲线拟合的评价和置信区间函数：polyconf( )

调用格式： [Y,DELTA]=polyconf(p,x,s)

[Y,DELTA]=polyconf(p,x,s,alpha)

说明：[Y,DELTA]=polyconf(p,x,s)使用polyfit函数的选项输出s给出Y的95%置信区间Y DELTA。它假设polyfit函数数据输入的误差是独立正态的，并且方差为常数。1-alpha为置信度。

例4：给出上面例1的预测值及置信度为90%的置信区间。

程序： x=0:.1:1;

y=[.3 .5 1 1.4 1.6 1.9 .6 .4 .8 1.5 2]

n=3;

[p,s]=polyfit(x,y,n)

alpha=0.05;

[Y,DELTA]=polyconf(p,x,s,alpha)

结果： p =

16.7832 -25.7459 10.9802 -0.0035

s =

R: [4x4 double]

df: 7

normr: 1.1406

Y =

Columns 1 through 7

-0.0035 0.8538 1.2970 1.4266 1.3434 1.1480 0.9413

Columns 8 through 11

0.8238 0.8963 1.2594 2.0140

DELTA =

Columns 1 through 7

1.3639 1.1563 1.1563 1.1589 1.1352 1.1202 1.1352

Columns 8 through 11

1.1589 1.1563 1.1563 1.3639

5. 稳健回归函数：robust( )

稳健回归是指此回归方法相对于其他回归方法而言，受异常值的影响较小。

调用格式： b=robustfit(x,y)

[b,stats]=robustfit(x,y)

[b,stats]=robustfit(x,y,’wfun’,tune,’const’)

说明：b返回系数估计向量；stats返回各种参数估计；’wfun’指定一个加权函数；tune为调协常数；’const’的值为’on’(默认值)时添加一个常数项；为’off ’时忽略常数项。

例5：演示一个异常数据点如何影响最小二乘拟合值与稳健拟合。首先利用函数y=10-2x加上一些随机干扰的项生成数据集，然后改变一个y的值形成异常值。调用不同的拟合函数，通过图形观查影响程度。

程序：x=(1:10)’;

y=10-2*x+randn(10,1);

y(10)=0;

bls=regress(y,[ones(10,1) x]) %线性拟合

brob=robustfit(x,y) %稳健拟合

scatter(x,y)

hold on

plot(x,bls(1)+bls(2)*x,’:’)

plot(x,brob(1)+brob(2)*x,’r‘)

结果： bls =

8.4452

-1.4784

brob =

10.2934

-2.0006

分析：稳健拟合(实线)对数据的拟合程度好些，忽略了异常值。最小二乘拟合(点线)则受到异常值的影响，向异常值偏移。

6. 向自定义函数拟合

对于给定的数据，根据经验拟合为带有待定常数的自定义函数。

所用函数：nlinfit( )

调用格式： [beta,r,J]=nlinfit(X,y,’fun’,betao)

说明：beta返回函数’fun’中的待定常数；r表示残差；J表示雅可比矩阵。X,y为数据；‘fun’自定义函数；beta0待定常数初值。

例6：在化工生产中获得的氯气的级分y随生产时间x下降，假定在x≥8时，y与x之间有如下形式的非线性模型：

现收集了44组数据，利用该数据通过拟合确定非线性模型中的待定常数。

x y x y x y

8 0.49 16 0.43 28 0.41

8 0.49 18 0.46 28 0.40

10 0.48 18 0.45 30 0.40

10 0.47 20 0.42 30 0.40

10 0.48 20 0.42 30 0.38

10 0.47 20 0.43 32 0.41

12 0.46 20 0.41 32 0.40

12 0.46 22 0.41 34 0.40

12 0.45 22 0.40 36 0.41

12 0.43 24 0.42 36 0.36

14 0.45 24 0.40 38 0.40

14 0.43 24 0.40 38 0.40

14 0.43 26 0.41 40 0.36

16 0.44 26 0.40 42 0.39

16 0.43 26 0.41

首先定义非线性函数的m文件：fff6.m

function yy=model(beta0,x)

a=beta0(1);

b=beta0(2);

yy=a+(0.49-a)*exp(-b*(x-8));

程序：

x=[8.00 8.00 10.00 10.00 10.00 10.00 12.00 12.00 12.00 14.00 14.00 14.00...

16.00 16.00 16.00 18.00 18.00 20.00 20.00 20.00 20.00 22.00 22.00 24.00...

24.00 24.00 26.00 26.00 26.00 28.00 28.00 30.00 30.00 30.00 32.00 32.00...

34.00 36.00 36.00 38.00 38.00 40.00 42.00]';

y=[0.49 0.49 0.48 0.47 0.48 0.47 0.46 0.46 0.45 0.43 0.45 0.43 0.43 0.44 0.43...

0.43 0.46 0.42 0.42 0.43 0.41 0.41 0.40 0.42 0.40 0.40 0.41 0.40 0.41 0.41...

0.40 0.40 0.40 0.38 0.41 0.40 0.40 0.41 0.38 0.40 0.40 0.39 0.39]';

beta0=[0.30 0.02];

betafit = nlinfit(x,y,'sta67_1m',beta0)

结果：betafit =

0.3896

0.1011

即：a=0.3896 ，b=0.1011 拟合函数为：

=================================================================================

http://zhan.renren.com/matlab2012?gid=3602888498024090959&checked=true

regress函数和regstats函数利用普通最小二乘法估计模型中的参数，参数的估计值受异常值的影响比较大。robustfit函数采用加权最小二乘法估计模型中的参数，受异常值的影响就比较小。robustfit函数用来作稳健的多重线性或广义线性回归分析，下面介绍robustfit函数的用法。
1.4.1．robustfit函数的用法
robustfit函数有以下几种调用方式：
b = robustfit(X,y)
b = robustfit(X,y,wfun,tune)
b = robustfit(X,y,wfun,tune,const)
[b,stats] = robustfit(…)
（1）b = robustfit(X,y)
返回多重线性回归方程中系数向量β的估计值b，这里的b为一个1p×的向量。输入参数X为自变量观测值矩阵（或设计矩阵），它是的矩阵。与regress函数不同的是，默认情况下，robustfit函数自动在X第1列元素的左边加入一列1，不需要用户自己添加。输入参数y为因变量的观测值向量，是的列向量。robustfit函数把y或X中不确定数据NaN作为缺失数据而忽略它们。np×1n×
（2）b = robustfit(X,y,wfun,tune)
用参数wfun指定加权函数，用参数tune 指定调节常数。wfun为字符串，其可能的取值如表1-3所示。
表1-3 robustfit函数支持的加权函数
加权函数（wfun）
函数表达式
默认调节常数值
'andrews' sin(||)rwIrrπ=⋅<
1.339
'bisquare'（默认值）
22(1)(||1)wrIr=−⋅<
4.685
'cauchy' 21(1)wr=+
2.385
'fair' 1(1||)wr=+
1.400
'huber' 1max(1, ||)wr=
1.345
'logistic' tanh()wr=
1.205
'ols'
普通最小二乘，无加权函数
无
'talwar'
(||1)wIr=<
2.795
'welsch'
2rwe−=
2.985
若调用时没有指定调节常数tune，则用表1-3中列出的默认调节常数值进行计算。表1-3中加权函数中的r通过下式计算residr =tunes1-h××
其中resid为上一步迭代的残差向量，tune为调节常数，h是由最小二乘拟合得到的中心化杠杆值向量，s为误差项的标准差的估计。s的计算公式为：s = MAD/0.6745，其中MAD为残差绝对值的中位数，在正态分布下，这个估计是无偏的。若X中有p列，计算MAD时，将残差绝对值向量的前p个最小值舍去。
用户可以定义自己的权重函数，函数的输入必须是残差向量，输出是权重向量。在调用robustfit函数时，把自定义权重函数的句柄（形如@myfun）作为wfun参数传递给robustfit函数，此时必须指定tune参数。
（3）b = robustfit(X,y,wfun,tune,const)
用参数const来控制模型中是否包含常数项。若const取值为 'on' 或1，则模型中包含常数项，此时自动在X第1列的左边加入一列1，若const取值为 'off' 或0，则模型中不包含常数项，此时不改变X的值。
（4）[b,stats] = robustfit(…)
返回一个结构体变量stats，它的字段包含了用于模型诊断的统计量。stats有以下字段：
• stats.ols_s — 普通最小二乘法得出的σ的估计（RMSE）；
• stats.robust_s — σ的稳健估计；
• stats.mad_s — 用残差绝对值的中位数计算σ的估计；
• stats.s — σ的最终估计，是ols_s 和robust_s的加权平均与robust_s中的最大值；
• stats.se — 系数估计的标准误差；
• stats.t — b与stats.se的比值；
• stats.p — t检验的p值；
• stats.covb — 系数向量的协方差矩阵的估计；
• stats.coeffcorr — 系数向量的相关系数矩阵的估计；
• stats.w — 稳健拟合的权重向量；
• stats.h — 最小二乘拟合的中心化杠杆值向量；
• stats.R — 矩阵X的QR分解中的R因子

•

=================================================================================
§2 插值问题

在应用领域中，由有限个已知数据点，构造一个解析表达式，由此计算数据点之间的函数值，称之为插值。

实例：海底探测问题

某公司用声纳对海底进行测试，在5×5海里的坐标点上测得海底深度的值，希望通过这些有限的数据了解更多处的海底情况。并绘出较细致的海底曲面图。

一、一元插值

一元插值是对一元数据点(xi,yi)进行插值。

1．线性插值：由已知数据点连成一条折线，认为相临两个数据点之间的函数值就在这两点之间的连线上。一般来说，数据点数越多，线性插值就越精确。

调用格式：yi=interp1(x,y,xi,’linear’) %线性插值

zi=interp1(x,y,xi,’spline’) %三次样条插值

wi=interp1(x,y,xi,’cubic’) %三次多项式插值

说明：yi、zi、wi为对应xi的不同类型的插值。x、y为已知数据点。

例1：已知数据： x
0
.1
.2
.3
.4
.5
.6
.7
.8
.9
1

y
.3
.5
1
1.4
1.6
1.9
.6
.4
.8
1.5
2

求当xi=0.25时的yi的值。

程序：

x=0:.1:1;

y=[.3 .5 1 1.4 1.6 1 .6 .4 .8 1.5 2];

yi0=interp1(x,y,0.025,'linear')

xi=0:.02:1;

yi=interp1(x,y,xi,'linear');

zi=interp1(x,y,xi,'spline');

wi=interp1(x,y,xi,'cubic');

plot(x,y,'o',xi,yi,'r+',xi,zi,'g*',xi,wi,'k.-')

legend('原始点','线性点','三次样条','三次多项式')

结果：yi0 = 0.3500

要得到给定的几个点的对应函数值，可用：

xi =[ 0.2500 0.3500 0.4500]

yi=interp1(x,y,xi,'spline')

结果：

yi =1.2088 1.5802 1.3454

(二) 二元插值

二元插值与一元插值的基本思想一致，对原始数据点(x,y,z)构造见世面函数求出插值点数据(xi,yi,zi)。

一、单调节点插值函数，即x,y向量是单调的。

调用格式1：zi=interp2(x,y,z,xi,yi,’linear’)

‘liner’ 是双线性插值 (缺省)

调用格式2：zi=interp2(x,y,z,xi,yi,’nearest’)

’nearest’ 是最近邻域插值

调用格式3：zi=interp2(x,y,z,xi,yi,’spline’)

‘spline’是三次样条插值

说明：这里x和y是两个独立的向量，它们必须是单调的。z是矩阵，是由x和y确定的点上的值。z和x,y之间的关系是z(i,:)=f(x,y(i)) z(:,j)=f(x(j),y) 即：当x变化时，z的第i行与y的第i个元素相关，当y变化时z的第j列与x的第j个元素相关。如果没有对x,y赋值，则默认x=1:n, y=1:m。n和m分别是矩阵z的行数和列数。

例2：已知某处山区地形选点测量坐标数据为：

x=0 0.5 1 1.5 2 2.5 3 3.5 4 4.5 5

y=0 0.5 1 1.5 2 2.5 3 3.5 4 4.5 5 5.5 6

海拔高度数据为：

z=89 90 87 85 92 91 96 93 90 87 82

92 96 98 99 95 91 89 86 84 82 84

96 98 95 92 90 88 85 84 83 81 85

80 81 82 89 95 96 93 92 89 86 86

82 85 87 98 99 96 97 88 85 82 83

82 85 89 94 95 93 92 91 86 84 88

88 92 93 94 95 89 87 86 83 81 92

92 96 97 98 96 93 95 84 82 81 84

85 85 81 82 80 80 81 85 90 93 95

84 86 81 98 99 98 97 96 95 84 87

80 81 85 82 83 84 87 90 95 86 88

80 82 81 84 85 86 83 82 81 80 82

87 88 89 98 99 97 96 98 94 92 87

其地貌图为：

对数据插值加密形成地貌图。

程序：

x=0:.5:5;

y=0:.5:6;

z=[89 90 87 85 92 91 96 93 90 87 82

92 96 98 99 95 91 89 86 84 82 84

96 98 95 92 90 88 85 84 83 81 85

80 81 82 89 95 96 93 92 89 86 86

82 85 87 98 99 96 97 88 85 82 83

82 85 89 94 95 93 92 91 86 84 88

88 92 93 94 95 89 87 86 83 81 92

92 96 97 98 96 93 95 84 82 81 84

85 85 81 82 80 80 81 85 90 93 95

84 86 81 98 99 98 97 96 95 84 87

80 81 85 82 83 84 87 90 95 86 88

80 82 81 84 85 86 83 82 81 80 82

87 88 89 98 99 97 96 98 94 92 87];

mesh(x,y,z) %绘原始数据图

xi=linspace(0,5,50); %加密横坐标数据到50个

yi=linspace(0,6,80); %加密纵坐标数据到60个

[xii,yii]=meshgrid(xi,yi); %生成网格数据

zii=interp2(x,y,z,xii,yii,'cubic'); %插值

mesh(xii,yii,zii) %加密后的地貌图

hold on % 保持图形

[xx,yy]=meshgrid(x,y); %生成网格数据

plot3(xx,yy,z+0.1,’ob’) %原始数据用‘O’绘出

2、二元非等距插值

调用格式：zi=griddata(x,y,z,xi,yi,’指定插值方法’)

插值方法有： linear % 线性插值 (默认)

bilinear % 双线性插值

cubic % 三次插值

bicubic % 双三次插值

nearest % 最近邻域插值

例：用随机数据生成地貌图再进行插值

程序：

x=rand(100,1)*4-2;

y=rand(100,1)*4-2;

z=x.*exp(-x.^2-y.^2);

ti=-2:.25:2;

[xi,yi]=meshgrid(ti,ti); % 加密数据

zi=griddata(x,y,z,xi,yi);% 线性插值

mesh(xi,yi,zi)

hold on

plot3(x,y,z,'o')

该例中使用的数据是随机形成的，故函数griddata可以处理无规则的数据。

本文来自: 高校自动化网(Www.zdh1909.com) 详细出处参考(转载请保留本链接)：http://www.zdh1909.com/html/matlab/15375_2.html

=================================================================================

linspace ：http://www.mathworks.cn/help/techdoc/ref/linspace.html

阅读┊ 收藏 ┊转载原文 ┊ 喜欢 ▼ ┊打印┊举报/Report

前一篇：[转载]协方差矩阵的概念及matlab计算

后一篇：【转】Robust regression（稳健回归）

新浪BLOG意见反馈留言板　欢迎批评指正