加载中…
个人资料
  • 博客等级:
  • 博客积分:
  • 博客访问:
  • 关注人气:
  • 获赠金笔:0支
  • 赠出金笔:0支
  • 荣誉徽章:
正文 字体大小:

matlab自带knn函数

(2015-01-30 18:29:44)
标签:

数据挖掘

分类: matlab

话说matlab的模式识别工具箱非常强大,对于一般应用来说基本不用自己编程,这就给科研带来了极大的便利。

之后估计会利用这个工具箱里的许多分类方法,比如KNNBPSVM等等;

现在就利用knn来进行分类。

For the object of samplify, I only choose 3 classes while 2 samples for each class ,there are 18 features in every sample . 

准备条件:已经把特征数据和样本标号保存为文件。

测试代码为:

[plain] view plaincopy

1.  train_data=load('sample_feature.txt');  

2.  train_label=load('train_label.txt');  

3.  test_data=load('features.txt');  

4.  k=knnclassify(test_data,train_data,train_label,3,'cosine','random');  

train_data保存的是训练样本特征,要求是最能代表本类别的,不一定多,当然不能太少;

train_label保存的是样本标号,如0,1,2等等,随便设置,只有能区分就行,具体格式可以为:

[plain] view plaincopy

1.   

test_data测试文件保存的是测试数据的特征;

关键函数介绍:


knnclassify
是利用最近邻进行分类的分类器;

函数调用形式:

1.CLASS = KNNCLASSIFY(SAMPLE,TRAINING,GROUP) 

标号和训练数据必须有相同的行数;训练数据和测试数据必须有相同的列;函数对于无效值或者空值会作为丢失值或者忽略这一行。

2.CLASS = KNNCLASSIFY(SAMPLE,TRAINING,GROUP,K)

此函数允许你设置距离矩阵形式,如:

               'euclidean'    欧氏距离,默认的

              'cityblock'    绝对差的和

              'cosine'     角度距离

              'correlation' 相关距离

              'Hamming'      汉明距离

3.CLASS =KNNCLASSIFY(SAMPLE,TRAINING,GROUP,K,DISTANCE,RULE)

本函数允许你选择如何对样本进行分类,如你可以选择:

               'nearest'  最近的K个的最多数

              'random'    随机的最多数

              'consensus' 投票法,默认的

而我选择的函数形式是:

k=knnclassify(test_data,train_data,train_label,3,'cosine','random');

大家可以对照看看选择合适的,多试试。

嗯,很简单,就这样就可以得到最后的分类类别了。

对了,还要把最后的分类类别进行保存,之前的一篇已经提到如何保存了,最终代码:

[plain] view plaincopy

1.  train_data=load('sample_feature.txt');  

2.  train_label=load('train_label.txt');  

3.  test_data=load('features.txt');  

4.  k=knnclassify(test_data,train_data,train_label,3,'cosine','random');  

5.  dlmwrite('a.txt',b,'delimiter',' ','newline','pc');    


0

阅读 收藏 喜欢 打印举报/Report
  

新浪BLOG意见反馈留言板 欢迎批评指正

新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 产品答疑

新浪公司 版权所有