加载中…
个人资料
  • 博客等级:
  • 博客积分:
  • 博客访问:
  • 关注人气:
  • 获赠金笔:0支
  • 赠出金笔:0支
  • 荣誉徽章:
正文 字体大小:

Oracle中distinct用法

(2016-04-01 22:43:40)
标签:

distinct的用法

distinct优化

过滤重复数据

分类: 【Oracle】

Oracle中distinct关键字的作用以及优化策略:

distinct这个关键字来过滤掉多余的重复记录只保留一条,但往往只用 它来返回不重复记录的条数,而不是用它来返回不重记录的所有值。其原因是distinct只有用二重循环查询来解决,而这样对于一个数据量非常大的站来说,无疑是会直接影响到效率的。

distinct 会对返回的结果集进行排序 所以会大大影响查询效率,大数据集时比较明显 所以,最好和order by 结合使用,可以提高效率 

相信很多人在Oracle中使用distinct关键字的时候,对于查出并过滤全部一行都一样的数据轻而易举,但是如果查出并过滤掉只有一两个字段相同的,那么就得费一番力气了,下面我们看一个例子:

select  distinct  a,b,c from t;表t里列的顺序为c,a,b ,则distinct 排序时是按前者还是后者来呢?

例子如下:

table表

字段1     字段2 
   id        name 
           
           
           
           
            b

表结构大概这样,这只是一个简单的例子,实际情况会复杂得多。

比如我想用一条语句查询得到name不重复的所有数据那就必须使用distinct去掉多余的重复记录。

select distinct name from table 
得到的结果是:

———- 

name 
  
  
   c

好像达到效果了,可是,我想要得到的是id值呢?改一下查询语句吧:

select distinct name, id from table

结果会是:

———- 

id name 
   1 a 
   2 b 
   3 c 
   4 c 
   5 b

distinct怎么没起作用?作用是起了的,不过他同时作用了两个字段,也就是必须得id与name都相同的才会被排除。。。。。。。

我们再改改查询语句:

select id, distinct name from table

很遗憾,除了错误信息你什么也得不到,distinct必须放在开头。难到不能把distinct放到where条件里?能,但是照样会报错。

————————————————————————————————————

下面方法可行:

select *, count(distinct name) from table group by name

结果:

   id name count(distinct name) 
   1     a              
   2     b              
   3     c               1

最后一项是多余的,不用管就行了,目的达到....

group by 必须放在 order by 和 limit之前,不然会报错

---------------------------------------------------------更好的方法--------------------------------------------------------

第一种(效率比较低)——结合rowId:

在oracle中,有个隐藏了自动rowid,里面给每条记录一个唯一的rowid,我们如果想保留最新的一条记录, 
我们就可以利用这个字段,保留重复数据中rowid最大的一条记录就可以了。 
下面是查询重复数据的一个例子: 
select a.rowid,a.* from 表名 a 
where a.rowid != 

select max(b.rowid) from 表名 b 
where a.字段1 = b.字段1 and 
a.字段2 = b.字段2 

上面括号中的语句是查询出重复数据中rowid最大的一条记录。 
而外面就是查询出除了rowid最大之外的其他重复的数据了。 
由此,我们要删除重复数据,只保留最新的一条数据,就可以这样写了: 
delete from 表名 a 
where a.rowid != 

select max(b.rowid) from 表名 b 
where a.字段1 = b.字段1 and 
a.字段2 = b.字段2 
)

第二种(效率比较高)——结合临时表以及rowId:

上面语句的执行效率是很低的,可以考虑建立临时表,讲需要判断重复的字段、rowid插入临时表中,然后删除的时候在进行比较。 

create table 临时表 as 
select a.字段1,a.字段2,MAX(a.ROWID) dataid from 正式表 a GROUP BY a.字段1,a.字段2; 
delete from 表名 a 
where a.rowid != 

select b.dataid from 临时表 b 
where a.字段1 = b.字段1 and 
a.字段2 = b.字段2 
); 
commit;


0

阅读 收藏 喜欢 打印举报/Report
  

新浪BLOG意见反馈留言板 欢迎批评指正

新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 产品答疑

新浪公司 版权所有