加载中…
博文
标签:

sql

server

随机抽样

分类: 数据分析
    最近在做对于用户行为的数据分析,由于用户数据记录数据量很大,需要取50000个用户记录作为样本,为了数据分析出来的结果与整体数据偏差较小,我们需要使用抽样的方法从总量用户中随机抽取50000个样本记录。
    现在介绍两种抽样方法:
    1.使用Sql Server中随机函数Rand([Seed])返回0-1之间float随机值,seed为int型种子值可以省略。
      这个函数使用的时候如果省略seed参数rand()则每次都返回一个随机数,如果使用带有seed参数的rand(seed)则每次都返回相同的随机数,只有seed的值发生变化才能改变随机数的值 。
      例如:
          select rand() from test,假如test中有100条数据,则会生成100个随机数.
          select rand(1) from test,则生成100个相同的随机数。
          所以在程序中最好改变种子seed的值:
       &n
  

新浪BLOG意见反馈留言板 欢迎批评指正

新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 产品答疑

新浪公司 版权所有