标签:
sql
server
随机抽样
|
分类:
数据分析
|
最近在做对于用户行为的数据分析,由于用户数据记录数据量很大,需要取50000个用户记录作为样本,为了数据分析出来的结果与整体数据偏差较小,我们需要使用抽样的方法从总量用户中随机抽取50000个样本记录。
现在介绍两种抽样方法:
1.使用Sql
Server中随机函数Rand([Seed])返回0-1之间float随机值,seed为int型种子值可以省略。
这个函数使用的时候如果省略seed参数rand()则每次都返回一个随机数,如果使用带有seed参数的rand(seed)则每次都返回相同的随机数,只有seed的值发生变化才能改变随机数的值
。
例如:
select
rand() from test,假如test中有100条数据,则会生成100个随机数.
select
rand(1) from test,则生成100个相同的随机数。
所以在程序中最好改变种子seed的值:
&n