加载中…
  
博文
解决方案:
drop table if exists heyf_t10; 
create table heyf_t10 (empid int ,deptid int ,salary decimal(10,2) );
insert into heyf_t10 values  
(1,10,5500.00), 
(2,10,4500.00), 
(3,20,1900.00), 
(4,20,4800.00), 
(5,40,6500.00), 
(6,40,14500.00), 
(7,40,44500.00), 
(8,50,6500.00), 
(9,50,7500.00); 
2. 确定需求: 根据部门来分组,显示各员工在部门里按薪水排名名次. 
显示结果预期如下: 
+-------+--------+----------+------+ 
| empid | deptid | salary | rank | 
+-------+--------+----------+------+ 
| 1 | 10 | 5500.00 | 1 |  
| 2 | 10 | 4500.00 | 2 |  
| 4 | 20 | 4800.00 | 1 |  
| 3 | 20 | 1900.00 | 2 |  
| 7 | 40 | 44500.00 | 1 |  
| 6 | 40 | 14500.00 | 2 |  
| 5 | 40 | 6500.00 | 3 |  
| 9 | 50 | 7
标签:

it

分类: 网络爬虫
MapReduce的应用案例
如果想统计下过去10年计算机论文出现最多的几个单词,看看大家都在研究些什么,那收集好论文后,该怎么办呢?
方法一:我可以写一个小程序,把所有论文按顺序遍历一遍,统计每一个遇到的单词的出现次数,最后就可以知道哪几个单词最热门了。
这种方法在数据集比较小时,是非常有效的,而且实现最简单,用来解决这个问题很合适。
方法二:写一个多线程程序,并发遍历论文。
这个问题理论上是可以高度并发的,因为统计一个文件时不会影响统计另一个文件。当我们的机器是多核或者多处理器,方法二肯定比方法一高效。但是写一个多线程程序要比方法一困难多了,我们必须自己同步共享数据,比如要防止两个线程重复统计文件。
方法三:把作业交给多个计算机去完成。
我们可以使用方法一的程序,部署到N台机器上去,然后把论文
标签:

杂谈

通俗的讲:  
http://images.csdn.net/syntaxhighlighting/OutliningIndicators/None.gif    
left   join     的连接的记录数与A表的记录数同  
http://images.csdn.net/syntaxhighlighting/OutliningIndicators/None.gif    
right   join     的连接的记录数与B表的记录数同    
  

新浪BLOG意见反馈留言板 欢迎批评指正

新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 产品答疑

新浪公司 版权所有