夸父逐梦_新浪博客

(2014-09-05 09:57)

解决方案：
drop table if exists heyf_t10;
create table heyf_t10 (empid int ,deptid int ,salary decimal(10,2) );
insert into heyf_t10 values
(1,10,5500.00),
(2,10,4500.00),
(3,20,1900.00),
(4,20,4800.00),
(5,40,6500.00),
(6,40,14500.00),
(7,40,44500.00),
(8,50,6500.00),
(9,50,7500.00);
2. 确定需求: 根据部门来分组,显示各员工在部门里按薪水排名名次.
显示结果预期如下:
+-------+--------+----------+------+
| empid | deptid | salary | rank |
+-------+--------+----------+------+
| 1 | 10 | 5500.00 | 1 |
| 2 | 10 | 4500.00 | 2 |
| 4 | 20 | 4800.00 | 1 |
| 3 | 20 | 1900.00 | 2 |
| 7 | 40 | 44500.00 | 1 |
| 6 | 40 | 14500.00 | 2 |
| 5 | 40 | 6500.00 | 3 |
| 9 | 50 | 7

阅读收藏

查看全文>>

MapReduce-统计单词出现频率实例

(2014-03-17 09:31)

转载▼

标签：

it

分类：网络爬虫

MapReduce的应用案例

如果想统计下过去10年计算机论文出现最多的几个单词，看看大家都在研究些什么，那收集好论文后，该怎么办呢？

方法一：我可以写一个小程序，把所有论文按顺序遍历一遍，统计每一个遇到的单词的出现次数，最后就可以知道哪几个单词最热门了。

这种方法在数据集比较小时，是非常有效的，而且实现最简单，用来解决这个问题很合适。

方法二：写一个多线程程序，并发遍历论文。

这个问题理论上是可以高度并发的，因为统计一个文件时不会影响统计另一个文件。当我们的机器是多核或者多处理器，方法二肯定比方法一高效。但是写一个多线程程序要比方法一困难多了，我们必须自己同步共享数据，比如要防止两个线程重复统计文件。

方法三：把作业交给多个计算机去完成。

我们可以使用方法一的程序，部署到N台机器上去，然后把论文

阅读收藏

查看全文>>

left join 和 left outer join 的区别

(2012-08-21 17:28)

转载▼

标签：

杂谈

通俗的讲：
http://images.csdn.net/syntaxhighlighting/OutliningIndicators/None.gif  A   left   join   B   的连接的记录数与A表的记录数同
http://images.csdn.net/syntaxhighlighting/OutliningIndicators/None.gif  A   right   join   B   的连接的记录数与B表的记录数同

阅读收藏

查看全文>>