-
两道百度面试题目
日期:2009-10-29 | 分类:
1.象搜索的输入信息是一个字符串,统计300万输入信息中的最热门的前十条,我们每次输入的一个字符串为不超过255byte,内存使用只有1G,
请描述思想,写出算发(c语言),空间和时间复杂度,
2.国内的一些帖吧,如baidu,有几十万个主题,假设每一个主题都有上亿的跟帖子,怎么样设计这个系统速度最好,请描述思想,写出算发(c语言),空间和时间复杂度
第一题:全部存入内存也是可以的300w*255<1G,当然进行字符串hash,然后进行统计
第二题:思想... -
海量数据处理题目汇总之二-求中位数
日期:2009-10-29 | 分类:
题目描述:若有很大一组数据,数据的个数是N(每个数占4个字节),内存大小为M个字节,其中M<4*N,使得不能在现有内存情况下通过直接排序找到这N个数的中位数。
转一道网上类似题目的解答:
题目:在一个文件中有 10G 个整数,乱序排列,要求找出中位数。内存限制为 2G。只写出思路即可(内存限制为 2G的意思就是,可以使用2G的空间来运行程序,而不考虑这台机器上的其他软件的占用内存)。
关 于中位数:数据排序后,位置在最中间的数值。即将数据分成两部分,... -
海量数据处理题目汇总之一
日期:2009-10-29 | 分类:
1、有1亿个浮点数,请找出其中对大的10000个。提示:假设每个浮点数占4个字节,1亿个浮点数就要站到相当大的空间,因此不能一次将全部读入内存进行排序。
2、有一篇英文文章(也就是说每个单词之间由空格分隔),请找出“csdn”着个单词出现的次数,要求效率最高,并写出算法的时间级。
3.假设有1kw个身份证号,以及他们对应的数据。身份证号可能重复,要求找出出现次数最多的身份证号。
4. 百度每天都会接受数亿的查...
共1页 1







