• 两道百度面试题目

    日期:2009-10-29 | 分类:

    1.象搜索的输入信息是一个字符串,统计300万输入信息中的最热门的前十条,我们每次输入的一个字符串为不超过255byte,内存使用只有1G,
    请描述思想,写出算发(c语言),空间和时间复杂度,
    2.国内的一些帖吧,如baidu,有几十万个主题,假设每一个主题都有上亿的跟帖子,怎么样设计这个系统速度最好,请描述思想,写出算发(c语言),空间和时间复杂度
    第一题:全部存入内存也是可以的300w*255<1G,当然进行字符串hash,然后进行统计
    第二题:思想...
  • 海量数据处理题目汇总之二-求中位数

    日期:2009-10-29 | 分类:

    题目描述:若有很大一组数据,数据的个数是N(每个数占4个字节),内存大小为M个字节,其中M<4*N,使得不能在现有内存情况下通过直接排序找到这N个数的中位数。
    转一道网上类似题目的解答:
    题目:在一个文件中有 10G 个整数,乱序排列,要求找出中位数。内存限制为 2G。只写出思路即可(内存限制为 2G的意思就是,可以使用2G的空间来运行程序,而不考虑这台机器上的其他软件的占用内存)。

    关 于中位数:数据排序后,位置在最中间的数值。即将数据分成两部分,...
  • 海量数据处理题目汇总之一

    日期:2009-10-29 | 分类:

    1、有1亿个浮点数,请找出其中对大的10000个。提示:假设每个浮点数占4个字节,1亿个浮点数就要站到相当大的空间,因此不能一次将全部读入内存进行排序。

    2、有一篇英文文章(也就是说每个单词之间由空格分隔),请找出“csdn”着个单词出现的次数,要求效率最高,并写出算法的时间级。

    3.假设有1kw个身份证号,以及他们对应的数据。身份证号可能重复,要求找出出现次数最多的身份证号。

    4. 百度每天都会接受数亿的查...