|
|
这是beidu的笔试题,网上有的,我没有泄题的嫌疑:P
题目如下:
寻找热门查询:
搜索引擎会通过日志文件把用户每次检索使用的所有检索串都记录下来,每个查询串
的长度为1-255字节。假设目前有一千万个记录,
这些查询串的重复度比较高,虽然总数是1千万,但如果除去重复后,不超过3百万个
。一个查询串的重复度越高,说明查询它的用户越多,
也就是越热门。请你统计最热门的10个查询串,要求使用的内存不能超过1G。
(1)请描述你解决这个问题的思路;
(2)请给出主要的处理流程,算法,以及算法的复杂度。
没有大型项目的经验,遇到这种海量数据和涉及多个文件一起查询的问题我都不知道怎么下手。
请问有谁能想出比较好的可行的方法思路??欢迎大家来讨论讨论:) |
|