大数据翻页的难点和技巧

2014-12-17 10:42| 发布者: joejoe0332| 查看: 1630| 评论: 0|原作者: timyang.net|来自: timyang.net

摘要: 今天要讨论一个传统的问题，问题本身比较简单，就是针对大数据，如何优化方案做到性能与成本的平衡。我们经常会遇到一种Key-list类型数据，如一个用户的好友关系 {“uid”:{1,2,3,4,5}}，表示uid包含有5个好友；一 ...

　　今天要讨论一个传统的问题，问题本身比较简单，就是针对大数据，如何优化方案做到性能与成本的平衡。我们经常会遇到一种Key-list类型数据，如一个用户的好友关系 {“uid”:{1,2,3,4,5}}，表示uid包含有5个好友；一条微博下面的评论id列表{“weibo_id”: {comment_id1, comment_id2……}}，一个用户发表的微博id列表等。

大数据

　　在list长度较少时候，我们可以直接的使用数据库的翻页功能，如

1	`SELECT` `*` `FROM` `LIST_TABLE LIMIT offset, row_count;`

　　根据经验，在大部分场景下，单个业务的list数据长度99%在1000条以下，在数据规模较小时候，上面的方法非常适合。但剩下的1%的数据可能多达100万条，在数据规模较大的时候，当访问offset较大的数据，上述方法非常低效（可参看Why does MYSQL higher LIMIT offset slow the query down?），但在实现方案的时候不能忽视这些超大数据集的问题，因此要实现一个适合各种变长list的翻页方案，考虑到数据的长尾问题，并没有简单高效的方案。这也体现了常说的80%+的时间在优化20%-的功能。

　　List数据访问模型常见的有两种方式