我有一些大约17M行的表,都有一个日期列,我希望能够经常用于搜索.我正在考虑要么只是在列上抛出一个索引,看看事情如何进行,或者按日期将项目排序为一次性操作,然后将所有内容插入到新表中,以便主键在日期上升时上升.
由于这些都非常耗时,我认为首先要求输入是值得的.
最终目标是我将SQL查询加载到pandas中进行一些分析,如果这与此相关的话.
解决方法
当您要在表中搜索给定日期时,日期列上的索引是有意义的,例如:
select * from test where the_date = '2016-01-01'; -- or select * from test where the_date between '2016-01-01' and '2016-01-31'; -- etc
在这些查询中,无论主键和日期列的排序顺序是否相同.因此,将数据重写到新表将是无用的.只需创建一个索引.
但是,如果您要仅在ORDER BY中使用索引:
select * from test order by the_date;
那么主键整数索引可能比日期列上的索引快得多(2-4倍).