Skip to content

64.6。索引成本估算函数#

amcostestimate函数提供的信息描述了可能的索引扫描,包括已确定可与索引一起使用的 WHERE 和 ORDER BY 子句列表。它必须返回访问索引的成本估算和 WHERE 子句的选择性(即在索引扫描期间将检索的父表行分数)。对于简单的情况,成本估算器几乎所有工作都可以通过调用优化器中的标准例程来完成;拥有amcostestimate函数的目的是允许索引访问方法提供特定于索引类型的知识,以防可以改进标准估算。

每个amcostestimate函数必须具有签名

void
amcostestimate (PlannerInfo *root,
                IndexPath *path,
                double loop_count,
                Cost *indexStartupCost,
                Cost *indexTotalCost,
                Selectivity *indexSelectivity,
                double *indexCorrelation,
                double *indexPages);

前三个参数是输入

root

计划程序有关正在处理的查询的信息。

path

正在考虑的索引访问路径。除了成本和选择性值之外,所有字段都有效。

loop_count

应计入成本估算的索引扫描重复次数。在考虑在嵌套循环连接的内部使用参数化扫描时,此值通常会大于 1。请注意,成本估算仍应仅针对一次扫描;较大的 loop_count 意味着允许在多次扫描中考虑一些缓存效果是合适的。

最后五个参数是按引用传递的输出

*indexStartupCost

设置为索引启动处理成本

*indexTotalCost

设置为索引处理的总成本

*indexSelectivity

设置为索引选择性

*indexCorrelation

设置为索引扫描顺序和基础表顺序之间的相关系数

*indexPages

设置为索引叶页数

请注意,成本估算函数必须用 C 语言编写,而不是 SQL 或任何可用的过程语言,因为它们必须访问计划程序/优化器的内部数据结构。

应使用src/backend/optimizer/path/costsize.c中使用的参数来计算索引访问成本:顺序磁盘块获取的成本为seq_page_cost,非顺序获取的成本为random_page_cost,处理一个索引行的成本通常应取为cpu_index_tuple_cost。此外,还应为索引处理期间调用的任何比较运算符(尤其是 indexquals 本身的求值)收取适当倍数的cpu_operator_cost

访问成本应包括与扫描索引本身相关的所有磁盘和 CPU 成本,但包括检索或处理索引标识的父表行的成本。

“启动成本”是总扫描成本的一部分,必须在开始获取第一行之前花费。对于大多数索引,这可以视为零,但启动成本高的索引类型可能希望将其设置为非零。

应将*indexSelectivity*设置为在索引扫描期间将检索到的父表行的估计分数。对于有损查询,这通常会高于实际通过给定 qual 条件的行分数。

应将*indexCorrelation*设置为索引顺序和表顺序之间的相关性(范围在 -1.0 到 1.0 之间)。这用于调整从父表获取行的成本估算。

应将*indexPages*设置为叶页数。这用于估算并行索引扫描的工作程序数。

当*loop_count*大于 1 时,返回的数字应为对索引的任何一次扫描的预期平均值。

成本估算

典型的成本估算器将按如下方式进行

  1. 根据给定的 qual 条件估算和返回将访问的父表行的分数。在没有任何索引类型特定知识的情况下,使用标准优化器函数 clauselist_selectivity()

    *indexSelectivity = clauselist_selectivity(root, path->indexquals,
                                               path->indexinfo->rel->relid,
                                               JOIN_INNER, NULL);
    
  2. 估算扫描期间将访问的索引行数。对于许多索引类型,这与 indexSelectivity 乘以索引中的行数相同,但可能更多。(请注意,可以从 path->indexinfo 结构中获取索引在页面和行中的大小。)

  3. 估算扫描期间将检索的索引页面数。这可能只是 indexSelectivity 乘以索引在页面中的大小。

  4. 计算索引访问成本。通用估算器可能会这样做

    /*
     * Our generic assumption is that the index pages will be read
     * sequentially, so they cost seq_page_cost each, not random_page_cost.
     * Also, we charge for evaluation of the indexquals at each index row.
     * All the costs are assumed to be paid incrementally during the scan.
     */
    cost_qual_eval(&index_qual_cost, path->indexquals, root);
    *indexStartupCost = index_qual_cost.startup;
    *indexTotalCost = seq_page_cost * numIndexPages +
        (cpu_index_tuple_cost + index_qual_cost.per_tuple) * numIndexTuples;
    

    但是,上述方法没有考虑在重复索引扫描中对索引读取进行摊销。

  5. 估算索引相关性。对于单个字段上的简单有序索引,这可以从 pg_statistic 中检索。如果不知道相关性,则保守估计为零(无相关性)。

可以在src/backend/utils/adt/selfuncs.c中找到成本估算器函数的示例。