KingbaseES CTID 与 Oracle ROWID

熟悉oracle的人都知道ROWID可用于快速的数据访问，KingbaseES 由于自身MVCC机制的原因，ctid 作为 oracle rowid 的替代方案不合适，但currtid 还是基本可以满足rowid 的功能的。本文向大家介绍如何通过currtid 实现rowid 的功能。

一、Oracle ROWID

Oracle ROWID 记录了tuple的物理存储位置，通过ROWID可以非常快速地访问tuple。因此，在极致性能的应用设计里，经常会使用到ROWID。典型的使用场景如下：

declare

cursor cur01 as select rowid from tab1;

begin

......

update tab1 where rowid='xxx';

end;

二、KingbaseES CTID

我们知道，对于Oracle ，一条tuple的ROWID正常是不会变化的（引发row movement的操作除外，如：跨分区迁移update，表shrink），因此，应用设计上可以方便的使用rowid，加快访问速度。而对于KingbaseES，也有类似Oracle ROWID的ctid，格式 “(blockid,slotid)”，同样记录了tuple存储的物理位置，通过ctid也能快速的访问数据。但由于KingbaseES的多版本（MVCC）读实现机制的差异，ctid会随update操作变化，这种情况下，使用ctid有可能因为tuple被update，导致访问不到数据。为了让大家对于ctid有直观认识，举例如下：

A用户	B用户
select ctid from t1 where id=1;返回 (0,1)
	select ctid from t1 where id=1;返回 (0,1)
update t1 set name='aa' where ctid='(0,1)';
select ctid from t1 where id=1;返回 (0,2)
	select * from t1 where ctid='(0,1)'; 无返回

可以看到，在有并发的情况下，用ctid访问是不可靠的。例子中，B用户通过ctid 访问时，就会发现找不到数据。

三、currtid 函数

KingbaseES的update操作实际delete and insert 的结合体。对于update操作完成后，在vacuum 之前，原始tuple是包含指向新tuple的ctid。函数 currtid 可以通过旧ctid 取得updated tuple的最新ctid。具体见以下例子：

test=# insert into t1 values(1,'a');

INSERT 0 1

test=# select ctid from t1 where id=1;

 ctid

-------

 (0,1)

(1 row)

test=# update t1 set name='aa' where id=1;

UPDATE 1

test=# select ctid from t1 where id=1;

 ctid

-------

 (0,2)

(1 row)

test=# select * from t1 where ctid='(0,1)';

 id | name

----+------

(0 rows)

test=# select currtid('t1'::regclass,'(0,1)');

 currtid

---------

 (0,2)

(1 row)

test=# select * from t1 where ctid=currtid('t1'::regclass,'(0,1)');

 id |   name

----+-----------

  1 | aa

(1 row)

可以看到，通过将初始的 ctid 传递给 currtid 函数，可以取得最新的 ctid 。

Note：currtid 有效的前提是update 后，多版本信息没有被清理掉，也就是没有进行vacuum操作。

四、性能问题

从以上例子可以看到，使用currtid 可以避免期间数据被修改的问题。但实际上，这里有个性能的问题。请看实际例子：

test=# explain select * from t1 where ctid=currtid('t1'::regclass,'(0,1)');

                       QUERY PLAN

--------------------------------------------------------

 Seq Scan on t1  (cost=0.00..26.95 rows=1 width=44)

   Filter: (ctid = currtid('16387'::oid, '(0,1)'::tid))

(2 rows)

test=# explain select * from t1 where ctid='(0,2)';

                    QUERY PLAN

---------------------------------------------------

 Tid Scan on t1  (cost=0.00..4.01 rows=1 width=44)

   TID Cond: (ctid = '(0,2)'::tid)

(2 rows)

可以看到，对于 ctid=currtid('t1'::regclass,'(0,1)') ，实际上采取的是 seqscan 。问题是currtid('t1'::regclass,'(0,1)') 是在等式右边的，不涉及 ctid 的转换，为什么无法使用 Tid Scan ?

我们来看currtid 函数属性：

test=# select proname,provolatile from pg_proc where proname='currtid';

 proname | provolatile

---------+-------------

 currtid | v

函数是 volatile 。volatile 函数导致无法使用TID scan

五、修改函数属性为immutable

把函数的属性改成immutable 情况下的执行计划：

test=# update pg_proc set provolatile='i' where proname='currtid';

UPDATE 1

test=# explain select * from t1 where ctid=currtid('t1'::regclass,'(0,1)');

                    QUERY PLAN

---------------------------------------------------

 Tid Scan on t1  (cost=0.00..4.01 rows=1 width=44)

   TID Cond: (ctid = '(0,2)'::tid)

(2 rows)

可以看到，修改函数的属性为 immutable后，可以走 Tid Scan了。

附：volatile 函数与 immutable函数差异

就本例而言，对于SQL：select * from t1 where ctid=currtid('t1'::regclass,'(0,1)', '(0,1)' )。

如果currtid是volatile 类型的函数，优化器采取 Seq Scan，针对每个tuple，都会执行一次函数调用。函数调用是在访问tuple之后，因此，能够保证数据的绝对准确性。

如果currtid是immutable 类型的函数，针对整个查询，只需调用一次函数。执行SQL时，先执行函数，再将结果以参数形式传给SQL。这里的风险点是，如果从函数调用开始到SQL执行完成之前，如果tuple被update，可能导致返回结果的不准确。幸运的是，无论函数调用，还是TID scan，都是非常快的（微秒级别），基本可以避免影响。

当然，如果一定要考虑结果的绝对准确，实际不管使用ROWID，还是 ctid ，都不是绝对安全。因为，即使oracle ，ROWID 也有可能发生变动。

NOTE：以上的例子同时在 PostgreSQL12 和 KingbaseES V8R6进行过验证。

从计算 currtid('t1'::regclass,'(0,1)') 的结果，传给ctid，再执行SQL。在这期间（从即使currtid，到访问到实际的tuple，时间不确定，可能很长，也可能很短，看执行计划），如果该tuple被修改，则可能返回错误的结果（无记录）。如果采用全表，针对每个tuple，currtid('t1'::regclass,'(0,1)') 都要计算一次（volatile，即使参数值相同，不同时间返回的值是不同的），函数 currtid('t1'::regclass,'(0,1)') 的结果运算推迟到tuple访问的同时进行，避免了错误的结果。