ETL 测试——数据完整性

ETL 测试——数据完整性


检查数据完整性是为了验证加载后目标系统中的数据是否符合预期。

可以为此执行的常见测试如下 –

  • 检查聚合函数(sum、max、min、count),

  • 检查和验证没有转换或简单转换的列的源和目标之间的计数和实际数据。

计数验证

比较源表和目标表中的记录数计数。可以通过编写以下查询来完成 –

SELECT count (1) FROM employee; 
SELECT count (1) FROM emp_dim; 

数据配置文件验证

它涉及检查源表和目标表(事实或维度)中的聚合函数,例如计数、总和和最大值。

列数据配置文件验证

它涉及比较不同的值和每个不同值的行数。

SELECT city, count(*) FROM employee GROUP BY city; 
SELECT city_id, count(*) FROM emp_dim GROUP BY city_id;

重复数据验证

它涉及验证列或列组合中的主键和唯一键,这些列或列组合根据业务需求应该是唯一的。您可以使用以下查询来执行重复数据验证 –

SELECT first_name, last_name, date_of_joining, count (1) FROM employee
GROUP BY first_name, last_name HAVING count(1)>1;

觉得文章有用?

点个广告表达一下你的爱意吧 !😁