Sign in
Sign up
Explore
Enterprise
Education
Search
Help
Terms of use
About Us
Explore
Enterprise
Education
Gitee Premium
Gitee AI
AI teammates
Sign in
Sign up
Fetch the repository succeeded.
Donate
Please sign in before you donate.
Cancel
Sign in
Scan WeChat QR to Pay
Cancel
Complete
Prompt
Switch to Alipay.
OK
Cancel
Watch
Unwatch
Watching
Releases Only
Ignoring
16
Star
7
Fork
31
openGauss
/
openGauss-tools-datachecker-performance
Code
Issues
6
Pull Requests
1
Wiki
Insights
Pipelines
Service
JavaDoc
PHPDoc
Quality Analysis
Jenkins for Gitee
Tencent CloudBase
Tencent Cloud Serverless
悬镜安全
Aliyun SAE
Codeblitz
SBOM
Don’t show this again
Update failed. Please try again later!
Remove this flag
Content Risk Flag
This task is identified by
as the content contains sensitive information such as code security bugs, privacy leaks, etc., so it is only accessible to contributors of this repository.
增量数据校验效率低下,数据校验不准确,统计信息混乱
Backlog
#IC3KN2
Task
lihl-m
Opened this issue
2025-04-24 11:09
<!-- #请认真填写以下信息,否则可能由于无法定位,导致issue无法解决而被取消 --> 【标题描述】: 10w条增量数据的校验,耗时1小时17分钟,每批次校验结果统计信息不准确,summary只能统计<=200条差异,repair_xxx文件一直在重复内容 【测试类型:SQL功能/存储功能/接口功能/工具功能/性能/并发/压力长稳/故障注入/安全/资料/编码规范】 【测试版本】 6.0.0和7.0.0rc1 【操作系统和硬件信息】(查询命令: cat /etc/system-release, uname -a): EulerOS release 2.0 (SP5) 【测试环境】(单机/1主x备x级联备): 数据库,GaussDB 1主2备 【被测功能】: 主备增量校验功能, 结合debezium-connector-opengauss和confluent-community-5.5.1-2.12 【测试类型】: 【数据库版本】(查询命令: gaussdb -V): GaussDB Kernel 506.0.0 【预置条件】: 【操作步骤】(请填写详细的操作步骤): 参考:https://gitee.com/opengauss/openGauss-tools-datachecker-performance/blob/6.0.0/%E6%A0%A1%E9%AA%8C%E5%B7%A5%E5%85%B7%E4%BD%BF%E7%94%A8%E6%8C%87%E5%AF%BC.md#6%E5%A2%9E%E9%87%8F%E6%A0%A1%E9%AA%8C 前置准备: 安装好数据库环境, 创建测试表结构,表必须设置主键,准备好待插入的10w条数(可使用sysbench导入数据后,使用命令gs_dump -h localhost -p port database -W password -a -t schema.tablename --inserts -f test100k_sbtest1.sql 将数据导出到文件,之后清空表数据), 1. 启动zookeeper 2. 启动kafka 3. 启动--注册schema 4、启动debezium-connector-opengauss 5、启动source端抽取服务、启动sink端抽取服务、启动check服务 6、导入数据,在数据库节点执行 gsql -d postgres -U user -W password -p port -f test100k_sbtest1.sql 7、在gs_datacheck-6.0.0目录下,进入./check_result/, 查看result和result_bak目录,观察校验结果 【预期输出】: 每批次校验结果中,summary 中的记录数累计值和10w数据量一致,差异结果failed.log中的数量和repair_xxx也保持一致 【实际输出】: 累计校验生成的结果文件中,summary 中的记录数累计值和10w数据量不一致, 差异结果failed.log中的数量和repair_xxx不一致,并且repair_xxx中的内容一直重复显示,result_bak中的目录一直在滚动删除,校验结果文件来不及查看就被删了,无法友好的统计本次10w条增量整体的校验结果。 【原因分析】: 1. 这个问题的根因 2. 问题推断过程 3. 还有哪些原因可能造成类似现象 4. 该问题是否有临时规避措施 5. 问题解决方案 6. 预计修复问题时间 【日志信息】(请附上日志文件、截图、coredump信息): 第一批次校验结果:  最后一批次校验结果: 【测试代码】:
<!-- #请认真填写以下信息,否则可能由于无法定位,导致issue无法解决而被取消 --> 【标题描述】: 10w条增量数据的校验,耗时1小时17分钟,每批次校验结果统计信息不准确,summary只能统计<=200条差异,repair_xxx文件一直在重复内容 【测试类型:SQL功能/存储功能/接口功能/工具功能/性能/并发/压力长稳/故障注入/安全/资料/编码规范】 【测试版本】 6.0.0和7.0.0rc1 【操作系统和硬件信息】(查询命令: cat /etc/system-release, uname -a): EulerOS release 2.0 (SP5) 【测试环境】(单机/1主x备x级联备): 数据库,GaussDB 1主2备 【被测功能】: 主备增量校验功能, 结合debezium-connector-opengauss和confluent-community-5.5.1-2.12 【测试类型】: 【数据库版本】(查询命令: gaussdb -V): GaussDB Kernel 506.0.0 【预置条件】: 【操作步骤】(请填写详细的操作步骤): 参考:https://gitee.com/opengauss/openGauss-tools-datachecker-performance/blob/6.0.0/%E6%A0%A1%E9%AA%8C%E5%B7%A5%E5%85%B7%E4%BD%BF%E7%94%A8%E6%8C%87%E5%AF%BC.md#6%E5%A2%9E%E9%87%8F%E6%A0%A1%E9%AA%8C 前置准备: 安装好数据库环境, 创建测试表结构,表必须设置主键,准备好待插入的10w条数(可使用sysbench导入数据后,使用命令gs_dump -h localhost -p port database -W password -a -t schema.tablename --inserts -f test100k_sbtest1.sql 将数据导出到文件,之后清空表数据), 1. 启动zookeeper 2. 启动kafka 3. 启动--注册schema 4、启动debezium-connector-opengauss 5、启动source端抽取服务、启动sink端抽取服务、启动check服务 6、导入数据,在数据库节点执行 gsql -d postgres -U user -W password -p port -f test100k_sbtest1.sql 7、在gs_datacheck-6.0.0目录下,进入./check_result/, 查看result和result_bak目录,观察校验结果 【预期输出】: 每批次校验结果中,summary 中的记录数累计值和10w数据量一致,差异结果failed.log中的数量和repair_xxx也保持一致 【实际输出】: 累计校验生成的结果文件中,summary 中的记录数累计值和10w数据量不一致, 差异结果failed.log中的数量和repair_xxx不一致,并且repair_xxx中的内容一直重复显示,result_bak中的目录一直在滚动删除,校验结果文件来不及查看就被删了,无法友好的统计本次10w条增量整体的校验结果。 【原因分析】: 1. 这个问题的根因 2. 问题推断过程 3. 还有哪些原因可能造成类似现象 4. 该问题是否有临时规避措施 5. 问题解决方案 6. 预计修复问题时间 【日志信息】(请附上日志文件、截图、coredump信息): 第一批次校验结果:  最后一批次校验结果: 【测试代码】:
Comments (
2
)
Sign in
to comment
Status
Backlog
已答复
Backlog
Doing
Done
Declined
Assignees
Not set
仰望星空
mystarry-sky
Assignee
Collaborator
+Assign
+Mention
申正
shenzheng4
Assignee
Collaborator
+Assign
+Mention
Labels
sig/tools
Not set
Projects
Unprojected
Unprojected
Milestones
No related milestones
No related milestones
Pull Requests
None yet
None yet
Successfully merging a pull request will close this issue.
Branches
No related branch
Branches (6)
Tags (5)
master
7.0.0-RC1
6.0.0
5.1.0
5.0.0
3.1.0
v6.0.0
v6.0.0-RC1
v5.1.0
v5.0.0
v3.1.0
Planed to start   -   Planed to end
-
Top level
Not Top
Top Level: High
Top Level: Medium
Top Level: Low
Priority
Not specified
Serious
Main
Secondary
Unimportant
Duration
(hours)
参与者(2)
1
https://gitee.com/opengauss/openGauss-tools-datachecker-performance.git
git@gitee.com:opengauss/openGauss-tools-datachecker-performance.git
opengauss
openGauss-tools-datachecker-performance
openGauss-tools-datachecker-performance
Going to Help Center
Search
Git 命令在线学习
如何在 Gitee 导入 GitHub 仓库
Git 仓库基础操作
企业版和社区版功能对比
SSH 公钥设置
如何处理代码冲突
仓库体积过大,如何减小?
如何找回被删除的仓库数据
Gitee 产品配额说明
GitHub仓库快速导入Gitee及同步更新
什么是 Release(发行版)
将 PHP 项目自动发布到 packagist.org
Repository Report
Back to the top
Login prompt
This operation requires login to the code cloud account. Please log in before operating.
Go to login
No account. Register