Hive如何比较两张表所有字段的一致性
itomcoil 2025-07-27 21:15 2 浏览
前言
随着MySQL技术发展,通过垂直或水平拆分能够支持相当大的数据量,目前很多公司把SQLServer、Oracledb或其他数据库迁移到MySQL上,迁移数据量很大(数据库已经水平拆分成很多Shard),如何比较所有数据的一致性呢?
问题剖析
- 数据库迁移步骤:双写DB -> 数据一致性保证 -> 旧DB读流量逐步迁移到新DB -> 单写新DB -> 下线旧DB。迁移过程中问题很多,本章只给出数据已经同步到Hive,怎么校验Hive数据的一致性,线上一致性会在其他章节中给出。
- 问题是:迁移地表有成百上千张,如何比较每张表的每个字段的一致性呢?
实现思路
- 思路:通过Job生成比较脚本,分发到调度系统,每天调度比较脚本,将比较不一致的结果存放到统计表中,通过报表平台将不一致日报发出,跟踪日报排查不一致问题,将问题反馈给大数据平台,让大数据平台解决不一致。
- 统计表按天分区再按表分区d='2021-01-01',h=表名。
- 大数据平台一致性校验可以校验出生产表的不一致和Hive同步的一致,前者需要开发排查解决,后者需要大数据平台解决。
- 表主键是orderid。
- 表主键不是orderid而是联合主键。
- UDF函数将所有业务字段拼接成string用于比较。
常见问题
- 时间日期类型Date、DateTime、Timestamp字段,SQL Server毫秒精度只到0,3,7结尾和MySQL不一致,需要对该类型截取处理,特别是业务字段是这样的类型是按需截取。
- Float,Double字段存在精度问题,如果两边不一致需要通过CAST函数转换后再比较。
- 对于带小数的字段,因SQL Server和MySQL报错的小数位不同,需要截取掉小数末尾的0后再比较。
- SQL Server的xml类型和MySQL的text类型存储了xml数据时前会将xml头(<?xml version="1.0"?>)去掉,要单独处理。
- 因两边数据同步时差,应排除掉当天的增量数据。
- 特殊Case处理:忽略非业务字段,非严格字段导致截取的字段。
附UDF函数
import org.apache.hadoop.hive.ql.exec.UDF;
/**
* @Description:全量字段拼接
*/
public class JointFieldsUdf extends UDF {
public String evaluate(String... fields) {
StringBuffer sb = new StringBuffer();
for (String item : fields) {
if (item != null) {
//去掉含小数点数字末尾的零
if (item.indexOf(".") > -1) {
sb.append(item.trim().replaceAll("(0)+#34;, "").replaceAll("\\.", "")).append("_");
} else {
sb.append(item.trim()).append("_");
}
} else {
sb.append(item).append("_");
}
}
return sb.toString().substring(0, sb.length() - 1);
}
}
pom
<dependency>
<groupId>org.apache.hive</groupId>
<artifactId>hive-exec</artifactId>
<version>2.2.0</version>
</dependency>
好经验分享给你,关注我学知识!
相关推荐
- 字符串可以这样加索引,你知吗?(字符串怎么加)
-
相信大多数小伙伴跟咔咔一样,给字符串添加索引从未设置过长度,今天就来聊聊如何正确的给字符串加索引。一、如何建立索引大多数系统都会存在用户表,并且系统初始设计使用了手机号码登录的。这是产品提出了一个需求...
- MySQL高频函数Top10!数据分析效率翻倍,拒绝无效加班!
-
引言:为什么你的SQL代码又臭又长?“同事3行代码搞定的事,你写了30行?”“每次处理日期、字符串都抓狂,疯狂百度?”——不是你不努力,而是没掌握这些高频函数!本文精炼8年数据库开发经验,总结出10个...
- 上亿数据怎么玩深度分页?兼容MySQL + ES + MongoDB
-
推荐学习阿里P8MySQL,基础/索引/锁/日志/调优都不误,一锅深扒端给你“吃”完这本Java性能调优实战,MySQL+JVM+Tomcat等问题一键全消面试题&真实经历面试题:在数据量很大的情...
- Hive如何比较两张表所有字段的一致性
-
前言随着MySQL技术发展,通过垂直或水平拆分能够支持相当大的数据量,目前很多公司把SQLServer、Oracledb或其他数据库迁移到MySQL上,迁移数据量很大(数据库已经水平拆分成很多Sha...
- MySql:函数盘点(mysql函数用法)
-
一、MySQL函数1、数学函数常用的有:(1)ABS()绝对值(2)CEILING()大于等于我的最小整数(天花板)(3)FLOOR()小于等于我的最大整数(地板)(4)RAND()返回0~1...
- mysql的截取函数用法详解(mysql截取字符串函数的sql语句)
-
substring()函数测试数据准备:用法:以下语法是mysql自动提示的1:substirng(str,pos):从指定位置开始截取一直到数据完成str:需要截取的字段的pos:开始截取的位置。从...
- mysql拼接函数讲解及配合截取函数使用
-
在上一篇我们讲解了mysql的截取函数用法。本篇我们将讲解mysql的拼接函数以及配合截取函数实现当留言数字过多省略显示的场景。concat函数:把参数连成一个长字符串并返回(任何参数是NULL时返回...
- MySQL实现字段分割(一行转多行)(mysql 分割)
-
先看一下数据结构,我这里字段比较少,只弄了最重要的部分根据我们上次学到的LEFT()函数进行分组SELECTLEFT(provinces,6),COUNT(1)FROM`region_map_c...
- MySQL(143)如何优化分页查询?(mysql高效分页查询)
-
优化分页查询是提升数据库性能和用户体验的重要手段。特别是在处理大数据集时,分页查询的效率对系统性能有显著影响。以下是优化分页查询的详细步骤和代码示例。一、传统分页查询传统的分页查询使用OFFSET...
- Go语言实现连接MySql基础操作(golang mysql orm)
-
在Go中,可以使用database/sql包来连接和操作MySQL数据库。以下是一个简单的示例程序,它演示了如何连接MySQL数据库并执行查询操作:packagemainimpo...
- MySQL 如何巧妙解决 Too many connections 报错?
-
1.背景在日常的MySQL运维中,难免会出现参数设置不合理,导致MySQL在使用过程中出现各种各样的问题。今天,我们就来讲解一下MySQL运维中一种常见的问题:最大连接数设置不合理,一旦...
- MYSQL数据同步(mysql数据同步机制)
-
java开发工程师在实际的开发经常会需要实现两台不同机器上的MySQL数据库的数据同步,要解决这个问题不难,无非就是mysql数据库的数据同步问题。但要看你是一次性的数据同步需求,还是定时数据同步,亦...
- Go语言MySQL的简单应用(go mysql prepare)
-
要在Go中处理MySQL数据库,可以使用第三方包,例如go-sql-driver/mysql。以下是一个简单的示例代码:packagemainimport("dat...
- 最简洁详细的SSM框架整合(ssm框架完整的功能流程)
-
创建项目和SSM框架整合思路一、创建项目因为后面会配置springMVC,所以用IDEA的web骨架创建一个maven项目。创建项目目录如下,同时,项目需要的包和文件已手动创建好了:项目目录上图中,a...
- 部署canal server 1.1.5,消费mysql信息,订阅测试
-
一、CanalServer的核心架构CanalServer是阿里巴巴开源的MySQLbinlog增量订阅与消费组件,其架构设计围绕高可用、高性能、低延迟三大目标构建,主要包含以下核心...
- 一周热门
- 最近发表
- 标签列表
-
- ps图案在哪里 (33)
- super().__init__ (33)
- python 获取日期 (34)
- 0xa (36)
- super().__init__()详解 (33)
- python安装包在哪里找 (33)
- linux查看python版本信息 (35)
- python怎么改成中文 (35)
- php文件怎么在浏览器运行 (33)
- eval在python中的意思 (33)
- python安装opencv库 (35)
- python div (34)
- sticky css (33)
- python中random.randint()函数 (34)
- python去掉字符串中的指定字符 (33)
- python入门经典100题 (34)
- anaconda安装路径 (34)
- yield和return的区别 (33)
- 1到10的阶乘之和是多少 (35)
- python安装sklearn库 (33)
- dom和bom区别 (33)
- js 替换指定位置的字符 (33)
- python判断元素是否存在 (33)
- sorted key (33)
- shutil.copy() (33)