Spark读取JDBC调优

news/2024/6/1 22:22:09 标签: 大数据, spark, 数据库

Spark读取JDBC调优,如何调参

  • 一、场景构建
  • 二、参数设置
    • 1.灵活运用分区列

实际问题:工作中需要读取一个存放了三四年历史数据的pg数仓表(缺少主键id),需要将数据同步到阿里云 MC中,Spark在使用JDBC读取关系型数据库时,默认只开启一个task去执行,性能低下,因此需要通过设置一些参数来提高并发度。一定要充分理解参数的含义,否则可能会因为配置不当导致数据倾斜!

翻看了网络上好多相关介绍,都沾边。下边总结一下!

您是菜鸟就好好学习,您是大佬欢迎提出修改意见!

一、场景构建

以100行数据为例(实际307983条):

  • 创建表
CREATE TABLE IF NOT EXISTS test(
	good_id STRING ,
	title STRING ,
	sellcount BIGINT,
	salesamount Double
)COMMENT '测试表'
PARTITIONED BY (
	dt	STRING	COMMENT '分区字段'
);
  • 插入数据
insert into test partition (dt = '202001') 
values ('1001','卫衣',1,100.1),('1002','卫裤',2,101.2),('1003','拖鞋',3,10.3)...,('1100','帽子',100,19.23)

二、参数设置

配置文件示例:

jdbc: &jdbc
  options.url: "jdbc:postgresql://xxx.xxx.xxx.xxx:8000/postgres"
  options.user: "xxxxxx"
  options.password: "xxxxxx"
  options.driver: "org.postgresql.Driver"

input:
 - moduleClass: "JDBC"
    <<: *jdbc
    options.dbtable: "SELECT *,cast(good_id as bigint)*1%6 mo FROM test.test where dt = '202001'"
    options.fetchsize: "100"
    options.partitionColumn: "mo" # 分区列,一般为自增id,下边解释下为啥用mo
    options.numPartitions: "6" #分区数
    options.lowerBound: "0"
    options.mytime: "${yyyy}-${MM}-${dd}"
    options.upperBound: "6" # 该值设置为和分区列最大值差不多的值
    resultDF: "df"

提交spark配置

  spark-submit \
    --class xx.xxx.xxx.xxx \
    --master local[*] \
    --num-executors 6 \
    --executor-cores 1 \
    --executor-memory 2G \
    --driver-memory 4G \
    /root/test/xxx.jar \
    -p xxx/xxx.yaml -cyctime $cyctime
  • options.fetchsize:一次性读取的数据条数,按集群规模(例:64核128G)一次1000条;阿里云Spark集群链接不了华为云pg数仓,我开了一台独立机器(8核16G)一次100条

  • options.partitionColumn:分区列,必须是bigint类型;

  • options.numPartitions:设置分区数,最好和spark提交的executors数一致;上文中spark任务数为6,分区数也为6

  • options.lowerBound:分区开始值

  • options.upperBound:分区结束值;numPartitions、lowerBound、upperBound这三个必须同时设置,每个分区的数据量计算公式为:upperBound / numPartitions - lowerBound / numPartitions,任务运行时间看的是最长的那个任务,所以要尽可能保证每一个分区的数据量差不多

官方配置文档:
在这里插入图片描述

1.灵活运用分区列

有的小伙伴就该思考为啥不用自增id做分区列呢?

因为实际生产环境中,一是不需要,二是创建表忽略了自增id等等。

为啥要新做一列mo,而不直接将商品id转bigint用呢?

算是一个补救措施,新做一个数据列,在读取过程用mo做shuffle,mo是商品id强转为bigint后对6取膜,结果为0-5共6种可能,提高了shuffle的效率,计算分区的数据量:6 / 6 - 0 / 6 = 1;也就是说分区值为0,1,2,3,4,(大于5),对应6个任务,6个核心。

下面是运行shuffle结束后的截图,可以看到每一个task获取的数据量都比较均匀

没有数据倾斜
下面来看一个错误的案例:
在这里插入图片描述
上图配置就会导致数据倾斜
numPartitions=10,
lowerBound=0,
upperBound=100,
表的数据量是1000。
根据计算公式每个分区的数据量是100/10-0/10=10,分10个区,那么前9个分区数据量都是10,但最后一个分区数据量却达到了910,即数据倾斜了,所以upperBound-lowerBound要和表的分区字段最大值差不多

有啥需要优化的欢迎评论纠正


http://www.niftyadmin.cn/n/132981.html

相关文章

Linux 常用命令总结

本篇博客记录读研以来高频使用的 linux 系统下的命令合集 命令分类程序运行系统相关文件处理文件传输相关命令文件显示相关命令文件排列相关命令Anaconda 相关命令tmux 终端复用神器使用tips程序运行 自动保存日志&#xff0c;替代write命令&#xff1a; xxx | tee ./xxx.log…

南京、西安集成电路企业和高校分布一览(附产业链主要厂商及高校名录)

前言 3月2日&#xff0c;国务院副总理刘鹤在北京调研集成电路企业发展&#xff0c;并主持召开座谈会。刘鹤指出&#xff0c;集成电路是现代化产业体系的核心枢纽&#xff0c;关系国家安全和中国式现代化进程。他表示&#xff0c;我国已形成较完整的集成电路产业链&#xff0c;也…

PLC系统行业发展动态

作为工厂、车间的底层控制核心,PLC从诞生之初就在自动化控制系统中扮演着至关重要的角色。一方面,来自客户的实际应用需求,促使PLC朝着控制任务的集中控制节点、制造系统的数据节点以及具有边缘控制能力的融合计算节点多功能演进;另一方面,从西门子、施耐德电气、罗克韦尔…

冥想第七百二十二天

1.周六去给朋友讲了一天的软件&#xff0c;给朋友带了2袋面包边&#xff0c;几袋方便面。感谢朋友的款待&#xff0c;做的蒸菜双拼&#xff0c;柠檬风爪&#xff0c;排骨汤&#xff0c;汤圆&#xff0c;牛肉&#xff0c;孜然回锅肉。 2.讲到下午五点&#xff0c;就回去了。感觉…

游戏算法-游戏AI状态机,python实现

AI概述 游戏AI是对游戏内所有非玩家控制角色的行为进行研究和设计&#xff0c;使得游戏内的单位能够感知周围环境&#xff0c;并做出相应的动作表现的技术。游戏AI作为游戏玩法的一大补充&#xff0c;在各种游戏中都有广泛的应用&#xff0c;比如可以和玩家交互聊天的NPC&#…

《实践论》笔记及当下反思(二)

目录 笔记 1、马克思主义所说的绝对真理是什么&#xff1f; 2、客观现实世界的变化运动永远没有完结&#xff0c;人们在实践中对于真理的认识也就永远没有完结 3、改造客观世界&#xff0c;也改造自己的主观世界-——改造自己的认识能力 4、实践、认识、再实践、再认识&…

vue3中使用router路由实现跳转传参

文章目录前言一、路由跳转二、页面传参需要注意总结大家好&#xff0c;今天和大家分享一下vue3中如何进行跳转并进行传参。 前言 vue3取消了vue2部分api&#xff0c;所以路由跳转和传值的方式会有所不同。 我们今天主要讲router.push(location, onComplete?, onAbort?) vue…

2.整理内核编译流程:uImage/zImage/Image/vmlinx之间关系

uImage镜像文件的分析1.在内核源码顶层目录下打开Makefile文件&#xff0c;搜索uImage,发现没有目标&#xff0c;猜测在Makefile中包含其他路径的Makefile文件 596 include arch/$(SRCARCH)/Makefile arch/arm/Makefile2.进入arch/arm目录下&#xff0c;打开Makefile文件&…