博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
海量数据迁移之使用shell启用多个动态并行
阅读量:2446 次
发布时间:2019-05-10

本文共 1788 字,大约阅读时间需要 5 分钟。

在数据迁移中,可能有成百上千个表,有些表很大,有些表又很小。
如果启用了多个并行的进程,可能会有资源分配上的问题。
比如下面有10个表,100代表预计的时间为100分钟。
table1  100
table2  90
table3  90
table4  80
table5  80
table6  70
table7  60
table8  60
table9  50
table10 40
如果分为4个进程来并行执行,可能一种比较理想的方案就是
parallel1: table1,table8
parallel2: table2,table5,table9
parallel3: table3,table6,table9
parallel4: table4,table7
但是在实际的执行中,可能因为表的分区,表的数据类型,表的存储的不同,可能实际的执行时间会有很大的差别,
可能paralle2,3,4已经执行完了,而parallel1还没有执行完50%。
这样,table8就一直pending在那了。
在这样的情况下,可以考虑使用动态并行,就是能够在后台启用一些并行的进程,比如需要4个并行进程,就使用nohup启用4个并行的进程。
不做具体的数据操作。
parfile=par2_tab_parall.lst
logfile=`echo $parfile|awk -F. '{print $1}`".log"
while true
do
if [ -f $parfile ]
then
   tab_exists_flag=`cat $parfile |wc -l`
   if [ ${tab_exists_flag} -eq 0 ]
     then
      sleep 5;
   elif [ ${tab_exists_flag} -gt 0 ]
     then
     tab_name=`cat $parfile`
     ksh appendata.sh $tab_name >> $logfile
     touch ${parfile}.tmp
     mv ${parfile}.tmp ${parfile}
   fi
fi
done
我们使用appendata.sh来模拟实现数据的插入,其实不会做数据的真实插入,这是模拟日志的内容。
 

echo $1

sqlplus -s  n1/n1 < set time on
set timin on
set pages 0
select 'insert into '||'$1;' from dual;

select 'commit;' from dual;

EOF
if [ $? -eq 0 ]
then
echo '' >parallel1.lst
fi
使用如下的命令来启用一个进程,比如下面的命令启用进程2,如果启用其他的进程,命令类似
nohup ksh par2.sh > par2_tab_parall.log &
只需要在一个文件中放入处理的表名即可。如果是进程2,就在par2_tab_parall.lst中放入表名,假设表为test
par2_tab_parall.lst
[ora11g@rac1 parallel]$ cat par2_tab_parall.lst
test
如果放入表test,之后,就会发现第2个进程就开始处理表test了

 

test

insert into test;

Elapsed: 00:00:00.00

commit;

Elapsed: 00:00:00.01

再放入一个表,马上就会发现进程开始处理表tab_test了,如果没有表的时候,它就在后台做sleep工作。

[ora11g@rac1 parallel]$ echo tab_test > par2_tab_parall.lst

tab_test

insert into tab_test;

Elapsed: 00:00:00.01

commit;

Elapsed: 00:00:00.00

 

来自 “ ITPUB博客 ” ,链接:http://blog.itpub.net/23718752/viewspace-1260982/,如需转载,请注明出处,否则将追究法律责任。

转载于:http://blog.itpub.net/23718752/viewspace-1260982/

你可能感兴趣的文章
SQL Server中的查询优化技术:基础
查看>>
aws toolkit_适用于Visual Studio Code的AWS Toolkit入门
查看>>
SQL Server中的数据层应用程序简介
查看>>
azure云数据库_从Azure Databricks将数据加载到Azure SQL数据库
查看>>
sql判断基数_SQL Server中的基数估计框架版本控制
查看>>
sql server 主键_SQL Server中人口过多的主键和CE模型的变化
查看>>
德鲁伊 oltp oltp_深入研究内存中OLTP表的非聚集索引
查看>>
游标sql server_使用SQL Server游标–优点和缺点
查看>>
通过SQL Server维护计划的数据库备份任务
查看>>
SQL Server Management Studio(SSMS)的顶级免费加载项
查看>>
使用PowerShell模块SQL数据库备份– DBATools
查看>>
ssis导出数据性能_使用SSIS Hadoop组件导入和导出数据
查看>>
sql中concat函数_SQL中的CONCAT函数概述和示例
查看>>
转储sql文件_在Linux上SQL Server中更改SQL转储文件位置
查看>>
使用PowerShell为Azure Cosmos DB创建容器
查看>>
使用tSQLt创建SQL单元测试实用程序过程
查看>>
sql 会话_在特定会话中禁用SQL Server中的触发器
查看>>
处理过多SQL Server PAGEIOLATCH_SH等待类型
查看>>
如何在SQL Server 2016中比较查询执行计划
查看>>
azure blob_如何在Azure Blob存储中恢复意外删除
查看>>