GreenPlum6.x之ETL工具
创始人
2024-02-20 03:12:43
0

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档

文章目录

  • 前言
  • 一、ETL是什么?
  • 二、数据加载工具GPLoad
    • 1.GPLoad安装部署
    • 2.编写控制文件test.yml
  • 总结


前言

提示:这里可以添加本文要记录的大概内容:

GreenPlum作为一款定位为OLAP系统的分布式数据库平台,具有非常强大的ETL功能,其中存储过程和GPLoad是必须掌握的数据仓库开发工具。


提示:以下是本篇文章正文内容,下面案例可供参考

一、ETL是什么?

ETL是英文Extract-Transform-Load的缩写,用来描述将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程。
ETL 是企业数据应用过程中的一个数据流(pipeline)的控制技术,把原始的数据经过一定的处理,放入数据仓库里。
ETL的目的是将企业中的分散、零乱、标准不统一的数据整合到一起,为企业的决策提供分析依据。
在这里插入图片描述

二、数据加载工具GPLoad

1.GPLoad安装部署

代码如下(示例):

#在虚拟机增加了一台做ETL的服务器
192.168.1.200 gpetlmkdir -p /gpdata/gpadmin/greenplum-db-clients
chown -R hadoop:hadoop /gpdata/gpadmin/greenplum-db-clientsroot: yum install apr apr-util bzip2 libyaml libevent rsyncroot:
cd /gpdata/gpadmin/greenplum-db-clients
rpm -ivh greenplum-db-clients-6.18.0-rhel7-x86_64.rpm
rpm -ivh --prefix=/gpdata/gpadmin/greenplum-db-clients/ greenplum-db-clients-6.18.1-rhel7-x86_64.rpm#将软件赋权给实际管理员用户
ls -al
chown -Rf hadoop:hadoop /gpdata/gpadmin/greenplum-db-clients*#设置环境变量
source /gpdata/gpadmin/greenplum-db-clients/greenplum-db-clients-6.18.1/greenplum_loaders_path.sh

2.编写控制文件test.yml

代码如下(示例):

VERSION: 1.0.0.1
DATABASE: gpdb 
USER: gpadmin 
HOST: 192.168.1.201 
PORT: 5432 
GPLOAD:INPUT:- SOURCE:LOCAL_HOSTNAME:- 192.168.1.200PORT: 8080FILE:- /home/test/test.csv #数据文件路径- COLUMNS:- id: INT8- MAX_LINE_LENGTH: 1000000- FORMAT: csv- DELIMITER: ','- HEADER: trueOUTPUT:- TABLE: public.t_test #测试表,表中包含字段id 类型为INT8- MODE: insert
#准备数据文件test.csv
id
1
2
3
4#执行gpload
gpload -f test.yml 
#成功导入数据则安装成功,否则根据具体提示处理

总结

记录点点滴滴

相关内容

热门资讯

监控摄像头接入GB28181平... 流程简介将监控摄像头的视频在网站和APP中直播,要解决的几个问题是:1&...
Windows10添加群晖磁盘... 在使用群晖NAS时,我们需要通过本地映射的方式把NAS映射成本地的一块磁盘使用。 通过...
protocol buffer... 目录 目录 什么是protocol buffer 1.protobuf 1.1安装  1.2使用...
educoder数据结构与算法...                                                   ...
MySQL下载和安装(Wind... 前言:刚换了一台电脑,里面所有东西都需要重新配置,习惯了所...
MFC文件操作  MFC提供了一个文件操作的基类CFile,这个类提供了一个没有缓存的二进制格式的磁盘...
在Word、WPS中插入AxM... 引言 我最近需要写一些文章,在排版时发现AxMath插入的公式竟然会导致行间距异常&#...
有效的括号 一、题目 给定一个只包括 '(',')','{','}'...
Fluent中创建监测点 1 概述某些仿真问题,需要创建监测点,用于获取空间定点的数据࿰...
【Ctfer训练计划】——(三... 作者名:Demo不是emo  主页面链接:主页传送门 创作初心ÿ...