微信搜索superit|邀请体验:大数据, 数据管理、OLAP分析与可视化平台 | 赞助作者:赞助作者

 分类:大数据

7 款开源的 ETL 工具

7 款开源的 ETL 工具
我们在下方列出了 7 款开源的 ETL 工具,并讨论了从 ETL 转向“无 ETL”的过程,因为 ELT 正迅速成为现代数据和云环境的终极过程。 注:原文包含 11 项 ETL 工具,本文提取了其中开源的 7 项,另增加了一款使用普遍的 Kettle,如需对另外 4 项进行了解,...

3年前 (2022-03-02) 12℃

php正则解析nginx的access log

对于nginx的日志分析,awstats + jawstats 是一个很好的解决方案 最近有个任务需要对接口的调用做二次分析统计,于是用php写了个正则解析日志,用Highcharts报表, nginx.conf 对log的默认格式是这样定义的 log_format  ac...

3年前 (2021-05-25) 9℃

最简单的spark实例

最简单的spark实例
hadoop-node web-ui: http://192.168.1.10:50070/ spark web-ui: http://192.168.1.10:8080/ spark的url: http://192.168.1.10:7077 1.创建一个scala项...

4年前 (2021-01-28) 14℃

20个spark实战项目列表,百度搜

这篇介绍是我看到过最详尽的,讲到很多Spark基本原理和对比Hadoop的优势,推荐必读。 1、【使用 SparkSQL 分析纽约市犯罪数据】 2、【Kmeans聚类算法评估足球比赛】 3、【使用决策树算法预测森林植被】 4、【Spark 机器学习之电影推荐系统...

4年前 (2020-12-29) 8℃

rsyslog 接入权限认证的Kafka集群

说明: kafka权限接入包含两种方式,了解具体接入可参考 本案例使用kafka的第二种使用方式,案例如下: Icon SparkConf sparkConf = new SparkConf() .setAppName("JavaSparkStream...

4年前 (2020-12-29) 7℃

kafka单条日志超过1M解决方案

一、说明 kafka默认会丢弃超过单调日志超过1M的记录。如果单条日志超出1M(压缩后),客户端会报出如下错误。 错误日志 Icon java.util.concurrent.ExecutionException: org.apache.kafka.commo...

4年前 (2020-12-29) 9℃

日志实时收集之FileBeat+Kafka

日志实时收集之FileBeat+Kafka
flume,logstash 都是基于jvm的,都比较耗资源,而filebeat是基于go的,把logstash的核心拿出来了,但是没有执行格式化,只是在端上采集,,,, 之前,我们的某一个业务用于实时日志收集处理的架构大概是这样的: http://rk700...

4年前 (2020-12-29) 5℃

kafka单独设置数据过期时间

kafka 单独设置某个topic的数据过期时间 kafka 默认存放7天的临时数据,如果遇到磁盘空间小,存放数据量大,可以设置缩短这个时间。 全局设置 修改 server.properties log.retention.hours=72 log.cleanup...

4年前 (2020-12-29) 7℃

阿里Canal框架(数据同步中间件)初步实践-Java知音

阿里Canal框架(数据同步中间件)初步实践-Java知音
思维导图 本文章已收录到个人博客网站(我爱B站):me.lovebilibili.com 前言 我们都知道一个系统最重要的是数据,数据是保存在数据库里。但是很多时候不单止要保存在数据库中,还要同步保存到Elastic Search、HBase、Redis等等。 这时我注意...

4年前 (2020-12-29) 7℃

yarn编码获取application列表

1、 新建maven工程 https://blog.csdn.net/a794922102/article/details/86632625 https://blog.csdn.net/nma_123456/article/details/51692721 2、 编写代码 &nb...

4年前 (2020-10-28) 10℃

hive JDBC 进度和日志查看

hive JDBC 进度和日志查看 @(hive)[JDBC|进度|日志] hive的JDBC提供了java连接hiveserver2查询的能力,但是hive JDBC有别于关系型数据库,一个查询语句可能要在十几分钟到几十分钟才会返回结果,而hive JDBC...

4年前 (2020-10-28) 10℃

Hive设置连接用户名和密码

Hive设置连接用户名和密码
Hive设置连接用户名和密码,操作相关步骤如下: Hive-site.xml,缺省为NONE。此处改为CUSTOM https://blog.csdn.net/lr131425/article/details/72628001 <property> <n...

4年前 (2020-10-27) 18℃

hive优化常用手段

hive优化常用手段 1、好的模型设计事半功倍 2、解决数据倾斜问题 3、减少 job 数 4、设置合理的 MapReduce 的 task 数,能有效提升性能。(比如,10w+级别的计算,用 160个 reduce,那是相当的浪费,1 个足够) 5、了解数据分布,自己动手解决数...

4年前 (2020-10-26) 7℃

SQOOP 导出Hive数据到MySQL

SQOOP 导出Hive数据到MySQL
基本知识: Sqoop导出的基本用法:https://sqoop.apache.org/docs/1.4.6/SqoopUserGuide.html#_syntax_4  的10. sqoop-export 内容摘要: 本文主要是对–update-mode参数的用法进...

4年前 (2020-10-26) 8℃

Hive学习之路 (十二)Hive SQL练习之影评案例

目录 案例说明 数据下载 解析 1、正确建表,导入数据(三张表,三份数据),并验证是否正确 2、求被评分次数最多的10部电影,并给出评分次数(电影名,评分次数) 3、分别求男性,女性当中评分最高的10部电影(性别,电影名,影评分) 4、求movieid = 2116这部...

4年前 (2020-10-26) 8℃

Spark项目实战

Spark项目之电商用户行为分析大数据平台之(十二)Spark上下文构建及模拟数据生成 摘要:一、模拟生成数据 1 package com.bw.test; 2 3 import java.util.ArrayList; 4 import java.util.Arrays; ...

4年前 (2020-10-26) 7℃

Hive学习之路 (十二)Hive SQL练习之影评案例

Hive学习之路 (十二)Hive SQL练习之影评案例
Hive学习之路 (十二)Hive SQL练习之影评案例 讨论QQ:1586558083 目录 案例说明 数据下载 解析 1、正确建表,导入数据(三张表,三份数据),并验证是否正确 2、求被评分次数最多的10部电影,并给出评分次数(电影名,评分次数) 3、分别求男性...

4年前 (2020-10-26) 6℃

SQOOP 导出-Hive和MySQL数据导入导出

SQOOP 导出-Hive和MySQL数据导入导出
基本知识: Sqoop导出的基本用法:https://sqoop.apache.org/docs/1.4.6/SqoopUserGuide.html#_syntax_4  的10. sqoop-export   一、sqoop导出hive表到mysql中: 实现语句: ...

4年前 (2020-10-26) 7℃

Sqoop学习之路 (一)

Sqoop学习之路 (一)
Sqoop学习之路 (一) 讨论QQ:1586558083 目录 一、概述 二、工作机制 三、安装 1、前提概述 2、软件下载 3、安装步骤 四、Sqoop的基本命令 基本操作 示例 五、Sqoop的数据导入 1、从RDBMS导入到HDFS中 2、把My...

4年前 (2020-10-26) 9℃

Sqoop 之 数据迁移

Sqoop 之 数据迁移
文章目录 1.RDBMS到HDFS 1.1全部导入 1.2导入指定列 –columns 1.3导入指定行–where 1.4查询导入 1.5增量导入数据 1.6导入文件格式 2.RDBMS到Hive 3.RDBMS到Hbase 4.HIVE/H...

4年前 (2020-10-26) 5℃

使用Sqoop导Mysql数据到Hbase报错

报错日志 20/04/14 16:40:45 WARN mapreduce.HBaseImportJob: Could not find HBase table hbase_company 20/04/14 16:40:45 WARN mapreduce.HBaseImpo...

4年前 (2020-10-26) 4℃

安装CDH&CM

(推荐)https://www.xiaokunli.com/2019/03/25/CM-CDH6.1.0%E5%AE%89%E8%A3%85%E8%BF%87%E7%A8%8B%E8%AF%A6%E8%A7%A3/ (推荐)https://blog.csdn.net/weixin...

4年前 (2020-10-13) 10℃

运行Spark官方提供的例子

运行Spark官方提供的例子
去spark官网把spark下载下来: https://spark.apache.org/downloads.html   解压,可以看下目录: 其中examples目录下提供了java,scala,python,R语言的各种例子。点进src目录可以看到源代码,如:...

4年前 (2020-10-12) 6℃