资讯专栏INFORMATION COLUMN

大数据系列之Flume(一)

enrecul101 / 1131人阅读

摘要:一个由,,三部分组成,可接受外部数据源或另一个的,可向另一个的或外部存储系统传递数据如。

Flume是什么

Flume是一个分布式的高可靠,可扩展的数据采集框架,在大数据工程中我们常常需要日志进行分析获取商业价值而Flume就是采集多个不同的数据源,交给数据处理程序同一执行。

Flume的架构

基础架构

Flume event:一个数据集,是Flume传输数据的基本单位
Source:接收来自外部的FLume event,有很多不同的类型    
Channel:存储Flume event直到被Sink消耗
Sink:消耗Channel中的Flume event,并将其存储在外部设备中或者传送给另一个agent,也有很多不同的类型。

一个agent由source,sink,channel三部分组成,source可接受外部数据源或另一个agent的sink,sink可向另一个agent的source或外部存储系统传递数据如HDFS。

扩展架构

两个agent之间的传输


多个agent的合并


一个agent设置多个channel,不同channel向不同地方传递数据

如何使用Flume

由上面我们知道Flume的核心就是接收哪的数据和向哪传输数据,而这些信息就写在Flume的配置文件中,因此使用Flume的核心就是配置文件的书写

conf下的lume-conf.properties.template文件
# Name the components on this agent
a1.sources = r1
a1.sinks = k1
a1.channels = c1

# Describe/configure the source
a1.sources.r1.type = netcat
a1.sources.r1.bind = localhost
a1.sources.r1.port = 44444

# Describe the sink
a1.sinks.k1.type = logger

# Use a channel which buffers events in memory
a1.channels.c1.type = memory


# Bind the source and sink to the channel
a1.sources.r1.channels = c1
a1.sinks.k1.channel = c1

可以看到配置分为两步,分别定义agent的sink,source,channel类型,将sink,source,channel三个组件串连起来。使用的效果就是控制台(logger)实时输出netcat输入的信息。

启动命令:

$ bin/flume-ng agent -n $agent_name -c conf -f conf/flume-conf.properties.template

至此Flume的基本流程我们已经清楚,实际开发中我们要根据具体需求选择Flume的架构以及各个Flume source和sink的类型。

Flume官方文档

文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。

转载请注明本文地址:https://www.ucloud.cn/yun/8307.html

相关文章

  • 数据系列——kafka学习笔记

    摘要:当某一台故障失效时,生产者和消费者转而使用其它的机器整体健壮性的组件一个消息队列需要哪些部分生产消费消息类别存储等等主题处理的消息的不同分类消息代理集群中的一个服务节点称为一个,主要存储消息数据存在硬盘中。 1. 大数据领域数据类型 1.1 有界数据 ​ 一般批处理(一个文件 或者一批文件),不管文件多大,都是可以度量 ​ mapreduce hive sparkcor...

    MAX_zuo 评论0 收藏0
  • Hadoop家族学习路线图

    摘要:本文为家族开篇,家族学习路线图目录家族产品家族学习路线图家族产品截止到年,根据的统计,家族产品已经达到个接下来,我把这个产品,分成了类。家族学习路线图下面我将分别介绍各个产品的安装和使用,以我经验总结我的学习路线。 Hadoop家族系列文章, 主要介绍Hadoop家族产品,常用的项目包括Hadoop, Hive, Pig, HBase, Sqoop, Mahout, Zookeeper, ...

    includecmath 评论0 收藏0
  • How we redesigned the NSQ- 其他特性及未来计划

    摘要:一条消息除了基本的元数据之外,其余内容为消息体。消息的元数据主要包括了消息在服务端产生时的时间戳,服务端对于该消息的下发次数,消息。作为的消费者,从消费消息后通过进行处理。 在系列文章前面几篇中,介绍了 NSQ 改造的过程和几个基础特性,本文中我们继续介绍几个高级特性及其使用场景,这些都是结合有赞业务场景总结提炼出来的重要功能。 NSQ 拓展消息格式的设计 有赞中间件在 NSQ 中引入...

    blastz 评论0 收藏0
  • 数据入门指南(GitHub开源项目)

    摘要:项目地址前言大数据技术栈思维导图大数据常用软件安装指南一分布式文件存储系统分布式计算框架集群资源管理器单机伪集群环境搭建集群环境搭建常用命令的使用基于搭建高可用集群二简介及核心概念环境下的安装部署和命令行的基本使用常用操作分区表和分桶表视图 项目GitHub地址:https://github.com/heibaiying... 前 言 大数据技术栈思维导图 大数据常用软件安装指...

    guyan0319 评论0 收藏0
  • PPT下载 | 亿级用户万台服务器背后,vivo云服务容器化如何破茧化蝶?

    摘要:综上所述,容器化性能上接近物理机,在多测试场景下,表现相对稳定可靠。和实现了云服务器节点从物理机到宿主机的转变。 2018年数人云Meetup第一站,联合vivo在深圳举办 Building Microservice 系列活动第一期。本次技术沙龙vivo、中兴通讯、华为、数人云共同派出技术大咖,为开发者们带来有关微服务、容器化、配置中心、服务网格等领域的实战与干货分享。 数人云Meet...

    Richard_Gao 评论0 收藏0

发表评论

0条评论

最新活动
阅读需要支付1元查看
<