专题详情LABEL DETAILS

首页/专题地图/数据湖

数据湖

数据湖
数据湖是指使用大型二进制对象或文件这样的自然格式储存数据的系统。 它通常把企业所有的数据统一存储,既包括源系统中的原始副本,也包括转换后的数据,比如那些用于报表, 可视化, 数据分析和机器学习的数据。数据湖可以包括关系数据库的结构化数据(行与列)、半结构化的数据(CSV/日志/XML/JSON),非结构化数据 (电子邮件/文件/PDF)和 二进制数据(图像/音频/视频)。 数据湖的本质包含四个标准:1. 统一的存储系统;2. 存储原始数据;3. 丰富的计算模型/范式;4. 数据湖与上云无关。这四个标准来判断,开源大数据的Hadoop HDFS存储系统就是一个标准的数据湖架构,具备统一的原始数据存储架构。

相关专题

最新活动

<