资讯专栏INFORMATION COLUMN

Star Schema Benchmark 数据仓库 UDW Doris

ernest.wang / 2492人阅读

摘要:线程越大生成数据越快,建议数据量较大时并且在机器条件允许的情况下指定较大的核数。例如以下命令生成千亿级别的数据参数指定为线程,以上数据示例也可以按需指定参数,指定的数字即为分割文件的个数。

Star Schema Benchmark

本篇目录

下载并编译工具生成数据

下载并编译工具

[root@xxxxx test]# git clone https://github.com/electrum/ssb-dbgen.git
[root@xxxxx test]# cd ssb-dbgen
[root@xxxxx ssb-dbgen]# make

生成数据

生成6亿数据

[root@xxxxx ssb-dbgen]# ./dbgen -s 100 -T c
[root@xxxxx ssb-dbgen]# ./dbgen -s 100 -T l
[root@xxxxx ssb-dbgen]# ./dbgen -s 100 -T p
[root@xxxxx ssb-dbgen]# ./dbgen -s 100 -T s
[root@xxxxx ssb-dbgen]# ./dbgen -s 100 -T d
表名行数大小描述lineorder6亿(600037902)67.1G商品订单表customer300万(3000000)317M客户表part140万(1400000)135M零部件表supplier20万(200000)19M供应商表date2556272K日期表

生成30亿数据

[root@xxxxx ssb-dbgen]# ./dbgen -s 500 -T c
[root@xxxxx ssb-dbgen]# ./dbgen -s 500 -T l
[root@xxxxx ssb-dbgen]# ./dbgen -s 500 -T p
[root@xxxxx ssb-dbgen]# ./dbgen -s 500 -T s
[root@xxxxx ssb-dbgen]# ./dbgen -s 500 -T d
表名行数大小描述lineorder30亿(3000028242)347G商品订单表customer1500万(15000000)1.6G客户表part180万(1800000)173M零部件表supplier100万(1000000)94M供应商表date2556272K日期表

生成60亿数据

[root@xxxxx ssb-dbgen]# ./dbgen -s 1000 -T c
[root@xxxxx ssb-dbgen]# ./dbgen -s 1000 -T l
[root@xxxxx ssb-dbgen]# ./dbgen -s 1000 -T p
[root@xxxxx ssb-dbgen]# ./dbgen -s 1000 -T s
[root@xxxxx ssb-dbgen]# ./dbgen -s 1000 -T d
表名行数大小描述lineorder60亿(5999989709)688G商品订单表customer3000万(30000000)3.2G客户表part200万(2000000)193M零部件表supplier200万(2000000)188M供应商表date2556272K日期表

特别说明:

​ 如果数据量生成较大的话,dbgen命令支持分割文件,指定 -C 参数,即线程数。线程越大生成数据越快,建议数据量较大时并且在机器条件允许的情况下指定较大的核数。例如以下命令生成千亿级别的数据 -C 参数指定为32线程,以上数据示例也可以按需指定 -C 参数,-C 指定的数字即为分割文件的个数。

[root@xxxxx ssb-dbgen]# ./dbgen -C 32 -s 17500 -T c
[root@xxxxx ssb-dbgen]# ./dbgen -C 32 -s 17500 -T l
[root@xxxxx ssb-dbgen]# ./dbgen -C 32 -s 17500 -T p
[root@xxxxx ssb-dbgen]# ./dbgen -C 32 -s 17500 -T s
[root@xxxxx ssb-dbgen]# ./dbgen -C 32 -s 17500 -T d

文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。

转载请注明本文地址:https://www.ucloud.cn/yun/126811.html

相关文章

  • 概览 数据仓库 UDW Doris

    摘要:概览概览概览产品动态产品介绍什么是云数据仓库产品优势应用场景基本概念使用限制快速上手操作指南管理集群配置升降级节点扩容重启实例重置管理员密码删除集群连接集群数据导入本地数据导入数据导入通过导入开发指南数据类型语法创建库创建表创建视图插入数 概览概览产品动态产品介绍什么是云数据仓库UDoris产品优势应用场景基本概念使用限制快速上手操作指南管理集群Backend配置升降级Frontend节点扩...

    ernest.wang 评论0 收藏1705
  • 建表(Create Table) 数据仓库 UDW Doris

    摘要:数据排序使用的列数,取最前面几列,不能超过总的列数。示例创建一个动态分区表。创建外部表创建外部表在创建外部表的目的是可以通过访问外部数据库。创建表时,关于和的数量和数据量的建议。 建表(Create Table)创建表语法:CREATE TABLE [IF NOT EXISTS] [database.]table ( column_definition_list, [inde...

    ernest.wang 评论0 收藏1190
  • 重启集群 数据仓库 UDW Doris

    摘要:重启集群重启集群重启集群当您需要重启集群时,登录账号进入到用户控制台,在全部产品下搜索或者数据仓库下选择数据仓库,进入到数据仓库控制台下,选择操作重启注意重启集群为高危操作,集群将处于重启中持续数秒,建议无必要时不要随意重启实例,这将会 重启集群当您需要重启集群时,登录UCloud账号进入到用户控制台,在全部产品下搜索或者数据仓库下选择数据仓库 UDW Doris,进入到数据仓库UDoris...

    ernest.wang 评论0 收藏2903
  • 产品购买与使用 数据仓库 UDW Doris

    摘要:如何连接云数据仓库如何连接云数据仓库如何连接云数据仓库为保证安全,云数据仓库仅提供内网网络,您连接集群时可以配合同一地域的云主机或者网络产品使用。 产品购买与使用本篇目录为什么只提供一种云盘类型?配置升降级对集群有什么影响?配置升级有什么建议?如何连接云数据仓库UDoris?为什么只提供一种云盘类型?Doris的存储特性对磁盘吞吐量要求很高,为保证Doris的性能优势, 因此仅提供RSSD云...

    ernest.wang 评论0 收藏1167
  • 概览 数据仓库 UDW Clickhouse

    摘要:概览概览概览产品动态产品介绍什么是云数据仓库产品优势应用场景基本概念使用限制快速上手操作指南管理集群配置升降级重启实例重置管理员密码删除集群连接集群数据同步本地数据导入数据导入数据导入间数据导入开发指南数据类型语法创建库创建表创建视图插入 概览概览产品动态产品介绍什么是云数据仓库 UClickHouse产品优势应用场景基本概念使用限制快速上手操作指南管理集群配置升降级重启实例重置管理员密码删...

    ernest.wang 评论0 收藏1076
  • 聚合函数 数据仓库 UDW Doris

    摘要:聚合函数函数名称描述语法统计行数或者非值个数求最小值求最大值统计行数或者非值个数去重计算输入的并集,返回新的计算输入的并集,返回其基数计算和类型的列中不同值的个数,返回值和相同非精确快速去重列的类型不能是或者且表为模型聚合函数函数名称描述语法 sum统计行数或者非NULL值个数sum(expr)min求最小值min(column)max求最大值max(column)count统计行数或...

    ernest.wang 评论0 收藏146

发表评论

0条评论

ernest.wang

|高级讲师

TA的文章

阅读更多
最新活动
阅读需要支付1元查看
<