glusterfs mount rdma failed

RyanHoo 发布于2019-06-21 15:23 / 2867人阅读

摘要：解决借问搜索引擎，有类似情况，未能找到解决方案。在挂载时指定传输类型为时，系统却无法通过这个主机地址进行方式的传输。

问题描述

集群有两个io节点，各挂载一块盘（于/data），将二者放入一个存储池（在io1执行）：

gluster peer probe io2

在其上建立卷（在两个io节点的/data目录下个建立一个share文件夹），指定传输方式为rdma（远程直接内存访问Remote Direct Memory Access）：

gluster volume create share transport rdma io1:/data/share io2:/data/share
gluster volume start share    #启用该卷

了客户端挂载卷到指定目录（这里时/share）：

mount -t glusterfs -o transport=rdma io1:/share /share

执行后，提示Mount failed. Please check the log file for more details。

解决

借问搜索引擎，有类似情况，未能找到解决方案。

在客户端上检查日志/var/log/glusterfs/share.log发现挂载时连接io1存在问题，有类似语句：Transport endpoint is not connected，也就是连接在问题，不过在客户端上ping测试io1节点上的IB卡的地址却正常，使用默认传输方式（TCP）建立的卷能正常挂载。

其实原因很简单，属于疏忽级问题：
该集群中各个节点的/etc/hosts文件中仅添加了ip和hostname对应的解析，以本文为例，主机名io1其实是对应的该节点上某个以太网卡的地址，而非“无限带宽”(Infinband)网卡的地址。在挂载时指定传输类型(transport）为rdma时，系统却无法通过io这个主机地址进行IB方式的传输。

因此在创建卷的时候应该使用各个io节点的IB地址（IPoIB）（或者在hosts文件中为IB地址多带带创建解析，如io1上命名为ib.io1），挂载卷的时候也如此。
删除先前的卷

gluster volume stop share
gluster volume delete share

重新创建卷

gluster volume create share transport rdma ib.io1:/data/share ib.io2:/data/share
gluster volume start share    #启用该卷

提示，重新创建的卷和先前创建的卷同名（即使该卷已经删除过），可能会提示类似：volume create: share: failed: parent directory /data is already part of a volume，这种情况可按以下方法解决：

setfattr -x trusted.glusterfs.volume-id /data/share  #这里/data/share换成你实际的路径
setfattr -x trusted.gfid /data/share   #同上 可能会提示not attributes 无妨
rm /data/share/.glusterfs -rf

然后重新创建卷。
如果还遇到问题，可以直接删除/var/lib/glusterd文件夹，卸载glusterfs-server，删掉卷文件夹（本文中是/data/share），然后重装来过。

客户端挂载

mount -t glusterfs -o transport=rdma ib.io1:/share /share

如果要自动挂载，在/etc/fstab添加：

ib.io1:/share.rdma /share glusterfs default 0 0

一切顺利。

混合云云服务器 rdma glusterfs glusterfs性能测试 rdma技术分布式存储

文章版权归作者所有，未经允许请勿转载,若此文章存在违规行为，您可以联系管理员删除。

转载请注明本文地址：https://www.ucloud.cn/yun/10655.html

容器化管理平台存储那点事

摘要：机器配置主机名地址说明存储节点存储节点测试挂载的机器格式化和挂载磁盘主要目的就是将磁盘格式化为，作为的底层存储文件系统个节点都需要执行注意这个示例是以作为数据磁盘。以 Docker 为代表的容器技术在云计算领域正扮演着越来越重要的角色，甚至一度被认为是虚拟化技术的替代品。企业级的容器应用常常需要将重要的数据持久化，方便在不同容器间共享。为了能够持久化数据以及共享容器间的数据，Dock...

xcold 2019-06-28 15:47 评论0 收藏0
kubernetes1.17安装glusterfs

本文介绍了如何使用在最新kubernetes版本上安装glusterfs。官方源仓库master分支相关脚本无法部署成功，主要是由于kubernetes的版本发生了变化，一些beta版本的资源升至稳定版本，所以一些模板yaml文件需要修改，这些修改很多在issus中能够发现，目前还未合并到主分支，仍然需要手动修改。所以我Fork了源仓库，合并了这些这些修改。代码仓库地址为：gluster-k...

社区管理员 2022-10-08 14:01 评论0 收藏0
未来数据中心核心技术：RDMA在京东的应用

摘要：近日，由京东资源服务部组织的未来数据中心核心技术研讨会活动，在京东成功举办。京东在数据中心应用技术在数据中心中使用技术可以有几种方式。京东资源服务部负责人吕科在技术研讨活动中谈到目前京东微软的数据中心都在加强的使用。近日，由京东IT资源服务部组织的未来数据中心核心技术研讨会活动，在京东成功举办。活动邀请了京东人工智能，大数据，云计算团队的多位研发总监，技术骨干人员一同参与。在研讨会...

LittleLiByte 2019-06-21 15:59 评论0 收藏0
如何将深度学习训练速度提升一百倍？PAISoar 来了

摘要：概述近几年来深度学习发展迅速，图像处理语音识别等领域都取得了飞速发展。性能指标基于，深度神经网络模型的分布式训练性能提升明显。技术对于许多在大型数据集上训练的现代深度学习模型来说，基于数据并行的同步分布式训练是最合适的训练方法。阿里妹导读：得力于数据规模增长、神经网络结构的演进和计算能力的增强，深度学习的图像处理、语音识别等领域取得了飞速发展。随着训练数据规模和模型复杂度的不断增大...

Harriet666 2019-06-26 20:05 评论0 收藏0
如何将深度学习训练速度提升一百倍？PAISoar 来了

摘要：概述近几年来深度学习发展迅速，图像处理语音识别等领域都取得了飞速发展。性能指标基于，深度神经网络模型的分布式训练性能提升明显。技术对于许多在大型数据集上训练的现代深度学习模型来说，基于数据并行的同步分布式训练是最合适的训练方法。阿里妹导读：得力于数据规模增长、神经网络结构的演进和计算能力的增强，深度学习的图像处理、语音识别等领域取得了飞速发展。随着训练数据规模和模型复杂度的不断增大...

cpupro 2019-06-26 20:05 评论0 收藏0