Ceph常用命令

ceph df #查看ceph存储空间

ceph auth list #查看ceph集群中的认证用户及相关的key

ceph mon stat#查看mon的状态信息

ceph mon dump#查看你ceph映射信息

ceph mon remove node1 #删除一个mon节点  ceph-deploy mon destroy {host-name [host-name]…}

ceph mon add node1 node1_ip #添加一个mon节点  ceph-deploy mon create {host-name [host-name]…}

mon节点的/var/lib/ceph/mon/ceph-node2/store.db文件内容一致,添加mon注意先改配置目录配置文件,再推送到所有节点

ceph-deploy –overwrite-conf config push  node1 node2 node3

ceph mds stat #查看msd状态

ceph mds dump #msd的映射信息

ceph mds rm 0 mds.node1#删除一个mds节点

ceph-deploy mds create {host-name}[:{daemon-name}] [{host-name}[:{daemon-name}] …]

ceph osd stat #查看osd状态

ceph osd dump #osd的映射信息

ceph osd tree#查看osd目录树

ceph osd down 0   #down掉osd.0节点

ceph osd rm 0#集群删除一个osd硬盘

ceph osd crush remove osd.4#删除标记

ceph osd getmaxosd#查看最大osd个数

ceph osd setmaxosd 10#设置osd的个数

ceph osd out osd.3#把一个osd节点逐出集群

ceph osd in osd.3#把逐出的osd加入集群

ceph osd pause#暂停osd (暂停后整个集群不再接收数据)

ceph osd unpause#再次开启osd (开启后再次接收数据)

ceph pg stat#查看pg状态

ceph pg dump#查看pg组的映射信息

ceph pg map 0.3f#查看一个pg的map

ceph pg  0.26 query#查看pg详细信息

ceph pg dump –format plain#显示一个集群中的所有的pg统计

ceph osd lspools#查看ceph集群中的pool数量

ceph osd pool create jiayuan 100#创建一个pool  这里的100指的是PG组

ceph osd pool delete jiayuan  jiayuan  –yes-i-really-really-mean-it  #集群名字需要重复两次

rados df#显示集群中pool的详细信息

ceph osd pool get data pg_num  #查看data池的pg数量

ceph osd pool set data target_max_bytes 100000000000000#设置data池的最大存储空间为100T(默认是1T)

ceph osd pool set data size 3  #设置data池的副本数是3

ceph osd pool set data min_size 2 #设置data池能接受写操作的最小副本为2

ceph osd pool set data pg_num 100#设置一个pool的pg数量

ceph osd pool set data pgp_num 100#设置一个pool的pgp数量

rados lspools#查看ceph集群中有多少个pool (只是查看pool)

rados df #查看ceph集群中有多少个pool,并且每个pool容量及利用情况

rados mkpool test#创建一个pool

rados create test-object -p test#创建一个对象object

rados rm test-object-1 -p test#删除一个对象object

rados -p test ls

rbd ls pool_name#查看ceph中一个pool里的所有镜像

rbd info -p pool_name –image 74cb427c-cee9-47d0-b467-af217a67e60a #查看ceph pool中一个镜像的信息

rbd create -p test –size 10000 zhanguo#在test池中创建一个命名为zhanguo的10000M的镜像

rbd rm  -p test  lizhanguo #删除一个镜像

rbd resize -p test –size 20000 zhanguo  #调整一个镜像的尺寸

ceph-deploy disk zap {osd-server-name}:{disk-name}   #擦净磁盘

ceph-deploy osd prepare {node-name}:{disk}[:{path/to/journal}]

ceph-deploy osd prepare osdserver1:sdb:/dev/ssd1

ceph-deploy osd activate {node-name}:{path/to/disk}[:{path/to/journal}]

ceph-deploy osd activate osdserver1:/dev/sdb1:/dev/ssd1

把改过的配置文件分发给集群内各主机

ceph-deploy config push {host-name [host-name]…}

ceph osd getcrushmap -o MAP   #获取一个CRUSH映射

crushtool -d MAP -o MAP.TXT   #反编译一个CRUSH映射

crushtool -c MAP.TXT -o MAP   #编译一个CRUSH映射

ceph osd setcrushmap -i MAP    #设置一个CRUSH映射

cept mon dump #查看监控映射

cept osd dump  #查看一个OSD映射

ceph mds dump  #要查看MDS映射

ceph -w         #查看集群正在发生的事件

ceph health或ceph -s或ceph status #查看集群健康状态

块设备的一些命令

单位为M,默认在rbd pool中

创建块设备:rbd create {image-name}  –size {megabytes}  –pool {pool-name}

列出块设备:rbd ls {poolname} -l

检索块信息:rbd –image {image-name} info

更改块大小:rbd resize –image {image-name} –size {megabytes}

删除块设备:rbd rm {image-name}

映射块设备:rbd map {image-name} –pool {pool-name} –id {user-name}

查看已映射块设备:rbd showmapped

取消映射:rbd unmap /dev/rbd/{poolname}/{imagename}

快照和克隆相关命令

创建快照:

rbd –pool {pool-name} snap create –snap {snap-name} {image-name}

rbd snap create {pool-name}/{image-name}@{snap-name}

快照回滚:

rbd –pool {pool-name} snap rollback –snap {snap-name} {image-name}

rbd snap rollback {pool-name}/{image-name}@{snap-name}

清除快照:

rbd –pool {pool-name} snap purge {image-name}

rbd snap purge {pool-name}/{image-name}

删除快照:

rbd –pool {pool-name} snap rm –snap {snap-name} {image-name}

rbd snap rm {pool-name}/{image-name}@{snap-name}

列出快照:

rbd –pool {pool-name} snap ls {image-name}

rbd snap ls {pool-name}/{image-name}

保护快照:

rbd –pool {pool-name} snap protect –image {image-name} –snap {snapshot-name}

rbd snap protect {pool-name}/{image-name}@{snapshot-name}

取消保护快照:

rbd –pool {pool-name} snap unprotect –image {image-name} –snap {snapshot-name}

rbd snap unprotect {pool-name}/{image-name}@{snapshot-name}

快照克隆

rbd clone {pool-name}/{parent-image}@{snap-name} {pool-name}/{child-image-name}

查看快照的克隆

rbd –pool {pool-name} children –image {image-name} –snap {snap-name}

rbd children {pool-name}/{image-name}@{snapshot-name}

快照克隆相关例子:

创建快照:rbd  snap create vms/yjk01@yjk01_s1

列出快照:rbd snap list  –pool vms yjk01

快照回滚:rbd snap rollback vms/yjk01@yjk01_s1(先卸载已挂载目录)

删除快照:rbd snap rm vms/yjk01@yjk01_s2(单个)

清除快照:rbd snap purge vms/yjk01(所有)

保护快照:rbd snap protect vms/yjk01@yjk01_s1

取消保护:rbd snap unprotect vms/yjk01@yjk01_s1

快照克隆:rbd clone vms/yjk01@yjk01_s3 vms/yjk01_s3_clone1

查看克隆:rbd children vms/yjk01@yjk01_s3

克隆只能基于快照,并且只能快照处于保护状态,而且ceph仅支持克隆format 2映像。

无法删除image报rbd: error: image still has watchers解决方法

解决思路:

在Ceph集群日常运维中,管理员可能会遇到有的image删除不了的情况:
1) 由于image下有快照信息,只需要先将快照信息清除,然后再删除该image即可
2) 该image仍旧被一个客户端在访问,具体表现为该image中有watcher。如果该客户端异常了,那么就会出现无法删除该image的情况

对于第一种情况,很好解决,下面要说的是第二种情况该如何解决。解决之前先科普一下watcher相关的知识:
Ceph中有一个watch/notify机制(粒度是object),它用来在不同客户端之间进行消息通知,使得各客户端之间的状态保持一致,而每一个进行watch的客户端,对于Ceph集群来说都是一个watcher。

解决方法:

1. 查看当前image上的watcher

查看方法一:

[root@node3 ~]# rbd status foo
watcher=192.168.197.157:0/1135656048 client.4172 cookie=1

这种查看方法简单快捷,值得推荐

查看方法二:

1) 首先找到image的header对象

[root@node3 ~]# rbd info foo
rbd image 'foo':
        size 1024 MB in 256 objects
        order 22 (4096 kB objects)
        block_name_prefix: rbd_data.1041643c9869
        format: 2
        features: layering
        flags: 
        create_timestamp: Tue Oct 17 10:20:50 2017

由该image的block_name_prefix为 rbd_data.1041643c9869,可知该image的header对象为rbd_header.1041643c9869,得到了header对象后,查看watcher信息

2) 查看该image的header对象上的watcher信息

[root@node3 ~]# rados -p rbd listwatchers rbd_header.1041643c9869
watcher=192.168.197.157:0/1135656048 client.4172 cookie=1

2. 删除image上的watcher

2.1 把该watcher加入黑名单:

[root@node3 ~]# ceph osd blacklist add 192.168.197.157:0/1135656048 
blacklisting 192.168.197.157:0/1135656048 until 2017-10-18 12:04:19.103313 (3600 sec)

2.2 查看占用该image的watcher:

[root@node3 ~]# rados -p rbd listwatchers  rbd_header.1041643c9869
[root@node3 ~]# 

异常客户端的watcher信息已经不存在了,之后我们就可以对该image进行删除操作了

2.3 删除该image:

[root@node3 ~]# rbd rm foo
Removing image: 100% complete...done.

3. 后续操作

实际上做完上面的已经解决了问题,不过最好还是把加入黑名单的客户端移除,下面是有关黑名单的相关操作

3.1 查询黑名单列表:

[root@node3 ~]# ceph osd blacklist ls
listed 1 entries
192.168.197.157:0/1135656048 2017-10-18 12:04:19.103313

3.2 从黑名单移出一个客户端:

[root@node3 ~]# ceph osd blacklist rm 192.168.197.157:0/1135656048 
un-blacklisting 192.168.197.157:0/1135656048

3.3 清空黑名单:

[root@node3 ~]# ceph osd blacklist clear
 removed all blacklist entries