computing-offload/qtfs/doc/无感卸载部署指导.md
Yikun Jiang a68570b5d9 Add computing offloading code
1. Add computing offloading code
2. Add script.md
3. Add virsh_demo.xml

Change-Id: Id9ef883e2f0eb727eb5448b9d1c47767f46b1021
Signed-off-by: Yikun Jiang <yikunkero@gmail.com>
2023-10-23 19:29:57 +08:00

166 lines
8.8 KiB
Markdown
Raw Permalink Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

# 容器管理面无感卸载部署指导
> ![](./public_sys-resources/icon-note.gif)**说明**
>
> 本指导涉及对容器管理面组件的少量改动和rexec工具修改这些修改基于指定版本其他版本可基于实际执行环境做适配修改。文档中提供的patch仅供验证指导使用不具备实际商用的条件。
> ![](./public_sys-resources/icon-note.gif)**说明**
>
> 当前共享文件系统之间通信通过网络完成可通过网络互连的两台物理机器或VM模拟验证。
>
> 建议用户验证前先搭建可正常使用的kubernetes集群和容器运行环境针对其中单个节点的管理面进程进行卸载验证卸载环境DPU可选择一台具备网络连接的物理机或VM。
## 简介
容器管理面即kubernetes、dockerd、containerd、isulad等容器的管理工具而容器管理面卸载即是将容器管理面卸载到与容器所在机器以下称为HOST之外的另一台机器当前场景下是指DPU一个具备独立运行环境的硬件集合上运行。
我们使用共享文件系统qtfs将HOST上与容器运行相关的目录挂载到DPU上使得容器管理面工具运行在DPU可以访问到这些目录并为容器运行在HOST准备运行所需要的环境此处因为需要挂载远端的proc和sys等特殊文件系统所以我们创建了一个专门的rootfs以作为kubernetes、dockerd的运行环境以下称为`/another_rootfs`)。
并且通过rexec执行容器的拉起、删除等操作使得可以将容器管理面和容器分离在不同的两台机器上远程对容器进行管理。
## 相关组件补丁介绍
#### rexec介绍
rexec是一个用go语言开发的远程执行工具基于docker/libchan下的[rexec](https://github.com/docker/libchan/tree/master/examples/rexec)示例工具改造而成实现远程调用远端二进制的功能为方便使用在rexec中增加了环境变量传递和监控原进程退出等能力。
rexec工具的具体使用方式为在服务器端用`CMD_NET_ADDR=tcp://0.0.0.0:<端口号> rexec_server`的方式拉起rexec服务进程然后在客户端用`CMD_NET_ADDR=tcp://<服务端ip>:<端口号> rexec [要执行的指令] `的方式启动便可以调用rexec_server执行需要执行的指令并等待指令执行结果返回。
#### dockerd相关改动介绍
对dockerd的改动基于18.09版本。
在containerd中暂时注释掉了通过hook调用libnetwork-setkey的部分此处不影响容器的拉起。并且为了docker load的正常使用注释掉了在mounter_linux.go 中mount函数中一处错误的返回。
最后,因为在容器管理面的运行环境中,将`/proc`挂在了服务端的proc文件系统而本地的proc文件系统则挂载在了`/local_proc`所以dockerd以及containerd中的对`/proc/self/xxx`或者`/proc/getpid()/xxx`或者相关的文件系统访问的部分,我们统统将`/proc`改为了`/local_proc`
#### containerd相关改动介绍
对于containerd的改动基于containerd-1.2-rc.1版本。
在获取mountinfo时因为`/proc/self/mountinfo`只能获取到dockerd本身在本地的mountinfo而无法获取到服务端的mountinfo所以将其改为了`/proc/1/mountinfo`使其通过获取服务端1号进程mountinfo的方式得到服务端的mountinfo。
在contaienrd-shim中将与containerd通信的unix socket改为了用tcp通信containerd通过`SHIM_HOST`环境变量获取containerd-shim所运行环境的ip即服务端ip。用shim的哈希值计算出一个端口号并以此作为通信的端口来拉起containerd-shim.
并且将原来的通过系统调用给contaienr-shim发信号的方式改为了通过远程调用kill指令的方式向shim发信号确保了docker杀死容器的行为可以正确的执行。
#### kubernetes相关改动介绍
kubelet暂不需要功能性改动可能会遇到容器QoS管理器首次设置失败的错误该错误不影响后续Pods拉起流程暂时忽略该报错。
## 容器管理面卸载操作指南
在服务器端和客户端都要拉起rexec_server。服务器端拉起rexec_server主要是用于客户端创建容器时用rexec拉起containerd-shim而客户端拉起rexec_server则是为了执行containerd-shim对dockerd和containerd的调用。
#### 服务器端
创建容器管理面所需要的文件夹然后插入qtfs_server.ko并拉起engine进程。
此外在服务器端还需要创建rexec脚本/usr/bin/dockerd.
``` shell
#!/bin/bash
CMD_NET_ADDR=tcp://<客户端ip>:<rexec端口号> rexec /usr/bin/dockerd $*
```
#### 客户端
需要准备一个rootfs作为dockerd与containerd的运行环境通过如下的脚本将dockerd、containerd所需要的服务端目录挂载到客户端。并且需要确保在以下脚本中被挂载的远程目录在服务端和客户端都存在。
``` shell
#!/bin/bash
mkdir -p /another_rootfs/var/run/docker/containerd
iptables -t nat -N DOCKER
echo "---------insmod qtfs ko----------"
insmod /YOUR/QTFS/PATH/qtfs.ko qtfs_server_ip=<服务端ip> qtfs_log_level=INFO
# chroot环境内的proc使用DPU的proc共享文件系统替换需要将本机真实proc文件系统挂载到local_proc下使用
mount -t proc proc /another_rootfs/local_proc/
# 将chroot内环境与外部环境bind方便进行配置和运行
mount --bind /var/run/ /another_rootfs/var/run/
mount --bind /var/lib/ /another_rootfs/var/lib/
mount --bind /etc /another_rootfs/etc
mkdir -p /another_rootfs/var/lib/isulad
# 在chroot环境内创建并挂载dev、sys和cgroup文件系统
mount -t devtmpfs devtmpfs /another_rootfs/dev/
mount -t sysfs sysfs /another_rootfs/sys
mkdir -p /another_rootfs/sys/fs/cgroup
mount -t tmpfs tmpfs /another_rootfs/sys/fs/cgroup
list="perf_event freezer files net_cls,net_prio hugetlb pids rdma cpu,cpuacct memory devices blkio cpuset"
for i in $list
do
echo $i
mkdir -p /another_rootfs/sys/fs/cgroup/$i
mount -t cgroup cgroup -o rw,nosuid,nodev,noexec,relatime,$i /another_rootfs/sys/fs/cgroup/$i
done
## common system dir
mount -t qtfs -o proc /proc /another_rootfs/proc
echo "proc"
mount -t qtfs /sys /another_rootfs/sys
echo "cgroup"
# 挂载容器管理面所需要的共享目录
mount -t qtfs /var/lib/docker/containers /another_rootfs/var/lib/docker/containers
mount -t qtfs /var/lib/docker/containerd /another_rootfs/var/lib/docker/containerd
mount -t qtfs /var/lib/docker/overlay2 /another_rootfs/var/lib/docker/overlay2
mount -t qtfs /var/lib/docker/image /another_rootfs/var/lib/docker/image
mount -t qtfs /var/lib/docker/tmp /another_rootfs/var/lib/docker/tmp
mkdir -p /another_rootfs/run/containerd/io.containerd.runtime.v1.linux/
mount -t qtfs /run/containerd/io.containerd.runtime.v1.linux/ /another_rootfs/run/containerd/io.containerd.runtime.v1.linux/
mkdir -p /another_rootfs/var/run/docker/containerd
mount -t qtfs /var/run/docker/containerd /another_rootfs/var/run/docker/containerd
mount -t qtfs /var/lib/kubelet/pods /another_rootfs/var/lib/kubelet/pods
```
在/another_rootfs中需要创建以下脚本用来支持部分跨主机操作。
* /another_rootfs/usr/local/bin/containerd-shim
``` shell
#!/bin/bash
CMD_NET_ADDR=tcp://<服务端ip>:<rexec端口号> /usr/bin/rexec /usr/bin/containerd-shim $*
```
* /another_rootfs/usr/local/bin/remote_kill
``` shell
#!/bin/bash
CMD_NET_ADDR=tcp://<服务端ip>:<rexec端口号> /usr/bin/rexec /usr/bin/kill $*
```
* /another_rootfs/usr/sbin/modprobe
``` shell
#!/bin/bash
CMD_NET_ADDR=tcp://<服务端ip>:<rexec端口号> /usr/bin/rexec /usr/sbin/modprobe $*
```
在chroot到dockerd和containerd运行所需的rootfs后用如下的命令拉起dockerd和containerd
* containerd
``` shell
#!/bin/bash
SHIM_HOST=<服务端ip> containerd --config /var/run/docker/containerd/containerd.toml --address /var/run/containerd/containerd.sock
```
* dockerd
``` shell
#!/bin/bash
SHIM_HOST=<服务端ip> CMD_NET_ADDR=tcp://<服务端ip>:<rexec端口号> /usr/bin/dockerd --containerd /var/run/containerd/containerd.sock
```
* kubelet
在chroot环境内使用原参数拉起kubelet即可。
因为我们已经将/var/run/和/another_rootfs/var/run/绑定在了一起所以可以在正常的rootfs下通过docker来访问docker.sock接口进行容器管理。
至此完成容器管理面卸载到DPU可以通过docker相关操作进行容器创建、删除等操作也可以通过kubectl在当前节点进行pods调度和销毁且实际容器业务进程运行在HOST侧。
> ![](./public_sys-resources/icon-note.gif)**说明**
>
> 本指导所述操作只涉及容器管理面进程卸载不包含容器网络和数据卷volume等卸载如有相关需求需要通过额外的网络或存储卸载能力支持。本指导支持不带网络和存储的容器跨节点拉起。