torque安装笔记

来源:互联网 发布:scboy淘宝店 编辑:程序博客网 时间:2024/06/09 17:19

 

最近做计算中心的网络管理员,学习了高性能计算作业提交系统

 

现在单位又进来了27台pc电脑,正好验证一下学习效果。

 

废话少说,下面开始讲解如何安装一个作业提交作业系统

 

以有名的开源软件torque为例,主要分以下步骤。

 

 

(部分地址失效:要脚本的请留言)

 

配置网络:

机器第一启动全部采用网络启动

 

我采用单位的高性能计算服务器主机做为dhcp服务器

由dhcp服务器做启动控制服务器

dhcp服务器的配置如下

 

dhcp.conf

 

由 pxelinux控制进入Linux系统

修改为固定IP:

进入yast2

根据dhcp固定IP,修改网卡为固定IP,增加默认路由和DNS

 

 

修改机器名:

 

进入yast2
修改机器名为 pcserver,pc01,pc02.......pc26              //如果有更多机器,请参照此
所有机器修改完毕后修改/etc/hosts                             //内容如下,...表示省略。
..............................................................................
192.168.2.40    pcserver
192.168.2.40    pcserver.rcac.xhu.edu.cn
192.168.2.41    pc01     pc01.rcac.xhu.edu.cn
...
...
192.168.2.65    pc25     pc25.rcac.xhu.edu.cn
...

...............................................................................

 

安装ssh:

chkconfig -add sshd
service sshd start

配置无密码访问:

1:
将下面的文件放入 /etc/profile.d/ ,
ssh-auto-keygen.sh
ssh-auto-keygen.csh
用ssh 登入系统,此处假定用户为root
自动生成/home/root/authorized_keys2文件
2:
重复上面的步骤,在每个机器上生成root用户的authorized_keys2文件
3:收集所有机器的authorized_keys2文件内容
......................................................................................................................................................
pcserver:~/.ssh # cat authorized_keys2 > /tmp/newfile
pcserver:~/.ssh # ssh pc01
pc01:~ #  cd .ssh && cp pcserver:/tmp/newfile /tmp && cat authorized_keys2 >> /tmp/newfile
pc01:~/.ssh # ssh pc02
...
...
pc25:~ #cd .ssh && cp pc24 :/tmp/newfile /tmp && cat authorized_keys2 >> /tmp/newfile
pc26:~ #cd .ssh && cp pc25:/tmp/newfile /tmp && cat authorized_keys2 >> /tmp/newfile
pc26:~ #cd /tmp && mv newfile authorized_keys2
4:收集knownhosts
在pcserver上执行
ssh pc01
exit
ssh pc02
exit
...
...
ssh pc25
exit
...
exit
ssh pcserver
收集knownhosts
5. 拷贝收集到的knownhosts和authorized_keys2文件到所有root用户.ssh目录
注意:以上步骤中登录机器需要输入yes和密码,authorized_keys2文件和knownhosts文件在用户目录的.ssh目录中。

下载torque:

下载地址  http://www.clusterresources.com/downloads/torque/torque-2.4.3.tar.gz

安装 torque管理结点:

在pcserver上安装torque
编译
..........................................................................
cd /tmp
tar xzvf torque-2.4.3.tar.gz
cd torque-2.4.3
mkdir build
cd build
../configure --prefix=/opt/torque
make
make install
...........................................................................
设置环境变量
..........................................................................
vi /etc/profile.local
#for torque
PATH=$PATH:/opt/torque/bin:/opt/torque/sbin
export PATH
MANPATH=$MANPATH:/opt/torque/man
export MANPATH
...........................................................................
配置服务器
.............................................................................
./torque.setup root                      //root用户做管理
cd /var/spool/torque/server_priv
vi nodes
........................
pcserver
pc01
pc02
...                                               //nodes内容
pc25
pc26
........................
cd /var/spool/torque/mom_priv
vi config
.................................
$pbsserver pcserver
$logevent 255                            //config内容
.................................
启动服务:
............................................................................
pbs_mom -c /var/spool/torque/mom_priv/config
qterm -t quick
pbs_server
pbs_sched
.............................................................................

安装torque计算结点:

 

在服务器编译目录生成计算结点包(注意:如果客户机与服务器机硬件不同,请重新在客户机编译)
make pakages

 

将上一步 make pakages
生成的torque-package-mom-linux-i686.sh 和 torque-package-clients-linux-i686.sh
拷贝到计算结点上 运行
./torque-package-mom-linux-i686.sh --install
./torque-package-clients-linux-i686.sh --install
libtool --finish /opt/torque/lib
设置环境变量
..........................................................................
vi /etc/profile.local
#for torque
PATH=$PATH:/opt/torque/bin:/opt/torque/sbin
export PATH
MANPATH=$MANPATH:/opt/torque/man
export MANPATH
...........................................................................
检查服务器名字
cd /var/spool/torque/
less servername
修改配置
cd /var/spool/torque/mom_priv
vi config
...................................
$pbsserver pcserver
$logevent 255
...................................
运行pbs_mom
/usr/local/sbin/pbs_mom -c /var/spool/torque/mom_priv/config

安装所有其他计算结点

新建一个文件:install_clients,内容如下:

........................................................................................

#!/bin/sh
mount node8:/softwareBAK/temp /mnt              //node8为共享了nfs的dhcp服务器,temp中是刚才的make package文件。
cd /mnt
./torque-package-clients-linux-i686.sh --install
./torque-package-mom-linux-i686.sh --install
scp pcserver:/etc/profile.local /etc
libtool --finish /opt/torque/lib
cd /var/spool/torque/mom_priv
scp pcserver:/var/spool/torque/mom_priv/config .
/opt/torque/sbin/pbs_mom -c config
..........................................................................................
chmod +x install_clients
拷贝到其他结点
.................................................
scp install_clients pc01:/tmp
scp install_clients pc02:/tmp
...
scp install_clients pc26:/tmp
...............................................
在所有结点上运行安装。
..................................
ssh pc01
cd /tmp
./install_clients
exit 
ssh pc02
cd /tmp
./install_clients
...
...
...
ssh pc26
cd /tmp
./install_clients
.......................................

测试安装成功与否:

登录pcserver

pcserver:~ # echo “sleep 30” |qsub

pcserver:~ # echo “sleep 30” |qsub

pcserver:~ # echo “sleep 30” |qsub

pcserver:~ # qstat


最后的配置

pcserver:~ # qmgr -c "set server submit_hosts=pcserver"                                                    

pcserver:/home/torque-2.4.3 #cp contrib/init.d/suse.pbs_mom /etc/init.d/pbs_server

pcserver:/home/torque-2.4.3 #cp contrib/init.d/suse.pbs_mom /etc/init.d/pbs_mom

pcserver:/home/torque-2.4.3 #cp contrib/init.d/suse.pbs_sched /etc/init.d/pbs_sched

pcserver:/home/torque-2.4.3 #chkconfig -add pbs_server

pcserver:/home/torque-2.4.3 #chkconfig -add pbs_mom

pcserver:/home/torque-2.4.3 #chkconfig -add pbs_sched

pcserver:/home/torque-2.4.3 #chkconfig -e

 

修改pbs_server pbs_mom pbs_sched 为 on

 

本文参考:

 

torque安装:http://www.91linux.com/html/article/guanli/20090617/17161.html

 

torque主页:http://www.clusterresources.com/

 

 

原创粉丝点击