集群管理笔记

来源:互联网 发布:抓取客户端数据工具 编辑:程序博客网 时间:2024/06/02 12:30

马总的博客:http://blog.sina.com.cn/casscf

每月1号记得去冲空调和换过滤网


1.管理日志

  • 2013年11月份曙光高速存储节点多次无故断电,工程师多次上门没能解决,其中一次将主板进行了更换,也没有解决问题,最后将机器送到北京去进行检测,最终得到的结论是内存出了问题。据陶宁讲,很久之前也有一批机器莫名其妙地内存插上去就死机。
  • 2014年1月15日上午化学楼停电。浪潮III未按正确开机顺序进行,导致/home没有挂载上,用批处理命令将所有节点重启,解决问题。正确的开机顺序:存储、主节点、子节点。曙光按电源开关后有以下节点没有开机成功:5,6,7,26,32,33,47,48,下次注意一下;新浪潮没有开机成功的有:1,6,21,27,30,31,39,50,53,59,61,63
  • 曙光cu13年前不能挂载public2,因为之前ib卡坏过,我猜测也是这个原因,年后喊工程师过来检测,换插槽换线都没能解决问题,说明是ib卡坏了,于是2月17号封畅过来换了一个。后来cu09又连不上了,封畅又过来看了一下,判断是网卡坏了,将网线换到另一接口上就解决了,网卡坏了实际就是主板坏了。曙光客服在给我打回访电话时我顺便提到了这个事,于是后来封畅又打电话给我说有空让我报修一下,来把主板换了,好无语。。。。
  • 2014年3月1号,袁相爱打电话给我说她和田子奇的帐号不能用高斯了,我看了一下,出现了-bash: /opt/Chem_soft/g09/g09.sh: Permission denied,应该是权限的问题,由于高斯软件的使用需要将用户都加入高斯组,所以就查看了一上用户组的情况,vi /etc/group,结果发现他们两人不在高斯组里,于是手动把他们加进去了,可然后还是不行,所以猜测是不是要把g09目录的权限设置一下,请教王亚强后把这个目录的权限设为了770,看了一下好像可以用了,也许是我幻觉了。第二天袁相爱又告诉我不能用了,后来就没辙了,马师兄也没有什么办法。正好王亚强和封畅要去南工大,说顺路就来帮我看看,结果发现是NIS的问题,将NIS同步一下之后问题就解决了。看来得好好学习一下NIS服务了。
  • 2014年3月31号化学楼停电,曙光开机后又出现了和上次一样的情况,就是普通用户无法看到public2下面的文件

    

    问题是public2的NIS没有开,可以登录cu102,执行"/etc/init.d/ypbind restart"解决,强哥建议我可以在主节点的rc.local文件中加入“ssh cu102 "/etc/init.d/ypbind restart"”这句就可以了。还有,正确的开机顺序是“先开磁盘阵列和102 101再开mu01  再开其他的”。

  • 2014年5月,三楼机房空调两次没有hold住,导致机房温度极高,曙光和浪潮III的机器均出现报警。今天(6.4)新安装一台空调,将机器全部开启。但开机后出现identifier removed的提示,无法看到work_dir下面的文件,记得王亚强曾经教过我解决办法,要将NIS服务打开。具体是登录mds01节点,不过要用ssh,rsh不行,然后执行

service ypserv restart 
  service yppasswdd restart 

       这样就可以了。同时开机后发现无法登陆cu20、21、22-25,问题也是这些机器的NIS服务没有打开,执行

/etc/init.d/ypbind start

解决。不过cu32貌似没有开启成功,晚上去机房看一下是怎么回事。



2. 常用命令 

  • 修改登录提示:登录提示在 /etc/bashrc.sftp 或者 /etc/bashrc.notice 里面修改
  • 查看当前目录下各目录的大小:du -h --max-depth=1

     查看文件夹信息,并按修改时间排序:ls -lrt

  • 批处理脚本:/root/clusterfork.sh       执行方式:./clusterfork.sh 1(起始节点号) "command"

附批处理脚本:

*********************************************************************************

#!/bin/bash# cluster deploy shell scriptdeclare -i loopindexloopindex=$1command=$2if [ -z "$command" ]; thenecho "Usage: ./clusterfork.sh <command>"exitfiwhile (( $loopindex<52 ))do#if [ $loopindex -eq 22 ];then#loopindex=$loopindex+1#fiif [ $loopindex -lt 10 ]; thentmpstring="cu0$loopindex"elsetmpstring="cu$loopindex"fiecho "Command in host : ********** $tmpstring **********"ssh $tmpstring $commandloopindex=$loopindex+1done


************************************************************************************

  • 硬盘挂载:可以先进行分区(也可不进行,直接格式化):fdisk /dev/sdb

                                                                          m for help,可根据提示进行操作,结束后记得按w,保存并退出。

                         然后将盘格式化:mkfs -t ext4 /dev/sdb  也可不输入文件格式,后面mount的时候再加。

                         挂载:mount [-t 文件系统]  [-L label名] [-o 额外选项,如rw、ro等] /dev/*** 挂载点

    小插曲:2014年1月16日,lsqc08的固态硬盘老是出现read-only file system的提示,后来以为是硬盘坏了,就换了一块,但是换了一块却看不到这个设备,后来拆开机箱看是里面有根线接反了,相同颜色的要和相同颜色的对在一起,以后在接线的时候要注意。

  • 曙光远程控制开关机

       ipmitool -I lan -H 10.0.0.5 -U ADMIN -P ADMIN chassis power on    %实行开机操作

       ipmitool -I lan -H 10.0.0.5 -U ADMIN -P ADMIN chassis power off    %实行关机操作

       ipmitool -I lan -H 10.0.0.5 -U ADMIN -P ADMIN chassis power status    %检查机器电源状态


3.曙光帐户信息

曙光上的个别用户出现用户日期到期的情况(目前有你们组的徐莉娜),请给予修改。

采用的指令为 usermod 指令,需要加 expire 参数, 具体你自己查阅一下。

       用法:chage [选项] 用户名

       选项:
      -d, --lastday 最近日期 将最近一次密码设置时间设为“最近日期” 
      -E, --expiredate 过期日期 将帐户过期时间设为“过期日期” 
      -h, --help 显示此帮助信息并退出 
      -I, --inactive 失效密码 将因过期而失效的密码设为“失效密码” 
      -l, --list 显示帐户年龄信息 
      -m, --mindays 最小天数 将两次改变密码之间相距的最小天数设为“最小天数” 
      -M, --maxdays 最大天数 将两次改变密码之间相距的最大天数设为“最大天数” 
      -W, --warndays 警告天数 将过期警告天数设为“警告天数” 

       常用方法:  
      [root@bigner ~]# chage -d 3000-08-08 forker 
      [root@bigner ~]# chage -M 5  
      [root@bigner ~]# chage -E 3000-08-08 forker


4. Inspur III开帐户命令

   ./myuseradd_itcc 组名 用户名

****************************************************************************************

附:myuseradd_itcc脚本的操作说明

#!/bin/bash                                        % 切换到 bash-shelluseradd -g $1 -G gaussian $2           % 添加属于组$1和组gaussian的用户$2if [ $? != 0 ]thenexit 1fiecho "不告诉你" |passwd $2 --stdin     % 初始密码gpasswd -a $2 usercd /var/yp                                           % 更新NIS服务makeecho "NIS user $2 has been added.----------------------------------------------------passwd:不告诉你home:  /home/$2----------------------------------------------------"su $2 -c "/opt/inspur/ssh/ssh-configure/step1.exp $2"           % 此两段为节点间ssh免密码登录(mpi用到)echo " step1.exp is ok.------------------------------------- ########################50% ----------------------------------------------"su $2 -c "/opt/inspur/ssh/ssh-configure/step2.exp $2 不告诉你"echo "step2.exp is ok.mow you can use ssh for $2---------------------------------------------------- ################################################100% ----------------------------------------------------"mkdir -p /lustre/work_dir/$2 %  挂载缓存盘到用户根目录chown $2:$1 /lustre/work_dir/$2su $2 -c "ln -s  /lustre/work_dir/$2 /home/$2/work_dir"sleep 1s;cat /root/bashrc.config > /home/$2/.bashrc        % 软件以及编译器配置文件(bashrc.config)写入到各个用户配置文件chgrp $1 /home/$2/.bashrcchown $2 /home/$2/.bashrc


****************************************************************************************


5. ifort编译器安装完后的bash书写提示

To get started using Intel(R) Composer XE 2013 Update 3 located in

/opt/intel/composer_xe_2013.3.163: 

- Set the environment variables for a terminal window using one of the following

  (replace "intel64" with "ia32" if you are using a 32-bit platform).

     For csh/tcsh:

        $ source install-dir/bin/compilervars.csh intel64

     For bash:

        $ source install-dir/bin/compilervars.sh intel64

     To invoke the installed compilers:

        For Fortran: ifort

  To get help, append the -help option or precede with the man command.

- To view a table of getting started documents: 

  install-dir/Documentation/en_US/get_started_lf.htm

  install-dir/Documentation/ja_JP/get_started_lf.htm


6.集群开关机

  • 用命令关机之后记得去机房检查一下,是否全部关闭,防止有些没有关闭,导致机房温度过高。
  • 每次需将所有节点,包括主节点和存储都关闭,并关闭空调。
  • 正确的开机顺序:存储、主节点、子节点。
  • 开机之后可用以下语句检测哪些节点已经正确开启

       for i in `seq 1 63`; do ssh 192.168.0.$i "hostname"; done

【转载】gaussview for Linux的安装

1 从纳米盘下载gaussview3.09 for Linux到个人的目录 # /home/xxx
2 解压下载的文件   tar -zxvf gv*.taz
3 修改init_gv.bash中的 export GV_DR='/home/xxxx/gv' # xxx改为gv所在目录
4 在终端输入: cat ~/gv/init_gv.bash >> ~/.bashrc 然后 source .bashrc
5 在终端输入:gv & 或者 gview & ,即可使用gaussview
6 如果出错,比如少了*.so.*文件,可以从rpm.pbone.net搜索相关rpm文件,下载后使用
   rpm2cpio *.rpm | cpio -div 解压缩rpm文件,找到相关的*.so文件, sudo cp *.so.* 文件到/usr/lib
7 重复5、6直到能够成功运行gausview为止。

tips:运行gv时可能弹出找不到gaussian03的对话框,把gpath.txt文件中的目录修改为g03所在绝对目录,这样就不再弹出找不到gaussian03的对话框了。


From强哥:openmpi安装

0 0
原创粉丝点击