集群管理笔记
来源:互联网 发布:抓取客户端数据工具 编辑:程序博客网 时间:2024/06/02 12:30
马总的博客:http://blog.sina.com.cn/casscf
每月1号记得去冲空调和换过滤网
1.管理日志
- 2013年11月份曙光高速存储节点多次无故断电,工程师多次上门没能解决,其中一次将主板进行了更换,也没有解决问题,最后将机器送到北京去进行检测,最终得到的结论是内存出了问题。据陶宁讲,很久之前也有一批机器莫名其妙地内存插上去就死机。
- 2014年1月15日上午化学楼停电。浪潮III未按正确开机顺序进行,导致/home没有挂载上,用批处理命令将所有节点重启,解决问题。正确的开机顺序:存储、主节点、子节点。曙光按电源开关后有以下节点没有开机成功:5,6,7,26,32,33,47,48,下次注意一下;新浪潮没有开机成功的有:1,6,21,27,30,31,39,50,53,59,61,63
- 曙光cu13年前不能挂载public2,因为之前ib卡坏过,我猜测也是这个原因,年后喊工程师过来检测,换插槽换线都没能解决问题,说明是ib卡坏了,于是2月17号封畅过来换了一个。后来cu09又连不上了,封畅又过来看了一下,判断是网卡坏了,将网线换到另一接口上就解决了,网卡坏了实际就是主板坏了。曙光客服在给我打回访电话时我顺便提到了这个事,于是后来封畅又打电话给我说有空让我报修一下,来把主板换了,好无语。。。。
- 2014年3月1号,袁相爱打电话给我说她和田子奇的帐号不能用高斯了,我看了一下,出现了-bash: /opt/Chem_soft/g09/g09.sh: Permission denied,应该是权限的问题,由于高斯软件的使用需要将用户都加入高斯组,所以就查看了一上用户组的情况,vi /etc/group,结果发现他们两人不在高斯组里,于是手动把他们加进去了,可然后还是不行,所以猜测是不是要把g09目录的权限设置一下,请教王亚强后把这个目录的权限设为了770,看了一下好像可以用了,也许是我幻觉了。第二天袁相爱又告诉我不能用了,后来就没辙了,马师兄也没有什么办法。正好王亚强和封畅要去南工大,说顺路就来帮我看看,结果发现是NIS的问题,将NIS同步一下之后问题就解决了。看来得好好学习一下NIS服务了。
- 2014年3月31号化学楼停电,曙光开机后又出现了和上次一样的情况,就是普通用户无法看到public2下面的文件
问题是public2的NIS没有开,可以登录cu102,执行"/etc/init.d/ypbind restart"解决,强哥建议我可以在主节点的rc.local文件中加入“ssh cu102 "/etc/init.d/ypbind restart"”这句就可以了。还有,正确的开机顺序是“先开磁盘阵列和102 101再开mu01 再开其他的”。
- 2014年5月,三楼机房空调两次没有hold住,导致机房温度极高,曙光和浪潮III的机器均出现报警。今天(6.4)新安装一台空调,将机器全部开启。但开机后出现identifier removed的提示,无法看到work_dir下面的文件,记得王亚强曾经教过我解决办法,要将NIS服务打开。具体是登录mds01节点,不过要用ssh,rsh不行,然后执行
service ypserv restart
service yppasswdd restart
这样就可以了。同时开机后发现无法登陆cu20、21、22-25,问题也是这些机器的NIS服务没有打开,执行
/etc/init.d/ypbind start
解决。不过cu32貌似没有开启成功,晚上去机房看一下是怎么回事。
2. 常用命令
- 修改登录提示:登录提示在 /etc/bashrc.sftp 或者 /etc/bashrc.notice 里面修改
- 查看当前目录下各目录的大小:du -h --max-depth=1
查看文件夹信息,并按修改时间排序:ls -lrt
- 批处理脚本:/root/clusterfork.sh 执行方式:./clusterfork.sh 1(起始节点号) "command"
附批处理脚本:
*********************************************************************************
#!/bin/bash# cluster deploy shell scriptdeclare -i loopindexloopindex=$1command=$2if [ -z "$command" ]; thenecho "Usage: ./clusterfork.sh <command>"exitfiwhile (( $loopindex<52 ))do#if [ $loopindex -eq 22 ];then#loopindex=$loopindex+1#fiif [ $loopindex -lt 10 ]; thentmpstring="cu0$loopindex"elsetmpstring="cu$loopindex"fiecho "Command in host : ********** $tmpstring **********"ssh $tmpstring $commandloopindex=$loopindex+1done
************************************************************************************
- 硬盘挂载:可以先进行分区(也可不进行,直接格式化):fdisk /dev/sdb
m for help,可根据提示进行操作,结束后记得按w,保存并退出。
然后将盘格式化:mkfs -t ext4 /dev/sdb 也可不输入文件格式,后面mount的时候再加。
挂载:mount [-t 文件系统] [-L label名] [-o 额外选项,如rw、ro等] /dev/*** 挂载点
小插曲:2014年1月16日,lsqc08的固态硬盘老是出现read-only file system的提示,后来以为是硬盘坏了,就换了一块,但是换了一块却看不到这个设备,后来拆开机箱看是里面有根线接反了,相同颜色的要和相同颜色的对在一起,以后在接线的时候要注意。
- 曙光远程控制开关机
ipmitool -I lan -H 10.0.0.5 -U ADMIN -P ADMIN chassis power on %实行开机操作
ipmitool -I lan -H 10.0.0.5 -U ADMIN -P ADMIN chassis power off %实行关机操作
ipmitool -I lan -H 10.0.0.5 -U ADMIN -P ADMIN chassis power status %检查机器电源状态
3.曙光帐户信息
曙光上的个别用户出现用户日期到期的情况(目前有你们组的徐莉娜),请给予修改。
采用的指令为 usermod 指令,需要加 expire 参数, 具体你自己查阅一下。
用法:chage [选项] 用户名
选项:
-d, --lastday 最近日期 将最近一次密码设置时间设为“最近日期”
-E, --expiredate 过期日期 将帐户过期时间设为“过期日期”
-h, --help 显示此帮助信息并退出
-I, --inactive 失效密码 将因过期而失效的密码设为“失效密码”
-l, --list 显示帐户年龄信息
-m, --mindays 最小天数 将两次改变密码之间相距的最小天数设为“最小天数”
-M, --maxdays 最大天数 将两次改变密码之间相距的最大天数设为“最大天数”
-W, --warndays 警告天数 将过期警告天数设为“警告天数”
常用方法:
[root@bigner ~]# chage -d 3000-08-08 forker
[root@bigner ~]# chage -M 5
[root@bigner ~]# chage -E 3000-08-08 forker
4. Inspur III开帐户命令
./myuseradd_itcc 组名 用户名
****************************************************************************************
附:myuseradd_itcc脚本的操作说明
#!/bin/bash % 切换到 bash-shelluseradd -g $1 -G gaussian $2 % 添加属于组$1和组gaussian的用户$2if [ $? != 0 ]thenexit 1fiecho "不告诉你" |passwd $2 --stdin % 初始密码gpasswd -a $2 usercd /var/yp % 更新NIS服务makeecho "NIS user $2 has been added.----------------------------------------------------passwd:不告诉你home: /home/$2----------------------------------------------------"su $2 -c "/opt/inspur/ssh/ssh-configure/step1.exp $2" % 此两段为节点间ssh免密码登录(mpi用到)echo " step1.exp is ok.------------------------------------- ########################50% ----------------------------------------------"su $2 -c "/opt/inspur/ssh/ssh-configure/step2.exp $2 不告诉你"echo "step2.exp is ok.mow you can use ssh for $2---------------------------------------------------- ################################################100% ----------------------------------------------------"mkdir -p /lustre/work_dir/$2 % 挂载缓存盘到用户根目录chown $2:$1 /lustre/work_dir/$2su $2 -c "ln -s /lustre/work_dir/$2 /home/$2/work_dir"sleep 1s;cat /root/bashrc.config > /home/$2/.bashrc % 软件以及编译器配置文件(bashrc.config)写入到各个用户配置文件chgrp $1 /home/$2/.bashrcchown $2 /home/$2/.bashrc
****************************************************************************************
5. ifort编译器安装完后的bash书写提示
To get started using Intel(R) Composer XE 2013 Update 3 located in
/opt/intel/composer_xe_2013.3.163:
- Set the environment variables for a terminal window using one of the following
(replace "intel64" with "ia32" if you are using a 32-bit platform).
For csh/tcsh:
$ source install-dir/bin/compilervars.csh intel64
For bash:
$ source install-dir/bin/compilervars.sh intel64
To invoke the installed compilers:
For Fortran: ifort
To get help, append the -help option or precede with the man command.
- To view a table of getting started documents:
install-dir/Documentation/en_US/get_started_lf.htm
install-dir/Documentation/ja_JP/get_started_lf.htm
6.集群开关机
- 用命令关机之后记得去机房检查一下,是否全部关闭,防止有些没有关闭,导致机房温度过高。
- 每次需将所有节点,包括主节点和存储都关闭,并关闭空调。
- 正确的开机顺序:存储、主节点、子节点。
- 开机之后可用以下语句检测哪些节点已经正确开启
for i in `seq 1 63`; do ssh 192.168.0.$i "hostname"; done
【转载】gaussview for Linux的安装
1 从纳米盘下载gaussview3.09 for Linux到个人的目录 # /home/xxx
2 解压下载的文件 tar -zxvf gv*.taz
3 修改init_gv.bash中的 export GV_DR='/home/xxxx/gv' # xxx改为gv所在目录
4 在终端输入: cat ~/gv/init_gv.bash >> ~/.bashrc 然后 source .bashrc
5 在终端输入:gv & 或者 gview & ,即可使用gaussview
6 如果出错,比如少了*.so.*文件,可以从rpm.pbone.net搜索相关rpm文件,下载后使用
rpm2cpio *.rpm | cpio -div 解压缩rpm文件,找到相关的*.so文件, sudo cp *.so.* 文件到/usr/lib
7 重复5、6直到能够成功运行gausview为止。
tips:运行gv时可能弹出找不到gaussian03的对话框,把gpath.txt文件中的目录修改为g03所在绝对目录,这样就不再弹出找不到gaussian03的对话框了。
From强哥:openmpi安装
- 集群管理笔记
- Fourinone学习笔记-集群管理
- Hbase 笔记(12) 集群管理
- 集群管理
- cacti性能优化笔记(面向大规模集群的监控管理)
- Ansible学习笔记--使用ansible管理windows集群
- HP-UX 集群管理
- Cassandra集群管理
- Zookeeper 集群管理应用
- 利用zookeeper管理集群
- hbase 集群管理脚本
- spark集群管理简述
- Hadoop集群管理
- 管理oracle集群组件
- 集群的session管理
- ubuntu集群管理
- zookeeper--分布式集群管理
- sequoiadb集群管理
- 用Java代码删除一个已排好序链表中重复的数字
- 基于V4L2 MFC 视频编解码
- ZOJ 2954 Hanoi Tower(模拟啊 )
- 一个程序员的慢慢爬坑之路吧。。
- JavaIO编程之ReadLine
- 集群管理笔记
- 一五年四月六日
- C语言初级语法终章--位运算
- 鱼眼相机
- windows访问Linux共享文件夹
- 更改默认pyyhon解释器
- 区间查询(树状数组之差点问线问题)
- php文件管理系统
- HTML中position的五种属性值