加载中…
个人资料
qwanwan
qwanwan
  • 博客等级:
  • 博客积分:0
  • 博客访问:17,060
  • 关注人气:16
  • 获赠金笔:0支
  • 赠出金笔:0支
  • 荣誉徽章:
相关博文
推荐博文
谁看过这篇博文
加载中…
正文 字体大小:

[转载]MS常见的几种出错信息

(2013-04-01 11:24:56)
标签:

转载

分类: MS
原文地址:MS常见的几种出错信息作者:大卡

对于初学者而已,面上的常见的出错信息有以下几种:

1、安装问题

主要是LICENSE

 

2GATEWAY

主要是没有在客户端设置服务器的地址

 

3、网络问题

 

4、计算时问题

系统资源不够,多是内存不够,或者由于系统分析时间过长而出现的超时问题

 

5、收敛问题

很常见,原因很多,特别是对于大系统

 

6、其他具体问题

1、安装问题--出错信息就不提供了

1Windows系统

1)主要是LICENSE问题,特别是在Windows系统中安装--只要把LICENSE,一般名为“msilic.lic”拷贝到

C:Program FilesAccelrysLicensePackLicenses

即可

2)注意MS运行时需要一定的硬盘空间来放置临时数据,所以,千万注意你的磁盘情况;

3)还有,对应于内存的虚拟内存

4)服务器如果链接不上,请检查网卡是否正常;网卡正常,那请查看防火墙设置是否正确

-----------------------

2UNIX/LINUX

1LICENSE

对于UNIXlicense文件应该放在license pack/licenses 下面,文件名应改为msilicense.dat

2)没有root帐号,不能mountiso文件

可以刻录到光盘上安装

3)安装用户

不要用超户安装,要有普通用户

4shell

每次进入bash时显示

The shell bash is not supported

计算的时候,也出现这个提示,

/home/msi/MaterialStudio/CASTEP/bin/castepexe_mpi.exe: error while 

loading shared libraries: libmkl_def.so: cannot open shared object file:

 No such file or directory

然后退出

--》

ms_setup.sh -s bash改为 sh 就可以了

 

5)选择是否启动Gateway服务,一般选是

6)没有制定临时文件夹

如果用的是csh, 在安装用户根目录下修改.cshrc(bash用户修改.bashrc), 内容如下:

  eval `/home/msi/MaterialsStudio/Licensing/Setup/lic_setup.sh -s csh`

  eval `/home/msi/MaterialsStudio/share/bin/ms_setup.sh -s csh`

  

  setenv TMPDIR /home/msi/tmp

  setenv DMOL3_DATA /home/msi/MaterialsStudio/Data/Resources/Quantum/DMol3

  

  setenv DMOL_TMP /home/msi/tmp

  setenv MESODYN_HOME /home/msi/tmp

  setenv PATH ${PATH}:/home/msi/MaterialsStudio/DMol3/bin

 

  并在安装用户根目录下建一个tmp临时文件夹

 

 ------------------------

3)LINUX集群

问题比较多

1MPICH.tgz

Installing everything...

Error: Package Archive '/MPICH.tgz' does not exist

--》可以找其他正常安装的拷贝一个

2)没有root帐号,不能mountiso文件

可以刻录到光盘上安装

3)不能并行,只能单机版

cluster还得明确指定installtype, 加个参数-t cluster

4Gateway start failed - process 6194 is not running.

装的时候不要用root帐户,用自己的帐户,并且装在自己的主目录里,再启动就不会有问题了。

 

5)不能多节点多CPU并行

windows下提交任务的时候总是不能选多机并行。在Run in parallel on 选项那里一直只能显示1

--》

主要是没有指定节点,而且没有为各节点制定CPU数量。

要修改两个文件里面的cpu数目,具体路径在../Gateway/root_default/dsd/conf下的gw-info.sbd gwparams.cfg 里把cuptotal改成cluster的数目。

--》

copy MaterialsStudiohosts.equiv to /etc/hosts.equiv或者自己新建一个

  内容如下:

  localhost

  localhost.localdomain

  compute-0-0

  compute-0-1

  compute-0-2

  .

  .

 

  compute-0-6

  compute-0-7

  .

  .

  .

 

  在安装用户根目录下建一个.rhosts文件内容跟hosts.equiv一样

---》

 修改 MaterialsStudio/MPICH/share/machines.LINUX 文件,把要用的计算节点写上去,格式如下:

  compute-0-0:2

  compute-0-1:2

  compute-0-2:2

  .

  .

  .

  compute-0-6:2

  compute-0-7:2

  .

  .

  .

  冒号后为每个节点的cpu

 

 --》

 修改MaterialsStudio/Gateway/root_default/dsd/conf下两个文件gw-info.sbd gwparams.cfg中的total cpu

  否则在客户机上的job_control中只能看到安装节点上的cpu

 

 6)没有mpi临时文件夹

 rsh localhost

Trying krb4 rlogin...

krb_sendauth failed: You have no tickets cached

trying normal rlogin (/usr/bin/rlogin)

Last login: Thu May  17:02:10 on :0

--》

mpi没有写文件的地方

   

 

3、网络问题

牵涉到网络问题的主要有以下几个方面:

1)网络可达性

主要有:

*网络的链接状态

*网络拥塞状况

*病毒,比如最近的arp病毒

*如果服务器和客户端在一个网段,还有地址盗用问题

*防火墙:本机,对端,交换机,路由器,网络防火墙

*流量控制

以上很多都和学校的网络策略有关

2)服务器/客户端的访问

*用户控制

*进程管理

*队列

*超时的设置

3)并行主机之间

由于并行主机之间要交换数据,如果网络传输出现错误或故障也会导致失败

4、计算时问题

1Communication-failure

在使用CASTEP计算一个作业时,出现如下错误提示:

Error while monitoring job RT390: Failure in gateway communication while getting job message.

Job Status: Communication-failure

尽管出现以上错误提示,但是此时计算机的内存及cpu使用仍然很高(cpu100%),好像作业仍在计算。关掉那个错误提示小窗口,Job control窗口中显示作业仍然处于Communication-failure状态。

-->

计算大系统时,经常会出现这样的问题,多与超时,或系统繁忙有关。

a) 增加GATEWAY的连接时间;

b)计算时,需要保存中间数据,默认的保存间隔对于小系统不存在问题,计算大系统时,应该延长这个时间,比如CASTEP默认的是每分钟保存一次,可延长到2小时或更多;

c) 一个不经意的问题是磁盘空间,大系统的计算时,会产生很大的数据文件,尤其是在几何优化和分子动力学的计算中,磁盘空间的耗尽也会导致这样的问题;

d) 与上一个问题相关的,系统内存的耗尽。一般地,物理内存之外,系统有虚拟内存,如果这两者之和仍然不够使用,就会出现这样的问题;可通过windows的任务管理器监测,如果不够,调大虚拟内存或增加物理内存;

e) Castep & Dmol 计算的时候,自动产生存档文件和相关的目录,Materials Studio有两个限制:一是不能使用中文目录和文件名;二是目录和文件名层层嵌套后的总长度<255个字符,比如 D:MaterialsStudio2006MS_work_dirAl6O9 FilesDocumentsAl2O3 DMol3 GeomOptAl2O3 DMol3 GeomOptAl2O3_hist.xtd,这个限制来源于早期的DOS版本对文件路径总长度的限制(FFH),长了以后也会有这样的问题;

f)单机运行MaterialsStudio应该不存在网络通讯和并行错误的问题;一般的,不要使用License服务器的License

 

2Error allocating real_bands_qp in nlxc

主要可能是内存不够

 

3Error in allocating wvfn%coeffs in wave_allocate_wv

多可能是由于系统较大,导致内存等资源不能满足要求;

可以尝试增加缓存,或在job control 里的optimization memory;但这不是根本;

增加内存试试,如果不行,只能考虑更换平台,或者降低精度和系统复杂度了。

 

4)停电

这个问题比较复杂,我把自己最近查到的列下:

.........................................................

  使用CASTEP做并行结构优化,就快结束优化的时候停电了。 

  这样的情况下,还是能够继续在前面已经优化的基础上继续优化。方法有如下几种:

 

  a)把OUT文件中有关优化出来的结构信息拷贝出来,替换原来输入文件中描述的结构的部分

  (一般的作法)。大部分的程序都是每优化一步,都会写出相应这一步优化得到的结构。 

 

b)如果保存着计算中的.check文件,仍可以继续优化。

  但是只有在standalone的模式下计算才能得到停电这种情况下的.check文件,通过gateway的话必须在点击download result 以前就去临时文件夹下面copy。如果你将断电前的最后得到的结构继续优化的话,得到的结果将和你原来计算的结果有差异。这是因为如果你是按断电前的结果优化,就等于是一个新的结构优化计算,这个计算的结果可能会和不断电的情况下得到的结果有差异。但是未必这样的结果就不准确,能不能用要靠你对计算的结果进行分析了,这个要看具体的情况,.check 文件在的话只是说你可以按照断电前的情况继续算下去,就是说应该是和没断电的结果是一样的。

 

  .castep.geom两个文件中都有结构坐标,但是这两个文件中的坐标不一样,不知道该用哪一个文件中的坐标。

   

  还有,是不是用上述文件中的结构坐标代替所有.cel文件中的坐标,然后就可以继续进行结构优化。

 

5)其他计算时的出错

一般来说,小系统出现计算溢出或其他错误的可能要小些,对于具体的出错,可以先看看是不是和系统资源有关系。

5、收敛问题

很常见,原因很多,特别是对于大系统

一般来说,小系统出现计算溢出或其他错误的可能要小些,对于具体的出错,可以先看看是不是和系统资源有关系。

1SCF最大仍不收敛

一般来说,MS默认的SCF次数100对于小系统是够用的,但是,原子数一多,就不一定了。

a)首先结构的合理性,如果自建的结构偏离最低能量太大(或失配度太大),可能会难以收敛

b)取消一切对称性,充分驰豫晶格

c)有些结构本身就是亚稳态,scf的各项收敛指标如果设的太高,对于亚稳态就可能达不到如此的精度。

d)改变收敛的条件,降低精度(能量的截断值)

e)增加循环次数

f)改变赝势

 

2)对于绝缘体,可以设置能带占据情况的OPTION BOX

3)磁性材料的自旋设置;

4supercell

可以增加长度尺寸

5)过渡元素,重元素等

f层电子问题;

相对论修正问题。

6)未找到基态能

在计算过程中经常遇到计算失败的情况,文件给出的警告是:

*Warning* max. SCF cycles performed but system has not reached the groundstate.

 Warning: electronic minimisation did not converge when finding ground state.

 -->

 参照上面

 和收敛有关的参数主要有能量的CUTOFFSCF的次数,SMEAR,以及K点选取等,可以尝试一下。

 

7)优化不收敛

增加设Max.Interations的大小

interations 是定义积分精度的,相当于gaussian里的int选项;根据gauss的经验,对重原子如果不用细的积分网格,结果就不准确,特别是频率计算,可能会把正的频率算成负的频率。提高 interations的确可以提高精度,特别是对于过渡态和频率计算。

 

3)优化后计算性能参数,还要再优化

目前据我的理解是,可能是计算几何优化的时候选取的一些参数和计算性能,比如能量时的不同。

目前我还不清楚,请各位达人给出解答。

 

6)总能和文献不一致,而且多种方法都不同

很正常,只要相对值近似就可以

在倒空间进行电子结构计算的方法中,都存在一个能量零点的取法的问题,不同的程序,取的不同.根本原因是V(G)G=0是发散的(可以去R.T. Martin的电子结构那本书).

castep是利用周期性,在倒空间进行电子结构计算的.我没有记错的话,Dmol3是在实空间来进行电子结构计算的.能量零点的取法就跟不同前者了。

因此在进行电子结构计算中,不要比较任何绝对能量值的大小,这样是毫无意义的,即使是同一个程序中也是这样,更不用说是两个不同的程序。

能量的相对值才具有物理意义。

6、其他问题

有很多了。

比如:

*优化时同时选择计算能量,与优化后再计算能量,为什么得到的结果不同;

*ULTRAFINE进行优化,计算能量,同时选择计算光学性质,为什么和试验数据差别这么大

*赝势的选择问题

*如何计算特定温度下的材料性能参数

0

后一篇:文章水过
  • 评论加载中,请稍候...
发评论

    发评论

    以上网友发言只代表其个人观点,不代表新浪网的观点或立场。

    后一篇 >文章水过
      

    新浪BLOG意见反馈留言板 电话:4000520066 提示音后按1键(按当地市话标准计费) 欢迎批评指正

    新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 会员注册 | 产品答疑

    新浪公司 版权所有