NSCC集群使用笔记

news/2024/10/8 8:27:03

1. 账号申请

如果是 NUS,NTU 或者 ASTAR 的学生,可以直接用自己的学校 ID 登录。登录不上的话可以发邮件联系 nscc 工作人员即可,基本上第二天就会回复解决。

2. VSCode 连接

账号申请下来后进官网设置你的 ssh key 之类的东西就可以登录了。第一次登录成功后,可以参考这篇文章设置ssh免密登录:https://www.cnblogs.com/marsggbo/p/14882421.html

Host NSCCHostName aspire2a.nus.edu.sgUser username

3. 使用

  1. 创建一个后缀为pbs的任务文件 task.pbs
#l/bin/bash
#PBS -q normal
#PBS -l select=1:ngpus=4
#PBS -P personal-username
#PBS -l walltime=24:00:00# Sieep command to hold the node
# The numbor of seconds is 24 hours + 60 minutes + 60 seconds = 86400
nvidia-smi# sleep with python!
module load python/3.10.9
python -c "import time; time.sleep(86400)"
  1. 运行任务
qsub ./task.pbs

完了后会返回 jobid,假设是 123456.pbs101

  1. 查看任务的申请情况
qstat -f 123456.pbs101

申请成功的话会输出一堆信息,重要的如下:

        PBS_O_SHELL=/bin/bash,PBS_O_HOST=asp2a-login-nus01.head.cm.asp2a.nscc.sg,PBS_O_WORKDIR=/home/users/nus/username/code,PBS_O_SYSTEM=Linux,PBS_O_QUEUE=normal,nvidia_group_id=31comment = Job run at Sun Jun 09 at 20:32 on (x1022c1s3b31:ngpus=4:ncpus=64:mem=461373440kb)etime = Sun Jun  9 20:32:06 2024run_count = 1Submit_arguments = /home/users/nus/usernmae/task.pbsproject = personal-usernameSubmit_Host = asp2a-login-nus01.head.cm.asp2a.nscc.sg

上面输出的 x1022c1s3b31就是节点地址,在连接节点之前设置一下 PBS_JOBID环境变量:

export PBS_JOBID=123456.pbs101
  1. 连接到节点
ssh x1022c1s3b31
  1. 连接成功后环境安装

推荐使用 singularity,集群里有提供 pytorch 镜像,路径在/app/apps/containers/pytorch,方法如下:

module load singularity
singularity instance start --nv /app/apps/containers/pytorch/pytorch_23.05_py3.sif env_name # 创建container
singularity shell --nv instance://env_name # 以交互式方式进入 container

至此,你就可以开始用 pytorch 和 GPU 了

微信公众号:AutoML机器学习
MARSGGBO原创
如有意合作或学术讨论欢迎私戳联系~
邮箱:marsggbo@foxmail.com

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hjln.cn/news/42597.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈,一经查实,立即删除!

相关文章

OOP4-6作业总结性Blog

这三次大作业经历了一次题型的更新,不管过程是怎么说的,结果是试卷批改程序退出出题的视野了,取而代之的是电路设计题。对于电路设计题我认为出的更加合理些,不像试卷批改题难点都在写正则表达式上,多了对类间关系的考察。 这三次题目集期间,我们在课上主要学习了一系列设…

.NET借助虚拟网卡实现一个简单异地组网工具

由于工作需要,经常需要远程客户的服务器,但是并不是所有服务器都能开外网端口,使用向日葵等软件终究还是不太方便,于是找了很多工具,包括zerotier 等,但是由于服务器在国外等有时候还不同, 于是开始自己想办法研究一个属于自己的组网工具,最后找到snltty大佬的 https:/…

BUUCTF-Misc(131-140)

[ACTF新生赛2020]剑龙 打开pwd.txt发现是颜文字然后打开随波逐流,AAencode颜文字解密得到welcom3! 看一下这个图片的详细信息,发现然后用颜文字结出来的那个密码,去steghide解密U2FsdGVkX1/7KeHVl5984OsGUVSanPfPednHpK9lKvp0kdrxO4Tj/Q==又是U2f然后这次我还以为是AES加密,…

2024-06-09 闲话

2024-06-09 闲话看老友记看到这里。 诶这个名字好熟悉,诶这个小人物也好熟悉。 诶 Bidirectional Encoder Representations from transformers 也是 BERT 诶我草,这是芝麻街。

[AI资讯0609] SamAltman建立了庞大投资帝国,通义千问Qwen2发布即爆火,OpenAI泄密者公布165页文件,奥特曼百万年薪挖角谷歌TPU人才……

SamAltman建立了庞大投资帝国,但不持OpenAI股票;个人资产包括房产和多家公司股权。他曾在YCombinator担任总裁,并投资40家公司,有五家估值增长100倍以上。尽管他不参与OpenAI决策,但其利益与公司业务存在复杂关系,引发监督和透明度争议……AI资讯奥特曼28亿「投资帝国」曝…

oop 4~6总结

oop 4~6总结 前言知识点继承:第四次作业中新增的ChoiceQuestion和GapFillingQuestion继承Question类;第五次作业中Switch, SteppedSpeedController, ContinuousSpeedController, IncandescentLamp, FluorescentLamp, 和 CeilingFan 都继承Device 类,从而共享其属性和方法。 …

23201630徐弘-第二次blog作业

前言 本次大作业是前一次blog中前三次大作业的迭代,加一个新的两次迭代作业。 设计与分析 第四次大作业 第四次大作业比上一次作业增加了题目类型不同的迭代,通过增加选择题类和填空题类解决,两个都继承自题目信息类,所有信息(题目信息,试卷信息,答卷信息,学生信息 ,删…

国内 Github 访问优化

修改 Hosts(推荐) 1、下载SwitchHosts 下载地址: https://github.com/oldj/SwitchHosts 2、配置参考 Hosts 类型: Remote Hosts 标题: 随意 URL: https://raw.hellogithub.com/hosts 自动刷新: 最好选 1 小时 这样每次 hosts 有更新都能及时进行更新,免去手动更新。 如下截…