HPC 사용자 가이드 핵심 정리

관련: 2026 HPC GPU 운영계획 | 2026 HPC 지원사업 - 시민재생에너지 사업자동화 AI

KT Cloud AI Nexus 플랫폼 5종 공식 매뉴얼 요약 (출처: NIPA·KT Cloud·Lablup 저작물 — 전문 전사 금지, 원문 링크 아래).

우리 상황 기준: 사교원 exaone-train 프로젝트 / H200 1장 / Interactive 세션 / 7개월(~12월)

1. AI Nexus 사용자 가이드 GUI (52p)

원문: 구글 드라이브

이 문서가 다루는 범위: AI Nexus 웹UI 전체 기능 — 대시보드·계정 설정·데이터 폴더·세션 생성·이미지 커밋·기술지원 연결까지.

서비스 구조 핵심

컨테이너(Docker) 기반 — VM·베어메탈 아님. Docker-in-Docker·Kubernetes·Slurm 불가.
세션 내 앱(JupyterLab, VSCode 등)은 하위도메인 Proxy를 통해 접근. 별도 포트 포워딩 불필요.
추가 포트 필요 시 세션 시작 전 Preopen Ports 설정(1025–65535 범위).
외부 SSH 접속: 세션 앱 다이얼로그 → SSH/SFTP 아이콘 클릭 후 접속 정보·키 확인 → 하위도메인 기반 주소로 접속.

자원 회수 규칙 (핵심)

항목	기준
회수 조건	최근 6시간 GPU Cuda Util 평균 1% 미만
예외	순간 0% 구간이 있어도 6시간 평균 1% 이상이면 유지
세션당 최대 컨테이너	2개
최대 동시 세션	5개
로그인 타임아웃	기본 8시간 (새로고침으로 연장)

→ 우리 실천 수칙: 학습 잡이 끝나면 다음 실험(하이퍼파라미터 탐색·평가·증강)을 이어 큐에 올려 GPU Util 유지.

데이터 폴더 (NAS) — 영속 스토리지

세션의 기본 파일시스템(/home/work 로컬 디스크, Scratch)은 세션 삭제 시 사라짐.
모든 체크포인트·데이터·코드는 데이터 폴더(vFolder/NAS)에 저장해야 유지됨.
세션 생성 시 폴더를 마운트하면 /home/work/폴더명에 접근.
자동 마운트 폴더: 이름이 .(점)으로 시작하는 폴더는 세션 생성 시 자동 마운트됨 → .local 폴더로 pip 사용자 설치 패키지를 영속화하는 방식 활용 가능.
파일 업로드 방법: 드래그앤드롭(4GB 미만), 파일 브라우저(웹앱), SFTP 서버(대용량).
NAS 80% 이상 사용 시 1TB 무상 추가 가능.
최대 폴더 개수: 10개.

컨테이너 커밋 (환경 저장)

저장되는 데이터	저장 안 되는 데이터
`sudo pip install`한 패키지	`pip install` 사용자 레벨 패키지 (단, `.local`을 자동마운트 폴더로 설정하면 재사용 가능)
`/home/work` 외 특정 디렉토리	NAS 마운트 폴더의 실제 데이터

커밋 이미지 최대 3개. 초과 시 기존 삭제 후 커밋.
bai user 태그로 자신의 커밋 이미지 식별.

GPU·CUDA 호환성

GPU	권장 CUDA	비고
H200	12.4 이상	HBM3e, Hopper 아키텍처
H100	12.x 권장	Hopper
A100	11.x–12.x	Ampere

A100 기반 코드를 H200으로 이전 시 CUDA Extension·Custom Kernel·NCCL에서 호환성 이슈 발생 가능 → CUDA 12 이상 + 최신 PyTorch로 재빌드 권장.
커스텀 이미지 필요 시: Docker Hub에 push 후 기술지원 게시판에 이미지 URL 문의 → AI Nexus 전용 Harbor에 등록.

사업 종료 시 데이터 백업

사업 종료 후 모든 자원 회수됨. SFTP 서버를 이용해 로컬 백업 권장.
SFTP 세션도 세션 개수·자원 소모 → 여유 확인 후 실행.

2. GPU 사용자 Workflow (15p)

원문: 구글 드라이브

이 문서가 다루는 범위: NIPA HPC 사업 기준 GPU 학습 4단계 워크플로우 — 데이터 업로드 → 환경 구성 → 학습 수행 → 백업.

H200 스펙 참고 (문서 실측값)

항목	H200 SXM	H100 SXM	A100 SXM
GPU 메모리	HBM3e 141GB	HBM3 80GB	HBM2e 80GB
메모리 대역폭	4.8 TB/s	3.35 TB/s	2.04 TB/s
FP16/BF16 Tensor	1,979 TFLOPS	1,979 TFLOPS	624 TFLOPS

워크플로우 4단계

STEP 1. 데이터 및 모델 업로드

NAS 데이터 폴더에 SFTP 또는 파일 브라우저로 학습 데이터·베이스 모델 업로드.
대용량 파일은 SFTP 방식 사용.

STEP 2. GPU 개발 환경 구성

기본 NGC 이미지 선택(PyTorch + CUDA 사전 검증됨) → 즉시 사용 가능.
커스텀 이미지는 Docker Hub 업로드 후 기술지원 게시판 문의.
세션 생성 시 이미지, 자원(CPU·GPU·메모리), vFolder 마운트, Preopen Ports 설정.

STEP 3. GPU 학습 수행 및 모델 저장

세션 접속 후 nvidia-smi로 GPU 인식·스펙 검증.
학습 완료 모델은 즉시 NAS 폴더에 저장.
Multi-GPU 사용 시 CUDA_VISIBLE_DEVICES 명시적 지정 권장.

STEP 4. 모델 및 데이터 백업

NAS 쿼터 부족 시 기술지원 게시판을 통해 스토리지 증설 요청.
사업 종료 전 SFTP로 로컬 백업.

3. VoC QnA 모음집 ver2.1 (31p)

원문: 구글 드라이브

이 문서가 다루는 범위: AI Nexus 사용자 VoC 기반 5개 카테고리 Q&A — GPU 자원 사용, 서비스/기술, 세션, 도커 이미지, 데이터 디스크.

우리 상황(Interactive 세션·H200 1장)에 해당하는 핵심 Q&A

자원 회수 상세

회수 로직: 세션 생성 시점부터 Cuda Util 수집 → 최근 6시간 평균 1% 미만이면 유휴 판정 → 자원 회수. 세션 로그에 “idle-utilization”으로 기록됨.
예외: 순간 0%라도 6시간 평균 1% 이상이면 회수 안 함 → 전처리·코드 수정 등 간헐적 작업 중 갑작스런 회수 방지.
GPU 외에 CPU Util도 고려될 수 있음.

nvidia-smi에서 GPU 2장으로 보이는 현상

요청한 GPU 자원량을 정수 단위 device로 못 채울 때 파편화(fraction) 방식으로 할당됨. 예: 1장 요청 시 0.5장 × 2로 보일 수 있음. 오류 아님.

SSH 접속

세션 앱 다이얼로그 → SSH/SFTP 아이콘 클릭 → 접속 주소·id_container 키 파일 다운로드.
외부 접속은 하위도메인 Proxy를 통한 방식으로만 지원. 직접 IP·포트 접근 불가.
SSH 연결 끊김 방지 옵션: ssh -o ServerAliveInterval=60 -o ServerAliveCountMax=5 ...
비밀번호 없이 키 파일(id_container)만 사용. 세션 재생성 시 키 갱신됨.

VSCode 접속 후 세션 재생성 시 포트 충돌

기존 세션 종료 후 새 세션을 생성하면 이전 포트 정보는 유효하지 않음. VSCode Remote-SSH 연결 정보 갱신 필요.

VSCode 종료 시 학습 중단 방지

VSCode 연결 종료 시 학습도 함께 종료될 수 있음 → 학습은 GUI 상의 tmux 콘솔 또는 백그라운드(nohup / Batch 세션) 방식으로 실행 권장.

CUDA out of memory

H200은 141GB HBM3e. 배치 크기·시퀀스 길이가 이 범위를 초과하면 발생. 배치 스윕으로 안전 구간 확인 후 운영.

데이터 디스크 관련

세션 내 /home/work Scratch 경로(10GB 수준)와 NAS vFolder(할당 2TB)는 다름 — 대용량 파일은 반드시 NAS vFolder에 저장.
No space left on device 오류: 임시 파일이 Scratch 채우는 경우. 캐시 경로를 NAS 폴더로 지정.
NFS(NAS) 폴더 내 filelock 문제: 일부 라이브러리의 파일 잠금이 NFS와 충돌 → 캐시 경로를 NAS 외부(Scratch 또는 tmpfs)로 지정 우회.
NAS 데이터 실수 삭제 시 복구 불가 — 중요 데이터는 SFTP로 외부 백업 권장.

apt 설치 시 tzdata 오류

/etc/localtime이 read-only로 마운트되어 tzdata 충돌. 우회: export DEBIAN_FRONTEND=noninteractive && export TZ=Asia/Seoul 후 설치, --no-install-recommends로 tzdata 제외.

4. VM → AI Nexus 환경 전환 가이드 (7p)

원문: 구글 드라이브

이 문서가 다루는 범위: 기존 VM/베어메탈 환경을 AI Nexus 컨테이너 환경으로 이전하는 단계별 가이드.

VM vs AI Nexus 핵심 차이

항목	VM / BM 환경	AI Nexus
실행 단위	서버 인스턴스 (상시 가동)	세션 — 필요 시 생성/종료
환경 설치	OS에 직접 패키지 설치	컨테이너 이미지 선택 후 pip 설치
데이터 저장	서버 로컬 디스크	vFolder — 세션에 마운트하여 사용
소프트웨어 영속성	설치하면 유지	세션 종료 시 초기화 (vFolder 내 데이터는 유지)
GPU 할당	서버에 고정	세션 생성 시 동적 할당

핵심 원칙: AI Nexus 컨테이너 세션은 “일시적 실행 환경”. 영속할 데이터와 코드는 반드시 vFolder에 저장.

패키지 설치 전략 3가지

방법	설명	적합 상황
A. 세션 시작 시 자동 설치 스크립트	vFolder에 `setup.sh` 저장 → 세션마다 실행	패키지 수가 적을 때
B. 커스텀 컨테이너 이미지	관리자에게 등록 요청	패키지 많거나 빌드 필요할 때
C. Conda 환경을 vFolder에 저장	`/my-code/envs/`에 Conda 환경 생성 → 재사용	Python 환경 격리 필요할 때

VM 방식 → AI Nexus 대응 방법

기존 VM 방식	AI Nexus 대응
`~/` 홈에 파일 저장	vFolder(`/home/work/폴더명/`)에 저장
`nohup python train.py &` 백그라운드 실행	Batch 세션으로 제출 (세션 종료돼도 작업 유지)
`screen` / `tmux`로 세션 유지	AI Nexus 터미널 세션이 동일 역할
`/etc/environment`에 환경변수	세션 생성 시 환경변수 지정 또는 `.env`를 vFolder에 저장

5. WEBUI 기술지원 게시판 접속 가이드 (6p)

원문: 구글 드라이브

이 문서가 다루는 범위: AI Nexus 로그인 후 기술지원 게시판 접속·이용 절차.

접속 절차

AI Nexus 웹UI에 로그인 (초기 비밀번호 → 즉시 변경 필수).
좌측 메뉴 하단 NIPA 기술지원 탭 클릭.
게시판 전용 비밀번호 입력 (AI Nexus 로그인 비밀번호와 별개 — 발급 메일 참조).

게시판 구성

메뉴	내용
홈	최근 공지사항·기술지원 내역 확인
공지사항	관리자 공지 확인
기술지원	서비스 이용 관련 문의 등록

기술지원 문의 작성 시

분류: 중분류·소분류 선택 (해당 없으면 기타/기타).
파일 첨부 가능.
링크 첨부 시 http:// 또는 https:// 포함 URL로 작성.

문의 채널 정리

구분	연락처
NIPA 기술지원 (서비스 환경 문제)	AI Nexus 내 기술지원 게시판
공급사 운영 문의	nipa-gpu@conbridge.co.kr / 070-4291-7005
운영기관 정책·진행 문의	KAIT 02-580-0216 / kaitcloud@kait.or.kr
사업관리시스템(PMS) 오류	010-9159-8229

원본 문서 드라이브 폴더

HPC 2026 매뉴얼 폴더 전체

품앗이 위키

탐색기

HPC 사용자 가이드 핵심 정리

1. AI Nexus 사용자 가이드 GUI (52p)

서비스 구조 핵심

자원 회수 규칙 (핵심)

데이터 폴더 (NAS) — 영속 스토리지

컨테이너 커밋 (환경 저장)

GPU·CUDA 호환성

사업 종료 시 데이터 백업

2. GPU 사용자 Workflow (15p)

H200 스펙 참고 (문서 실측값)

워크플로우 4단계

3. VoC QnA 모음집 ver2.1 (31p)

우리 상황(Interactive 세션·H200 1장)에 해당하는 핵심 Q&A

4. VM → AI Nexus 환경 전환 가이드 (7p)

VM vs AI Nexus 핵심 차이

패키지 설치 전략 3가지

VM 방식 → AI Nexus 대응 방법

5. WEBUI 기술지원 게시판 접속 가이드 (6p)

접속 절차

게시판 구성

기술지원 문의 작성 시

문의 채널 정리

원본 문서 드라이브 폴더

그래프 뷰

목차

백링크