관련: 2026 HPC GPU 운영계획 | 2026 HPC 지원사업 - 시민재생에너지 사업자동화 AI


KT Cloud AI Nexus 플랫폼 5종 공식 매뉴얼 요약 (출처: NIPA·KT Cloud·Lablup 저작물 — 전문 전사 금지, 원문 링크 아래).

우리 상황 기준: 사교원 exaone-train 프로젝트 / H200 1장 / Interactive 세션 / 7개월(~12월)


1. AI Nexus 사용자 가이드 GUI (52p)

원문: 구글 드라이브

이 문서가 다루는 범위: AI Nexus 웹UI 전체 기능 — 대시보드·계정 설정·데이터 폴더·세션 생성·이미지 커밋·기술지원 연결까지.

서비스 구조 핵심

  • 컨테이너(Docker) 기반 — VM·베어메탈 아님. Docker-in-Docker·Kubernetes·Slurm 불가.
  • 세션 내 앱(JupyterLab, VSCode 등)은 하위도메인 Proxy를 통해 접근. 별도 포트 포워딩 불필요.
  • 추가 포트 필요 시 세션 시작 전 Preopen Ports 설정(1025–65535 범위).
  • 외부 SSH 접속: 세션 앱 다이얼로그 → SSH/SFTP 아이콘 클릭 후 접속 정보·키 확인 → 하위도메인 기반 주소로 접속.

자원 회수 규칙 (핵심)

항목기준
회수 조건최근 6시간 GPU Cuda Util 평균 1% 미만
예외순간 0% 구간이 있어도 6시간 평균 1% 이상이면 유지
세션당 최대 컨테이너2개
최대 동시 세션5개
로그인 타임아웃기본 8시간 (새로고침으로 연장)

우리 실천 수칙: 학습 잡이 끝나면 다음 실험(하이퍼파라미터 탐색·평가·증강)을 이어 큐에 올려 GPU Util 유지.

데이터 폴더 (NAS) — 영속 스토리지

  • 세션의 기본 파일시스템(/home/work 로컬 디스크, Scratch)은 세션 삭제 시 사라짐.
  • 모든 체크포인트·데이터·코드는 데이터 폴더(vFolder/NAS)에 저장해야 유지됨.
  • 세션 생성 시 폴더를 마운트하면 /home/work/폴더명에 접근.
  • 자동 마운트 폴더: 이름이 .(점)으로 시작하는 폴더는 세션 생성 시 자동 마운트됨 → .local 폴더로 pip 사용자 설치 패키지를 영속화하는 방식 활용 가능.
  • 파일 업로드 방법: 드래그앤드롭(4GB 미만), 파일 브라우저(웹앱), SFTP 서버(대용량).
  • NAS 80% 이상 사용 시 1TB 무상 추가 가능.
  • 최대 폴더 개수: 10개.

컨테이너 커밋 (환경 저장)

저장되는 데이터저장 안 되는 데이터
sudo pip install한 패키지pip install 사용자 레벨 패키지 (단, .local을 자동마운트 폴더로 설정하면 재사용 가능)
/home/work 외 특정 디렉토리NAS 마운트 폴더의 실제 데이터
  • 커밋 이미지 최대 3개. 초과 시 기존 삭제 후 커밋.
  • bai user 태그로 자신의 커밋 이미지 식별.

GPU·CUDA 호환성

GPU권장 CUDA비고
H20012.4 이상HBM3e, Hopper 아키텍처
H10012.x 권장Hopper
A10011.x–12.xAmpere
  • A100 기반 코드를 H200으로 이전 시 CUDA Extension·Custom Kernel·NCCL에서 호환성 이슈 발생 가능 → CUDA 12 이상 + 최신 PyTorch로 재빌드 권장.
  • 커스텀 이미지 필요 시: Docker Hub에 push 후 기술지원 게시판에 이미지 URL 문의 → AI Nexus 전용 Harbor에 등록.

사업 종료 시 데이터 백업

  • 사업 종료 후 모든 자원 회수됨. SFTP 서버를 이용해 로컬 백업 권장.
  • SFTP 세션도 세션 개수·자원 소모 → 여유 확인 후 실행.

2. GPU 사용자 Workflow (15p)

원문: 구글 드라이브

이 문서가 다루는 범위: NIPA HPC 사업 기준 GPU 학습 4단계 워크플로우 — 데이터 업로드 → 환경 구성 → 학습 수행 → 백업.

H200 스펙 참고 (문서 실측값)

항목H200 SXMH100 SXMA100 SXM
GPU 메모리HBM3e 141GBHBM3 80GBHBM2e 80GB
메모리 대역폭4.8 TB/s3.35 TB/s2.04 TB/s
FP16/BF16 Tensor1,979 TFLOPS1,979 TFLOPS624 TFLOPS

워크플로우 4단계

STEP 1. 데이터 및 모델 업로드

  • NAS 데이터 폴더에 SFTP 또는 파일 브라우저로 학습 데이터·베이스 모델 업로드.
  • 대용량 파일은 SFTP 방식 사용.

STEP 2. GPU 개발 환경 구성

  • 기본 NGC 이미지 선택(PyTorch + CUDA 사전 검증됨) → 즉시 사용 가능.
  • 커스텀 이미지는 Docker Hub 업로드 후 기술지원 게시판 문의.
  • 세션 생성 시 이미지, 자원(CPU·GPU·메모리), vFolder 마운트, Preopen Ports 설정.

STEP 3. GPU 학습 수행 및 모델 저장

  • 세션 접속 후 nvidia-smi로 GPU 인식·스펙 검증.
  • 학습 완료 모델은 즉시 NAS 폴더에 저장.
  • Multi-GPU 사용 시 CUDA_VISIBLE_DEVICES 명시적 지정 권장.

STEP 4. 모델 및 데이터 백업

  • NAS 쿼터 부족 시 기술지원 게시판을 통해 스토리지 증설 요청.
  • 사업 종료 전 SFTP로 로컬 백업.

3. VoC QnA 모음집 ver2.1 (31p)

원문: 구글 드라이브

이 문서가 다루는 범위: AI Nexus 사용자 VoC 기반 5개 카테고리 Q&A — GPU 자원 사용, 서비스/기술, 세션, 도커 이미지, 데이터 디스크.

우리 상황(Interactive 세션·H200 1장)에 해당하는 핵심 Q&A

자원 회수 상세

  • 회수 로직: 세션 생성 시점부터 Cuda Util 수집 → 최근 6시간 평균 1% 미만이면 유휴 판정 → 자원 회수. 세션 로그에 “idle-utilization”으로 기록됨.
  • 예외: 순간 0%라도 6시간 평균 1% 이상이면 회수 안 함 → 전처리·코드 수정 등 간헐적 작업 중 갑작스런 회수 방지.
  • GPU 외에 CPU Util도 고려될 수 있음.

nvidia-smi에서 GPU 2장으로 보이는 현상

  • 요청한 GPU 자원량을 정수 단위 device로 못 채울 때 파편화(fraction) 방식으로 할당됨. 예: 1장 요청 시 0.5장 × 2로 보일 수 있음. 오류 아님.

SSH 접속

  • 세션 앱 다이얼로그 → SSH/SFTP 아이콘 클릭 → 접속 주소·id_container 키 파일 다운로드.
  • 외부 접속은 하위도메인 Proxy를 통한 방식으로만 지원. 직접 IP·포트 접근 불가.
  • SSH 연결 끊김 방지 옵션: ssh -o ServerAliveInterval=60 -o ServerAliveCountMax=5 ...
  • 비밀번호 없이 키 파일(id_container)만 사용. 세션 재생성 시 키 갱신됨.

VSCode 접속 후 세션 재생성 시 포트 충돌

  • 기존 세션 종료 후 새 세션을 생성하면 이전 포트 정보는 유효하지 않음. VSCode Remote-SSH 연결 정보 갱신 필요.

VSCode 종료 시 학습 중단 방지

  • VSCode 연결 종료 시 학습도 함께 종료될 수 있음 → 학습은 GUI 상의 tmux 콘솔 또는 백그라운드(nohup / Batch 세션) 방식으로 실행 권장.

CUDA out of memory

  • H200은 141GB HBM3e. 배치 크기·시퀀스 길이가 이 범위를 초과하면 발생. 배치 스윕으로 안전 구간 확인 후 운영.

데이터 디스크 관련

  • 세션 내 /home/work Scratch 경로(10GB 수준)와 NAS vFolder(할당 2TB)는 다름 — 대용량 파일은 반드시 NAS vFolder에 저장.
  • No space left on device 오류: 임시 파일이 Scratch 채우는 경우. 캐시 경로를 NAS 폴더로 지정.
  • NFS(NAS) 폴더 내 filelock 문제: 일부 라이브러리의 파일 잠금이 NFS와 충돌 → 캐시 경로를 NAS 외부(Scratch 또는 tmpfs)로 지정 우회.
  • NAS 데이터 실수 삭제 시 복구 불가 — 중요 데이터는 SFTP로 외부 백업 권장.

apt 설치 시 tzdata 오류

  • /etc/localtime이 read-only로 마운트되어 tzdata 충돌. 우회: export DEBIAN_FRONTEND=noninteractive && export TZ=Asia/Seoul 후 설치, --no-install-recommends로 tzdata 제외.

4. VM → AI Nexus 환경 전환 가이드 (7p)

원문: 구글 드라이브

이 문서가 다루는 범위: 기존 VM/베어메탈 환경을 AI Nexus 컨테이너 환경으로 이전하는 단계별 가이드.

VM vs AI Nexus 핵심 차이

항목VM / BM 환경AI Nexus
실행 단위서버 인스턴스 (상시 가동)세션 — 필요 시 생성/종료
환경 설치OS에 직접 패키지 설치컨테이너 이미지 선택 후 pip 설치
데이터 저장서버 로컬 디스크vFolder — 세션에 마운트하여 사용
소프트웨어 영속성설치하면 유지세션 종료 시 초기화 (vFolder 내 데이터는 유지)
GPU 할당서버에 고정세션 생성 시 동적 할당

핵심 원칙: AI Nexus 컨테이너 세션은 “일시적 실행 환경”. 영속할 데이터와 코드는 반드시 vFolder에 저장.

패키지 설치 전략 3가지

방법설명적합 상황
A. 세션 시작 시 자동 설치 스크립트vFolder에 setup.sh 저장 → 세션마다 실행패키지 수가 적을 때
B. 커스텀 컨테이너 이미지관리자에게 등록 요청패키지 많거나 빌드 필요할 때
C. Conda 환경을 vFolder에 저장/my-code/envs/에 Conda 환경 생성 → 재사용Python 환경 격리 필요할 때

VM 방식 → AI Nexus 대응 방법

기존 VM 방식AI Nexus 대응
~/ 홈에 파일 저장vFolder(/home/work/폴더명/)에 저장
nohup python train.py & 백그라운드 실행Batch 세션으로 제출 (세션 종료돼도 작업 유지)
screen / tmux로 세션 유지AI Nexus 터미널 세션이 동일 역할
/etc/environment에 환경변수세션 생성 시 환경변수 지정 또는 .env를 vFolder에 저장

5. WEBUI 기술지원 게시판 접속 가이드 (6p)

원문: 구글 드라이브

이 문서가 다루는 범위: AI Nexus 로그인 후 기술지원 게시판 접속·이용 절차.

접속 절차

  1. AI Nexus 웹UI에 로그인 (초기 비밀번호 → 즉시 변경 필수).
  2. 좌측 메뉴 하단 NIPA 기술지원 탭 클릭.
  3. 게시판 전용 비밀번호 입력 (AI Nexus 로그인 비밀번호와 별개 — 발급 메일 참조).

게시판 구성

메뉴내용
최근 공지사항·기술지원 내역 확인
공지사항관리자 공지 확인
기술지원서비스 이용 관련 문의 등록

기술지원 문의 작성 시

  • 분류: 중분류·소분류 선택 (해당 없으면 기타/기타).
  • 파일 첨부 가능.
  • 링크 첨부 시 http:// 또는 https:// 포함 URL로 작성.

문의 채널 정리

구분연락처
NIPA 기술지원 (서비스 환경 문제)AI Nexus 내 기술지원 게시판
공급사 운영 문의nipa-gpu@conbridge.co.kr / 070-4291-7005
운영기관 정책·진행 문의KAIT 02-580-0216 / kaitcloud@kait.or.kr
사업관리시스템(PMS) 오류010-9159-8229

원본 문서 드라이브 폴더

HPC 2026 매뉴얼 폴더 전체