KT Cloud AI Nexus 플랫폼 5종 공식 매뉴얼 요약 (출처: NIPA·KT Cloud·Lablup 저작물 — 전문 전사 금지, 원문 링크 아래).
우리 상황 기준: 사교원 exaone-train 프로젝트 / H200 1장 / Interactive 세션 / 7개월(~12월)
1. AI Nexus 사용자 가이드 GUI (52p)
원문: 구글 드라이브
이 문서가 다루는 범위: AI Nexus 웹UI 전체 기능 — 대시보드·계정 설정·데이터 폴더·세션 생성·이미지 커밋·기술지원 연결까지.
서비스 구조 핵심
- 컨테이너(Docker) 기반 — VM·베어메탈 아님. Docker-in-Docker·Kubernetes·Slurm 불가.
- 세션 내 앱(JupyterLab, VSCode 등)은 하위도메인 Proxy를 통해 접근. 별도 포트 포워딩 불필요.
- 추가 포트 필요 시 세션 시작 전 Preopen Ports 설정(1025–65535 범위).
- 외부 SSH 접속: 세션 앱 다이얼로그 → SSH/SFTP 아이콘 클릭 후 접속 정보·키 확인 → 하위도메인 기반 주소로 접속.
자원 회수 규칙 (핵심)
| 항목 | 기준 |
|---|---|
| 회수 조건 | 최근 6시간 GPU Cuda Util 평균 1% 미만 |
| 예외 | 순간 0% 구간이 있어도 6시간 평균 1% 이상이면 유지 |
| 세션당 최대 컨테이너 | 2개 |
| 최대 동시 세션 | 5개 |
| 로그인 타임아웃 | 기본 8시간 (새로고침으로 연장) |
→ 우리 실천 수칙: 학습 잡이 끝나면 다음 실험(하이퍼파라미터 탐색·평가·증강)을 이어 큐에 올려 GPU Util 유지.
데이터 폴더 (NAS) — 영속 스토리지
- 세션의 기본 파일시스템(
/home/work로컬 디스크, Scratch)은 세션 삭제 시 사라짐. - 모든 체크포인트·데이터·코드는 데이터 폴더(vFolder/NAS)에 저장해야 유지됨.
- 세션 생성 시 폴더를 마운트하면
/home/work/폴더명에 접근. - 자동 마운트 폴더: 이름이
.(점)으로 시작하는 폴더는 세션 생성 시 자동 마운트됨 →.local폴더로 pip 사용자 설치 패키지를 영속화하는 방식 활용 가능. - 파일 업로드 방법: 드래그앤드롭(4GB 미만), 파일 브라우저(웹앱), SFTP 서버(대용량).
- NAS 80% 이상 사용 시 1TB 무상 추가 가능.
- 최대 폴더 개수: 10개.
컨테이너 커밋 (환경 저장)
| 저장되는 데이터 | 저장 안 되는 데이터 |
|---|---|
sudo pip install한 패키지 | pip install 사용자 레벨 패키지 (단, .local을 자동마운트 폴더로 설정하면 재사용 가능) |
/home/work 외 특정 디렉토리 | NAS 마운트 폴더의 실제 데이터 |
- 커밋 이미지 최대 3개. 초과 시 기존 삭제 후 커밋.
bai user태그로 자신의 커밋 이미지 식별.
GPU·CUDA 호환성
| GPU | 권장 CUDA | 비고 |
|---|---|---|
| H200 | 12.4 이상 | HBM3e, Hopper 아키텍처 |
| H100 | 12.x 권장 | Hopper |
| A100 | 11.x–12.x | Ampere |
- A100 기반 코드를 H200으로 이전 시 CUDA Extension·Custom Kernel·NCCL에서 호환성 이슈 발생 가능 → CUDA 12 이상 + 최신 PyTorch로 재빌드 권장.
- 커스텀 이미지 필요 시: Docker Hub에 push 후 기술지원 게시판에 이미지 URL 문의 → AI Nexus 전용 Harbor에 등록.
사업 종료 시 데이터 백업
- 사업 종료 후 모든 자원 회수됨. SFTP 서버를 이용해 로컬 백업 권장.
- SFTP 세션도 세션 개수·자원 소모 → 여유 확인 후 실행.
2. GPU 사용자 Workflow (15p)
원문: 구글 드라이브
이 문서가 다루는 범위: NIPA HPC 사업 기준 GPU 학습 4단계 워크플로우 — 데이터 업로드 → 환경 구성 → 학습 수행 → 백업.
H200 스펙 참고 (문서 실측값)
| 항목 | H200 SXM | H100 SXM | A100 SXM |
|---|---|---|---|
| GPU 메모리 | HBM3e 141GB | HBM3 80GB | HBM2e 80GB |
| 메모리 대역폭 | 4.8 TB/s | 3.35 TB/s | 2.04 TB/s |
| FP16/BF16 Tensor | 1,979 TFLOPS | 1,979 TFLOPS | 624 TFLOPS |
워크플로우 4단계
STEP 1. 데이터 및 모델 업로드
- NAS 데이터 폴더에 SFTP 또는 파일 브라우저로 학습 데이터·베이스 모델 업로드.
- 대용량 파일은 SFTP 방식 사용.
STEP 2. GPU 개발 환경 구성
- 기본 NGC 이미지 선택(PyTorch + CUDA 사전 검증됨) → 즉시 사용 가능.
- 커스텀 이미지는 Docker Hub 업로드 후 기술지원 게시판 문의.
- 세션 생성 시 이미지, 자원(CPU·GPU·메모리), vFolder 마운트, Preopen Ports 설정.
STEP 3. GPU 학습 수행 및 모델 저장
- 세션 접속 후
nvidia-smi로 GPU 인식·스펙 검증. - 학습 완료 모델은 즉시 NAS 폴더에 저장.
- Multi-GPU 사용 시
CUDA_VISIBLE_DEVICES명시적 지정 권장.
STEP 4. 모델 및 데이터 백업
- NAS 쿼터 부족 시 기술지원 게시판을 통해 스토리지 증설 요청.
- 사업 종료 전 SFTP로 로컬 백업.
3. VoC QnA 모음집 ver2.1 (31p)
원문: 구글 드라이브
이 문서가 다루는 범위: AI Nexus 사용자 VoC 기반 5개 카테고리 Q&A — GPU 자원 사용, 서비스/기술, 세션, 도커 이미지, 데이터 디스크.
우리 상황(Interactive 세션·H200 1장)에 해당하는 핵심 Q&A
자원 회수 상세
- 회수 로직: 세션 생성 시점부터 Cuda Util 수집 → 최근 6시간 평균 1% 미만이면 유휴 판정 → 자원 회수. 세션 로그에 “idle-utilization”으로 기록됨.
- 예외: 순간 0%라도 6시간 평균 1% 이상이면 회수 안 함 → 전처리·코드 수정 등 간헐적 작업 중 갑작스런 회수 방지.
- GPU 외에 CPU Util도 고려될 수 있음.
nvidia-smi에서 GPU 2장으로 보이는 현상
- 요청한 GPU 자원량을 정수 단위 device로 못 채울 때 파편화(fraction) 방식으로 할당됨. 예: 1장 요청 시 0.5장 × 2로 보일 수 있음. 오류 아님.
SSH 접속
- 세션 앱 다이얼로그 → SSH/SFTP 아이콘 클릭 → 접속 주소·
id_container키 파일 다운로드. - 외부 접속은 하위도메인 Proxy를 통한 방식으로만 지원. 직접 IP·포트 접근 불가.
- SSH 연결 끊김 방지 옵션:
ssh -o ServerAliveInterval=60 -o ServerAliveCountMax=5 ... - 비밀번호 없이 키 파일(
id_container)만 사용. 세션 재생성 시 키 갱신됨.
VSCode 접속 후 세션 재생성 시 포트 충돌
- 기존 세션 종료 후 새 세션을 생성하면 이전 포트 정보는 유효하지 않음. VSCode Remote-SSH 연결 정보 갱신 필요.
VSCode 종료 시 학습 중단 방지
- VSCode 연결 종료 시 학습도 함께 종료될 수 있음 → 학습은 GUI 상의 tmux 콘솔 또는 백그라운드(
nohup/ Batch 세션) 방식으로 실행 권장.
CUDA out of memory
- H200은 141GB HBM3e. 배치 크기·시퀀스 길이가 이 범위를 초과하면 발생. 배치 스윕으로 안전 구간 확인 후 운영.
데이터 디스크 관련
- 세션 내
/home/workScratch 경로(10GB 수준)와 NAS vFolder(할당 2TB)는 다름 — 대용량 파일은 반드시 NAS vFolder에 저장. No space left on device오류: 임시 파일이 Scratch 채우는 경우. 캐시 경로를 NAS 폴더로 지정.- NFS(NAS) 폴더 내
filelock문제: 일부 라이브러리의 파일 잠금이 NFS와 충돌 → 캐시 경로를 NAS 외부(Scratch 또는 tmpfs)로 지정 우회. - NAS 데이터 실수 삭제 시 복구 불가 — 중요 데이터는 SFTP로 외부 백업 권장.
apt 설치 시 tzdata 오류
/etc/localtime이 read-only로 마운트되어 tzdata 충돌. 우회:export DEBIAN_FRONTEND=noninteractive && export TZ=Asia/Seoul후 설치,--no-install-recommends로 tzdata 제외.
4. VM → AI Nexus 환경 전환 가이드 (7p)
원문: 구글 드라이브
이 문서가 다루는 범위: 기존 VM/베어메탈 환경을 AI Nexus 컨테이너 환경으로 이전하는 단계별 가이드.
VM vs AI Nexus 핵심 차이
| 항목 | VM / BM 환경 | AI Nexus |
|---|---|---|
| 실행 단위 | 서버 인스턴스 (상시 가동) | 세션 — 필요 시 생성/종료 |
| 환경 설치 | OS에 직접 패키지 설치 | 컨테이너 이미지 선택 후 pip 설치 |
| 데이터 저장 | 서버 로컬 디스크 | vFolder — 세션에 마운트하여 사용 |
| 소프트웨어 영속성 | 설치하면 유지 | 세션 종료 시 초기화 (vFolder 내 데이터는 유지) |
| GPU 할당 | 서버에 고정 | 세션 생성 시 동적 할당 |
핵심 원칙: AI Nexus 컨테이너 세션은 “일시적 실행 환경”. 영속할 데이터와 코드는 반드시 vFolder에 저장.
패키지 설치 전략 3가지
| 방법 | 설명 | 적합 상황 |
|---|---|---|
| A. 세션 시작 시 자동 설치 스크립트 | vFolder에 setup.sh 저장 → 세션마다 실행 | 패키지 수가 적을 때 |
| B. 커스텀 컨테이너 이미지 | 관리자에게 등록 요청 | 패키지 많거나 빌드 필요할 때 |
| C. Conda 환경을 vFolder에 저장 | /my-code/envs/에 Conda 환경 생성 → 재사용 | Python 환경 격리 필요할 때 |
VM 방식 → AI Nexus 대응 방법
| 기존 VM 방식 | AI Nexus 대응 |
|---|---|
~/ 홈에 파일 저장 | vFolder(/home/work/폴더명/)에 저장 |
nohup python train.py & 백그라운드 실행 | Batch 세션으로 제출 (세션 종료돼도 작업 유지) |
screen / tmux로 세션 유지 | AI Nexus 터미널 세션이 동일 역할 |
/etc/environment에 환경변수 | 세션 생성 시 환경변수 지정 또는 .env를 vFolder에 저장 |
5. WEBUI 기술지원 게시판 접속 가이드 (6p)
원문: 구글 드라이브
이 문서가 다루는 범위: AI Nexus 로그인 후 기술지원 게시판 접속·이용 절차.
접속 절차
- AI Nexus 웹UI에 로그인 (초기 비밀번호 → 즉시 변경 필수).
- 좌측 메뉴 하단 NIPA 기술지원 탭 클릭.
- 게시판 전용 비밀번호 입력 (AI Nexus 로그인 비밀번호와 별개 — 발급 메일 참조).
게시판 구성
| 메뉴 | 내용 |
|---|---|
| 홈 | 최근 공지사항·기술지원 내역 확인 |
| 공지사항 | 관리자 공지 확인 |
| 기술지원 | 서비스 이용 관련 문의 등록 |
기술지원 문의 작성 시
- 분류: 중분류·소분류 선택 (해당 없으면 기타/기타).
- 파일 첨부 가능.
- 링크 첨부 시
http://또는https://포함 URL로 작성.
문의 채널 정리
| 구분 | 연락처 |
|---|---|
| NIPA 기술지원 (서비스 환경 문제) | AI Nexus 내 기술지원 게시판 |
| 공급사 운영 문의 | nipa-gpu@conbridge.co.kr / 070-4291-7005 |
| 운영기관 정책·진행 문의 | KAIT 02-580-0216 / kaitcloud@kait.or.kr |
| 사업관리시스템(PMS) 오류 | 010-9159-8229 |