EXAONE, ixi-GEN 이란 무엇일까?
어떤 기회가 생겨서 키워드를 알게 되었고 이게 뭔지 궁금해서 알아보게 되었다.
뉴스 기사를 조사해보니까 LG AI 연구원이 개발한 초 거대 인공지능모델이라고 한다.
익시젠과 엑사원은 모두 LG유플러스가 개발한 AI 언어모델이지만, 엑사원은 범용 LLM(대형 언어모델)이고,
익시젠은 통신 등 특정 분야에 특화된 소형언어모델(sLLM)이라고 한다.
착각하지말아야할것,
엑사원과 익시젠은 하나의 모델, 서비스이름을 의미한다.
EXAONE (엑사원)
- 개발: LG AI연구원
- 유형: 초거대 언어모델(LLM)
- 용도: 범용 AI - 텍스트, 코드 생성, 대화 등 다양한 분야의 질문에 답변할 수 있는 범용 LLM로, 금융·유통·제조 등 여러 산업에 활용
- 특징
- GPU 클러스터 기반 (NVIDIA A100/H100 등)
- AI 모델 학습 및 추론용 고성능 컴퓨팅
- 쿠버네티스 기반 컨테이너 오케스트레이션
- 대규모 분산 학습 인프라
ixi-GEN (익시젠)
- 개발: LG유플러스
- 유형: 생성형 AI 서비스
- 용도: 통신 서비스 특화 - 고객 응대, 마케팅 콘텐츠 생성 등 통신업에 특화된 소형언어모델(sLLM)로, 통신·플랫폼 데이터에 맞춰 학습되어 통신사 서비스에 최적화
- 특징
- EXAONE API를 활용한 서비스 레이어
- 클라우드 기반 마이크로서비스 아키텍처
- API 게이트웨이, 로드밸런서
- 일반 애플리케이션 서버 + GPU 추론 서버 혼합
핵심 차이점
EXAONE = 기반 AI 모델 (엔진) ixi-GEN = LG유플러스가 EXAONE 기반으로 만든 서비스 플랫폼
한번도 만져보지 못하고 한번도 경험하지 못한 사람들은 대게 나와 같은 궁금점이 있을 것 같다.
GPU 서버는 일반 서버와 뭐가 다를까? 사실상 비슷한것 같지만 또 다른 것같아 보이기도 한다…
똑같이 GPU 서버에서도 일반 Linux 서버와 동일하게 CentOS, Ubuntu, RHEL 등의 OS를 사용한다.
CENTOS, Ubuntu, RHEL 은 왜 어떤 기준을 가지고 채택해 설치할까?
기업 정책, 라이선스 비용, 벤더 지원 여부로 결정된다고 한다.
RHEL(레드햇)은 유료이긴 하지만 공식 기술 지원을 포함하고 있고 보안 패치를 장기적 지원하며 안정성과 책임 소재를 명확하게 할수있다는 점이있다.
Ubuntu(우분투)는 NVIDIA 공식으로 지원하고 GPU/AI 생태계가 최적화 되어있다고 한다.
CentOS는 최근 종료되고 Rocky 를 사용하는데 사실상 다른 OS에 강점이 너무 높아 GPU 기반의 서버에서는 별로같다. 또한 이미 한번 서비스가 종료되었던 이력도그렇고 대중적인 건 있지만 타 OS 에 비해 장점이 조금 적다.
운이 좋게 최근 어떤 이유로 AI 프로젝트에 OS설치를 해준적이 있다.
사실 별거 없었다. 워낙 소규모로 구축한거라 RAID0로 구성했고 OS는 CentOS를 선택했으며 그 위에 CUDA와 GPU NVIDIA 드라이버를 설치해 사용하고 있었다. 또한 별도 스토리지를 마운트해 사용한 것이 아니라 로컬 SSD 에 설치해 사용했다.
아래 2개는 주로 사용 되는 패키지라는데 실제 대규모 서비스에서는 어떻게 사용하는지 경험하지 못해 모르겠지만 이 두가지가 설치되었다.나중에 이 드라이버들을 설치하고 추가로 설정해줘야 하는게 있다고 한다. 이건 나중에 좀 더 알아보자
- GPU 드라이버: NVIDIA Driver
- CUDA Toolkit 설치
기초 점검 명령어
GPU 서버의 상태를 점검하고 확인할 수 있는 여러 명령어들이 있는 것 같았다.
모든 시스템의 기본은 점검인 것 같다. 점검을 통해 밑바닥부터 알아야되서 클로드를 통해 받은 내용으로 상세하게 기초 명령어 하나하나 뜯어볼 예정이다. 알아야할게 엄청많다...
1. GPU 하드웨어 정보
# GPU 기본 정보 (가장 많이 씀)
nvidia-smi
# GPU 상세 정보
nvidia-smi -L # GPU 목록
nvidia-smi -q # 전체 상세 정보
lspci | grep -i nvidia # PCIe 장착 확인
# GPU 모델명, 메모리, 온도
nvidia-smi --query-gpu=name,memory.total,temperature.gpu --format=csv
2. CUDA/드라이버 버전
# CUDA 버전
nvcc --version
cat /usr/local/cuda/version.txt
# 드라이버 버전
cat /proc/driver/nvidia/version
nvidia-smi | head -n 3
3. GPU 사용률 모니터링
# 실시간 모니터링 (2초마다 갱신)
watch -n 2 nvidia-smi
# GPU별 사용률
nvidia-smi --query-gpu=utilization.gpu,utilization.memory --format=csv -l 1
# 프로세스별 GPU 사용
nvidia-smi pmon
4. 시스템 전체 정보
# OS 정보
cat /etc/os-release
uname -a
# CPU 정보
lscpu
# 메모리
free -h
# 디스크
df -h
lsblk
# 네트워크 (InfiniBand 있으면)
ibstat
ifconfig
5. 실무 자주 쓰는 조합
# GPU 상태 한눈에 보기
nvidia-smi --query-gpu=index,name,driver_version,memory.total,memory.used,memory.free,temperature.gpu,utilization.gpu --format=csv
# GPU 로그 확인
dmesg | grep -i nvidia
journalctl -u nvidia-persistenced
6. Docker GPU 확인
# Docker GPU 지원 확인
docker run --rm --gpus all nvidia/cuda:11.0-base nvidia-smi