요즘 기술 뉴스를 보면 이런 표현이 자주 등장한다.
“○○사가 GPU 100만 장 규모의 AI 클러스터를 구축한다.”
모델 이름, 파라미터 수, 데이터셋 이야기도 중요하지만 정작 AI 기업들이 가장 먼저 자랑하는 건 모델이 아니라 ‘클러스터 규모’다.
그 말은 곧, “AI 시대의 경쟁력은 연산량, 그리고 연산을 모아두는 공장(클러스터)에서 나온다” 는 뜻이기도 하다.
1. AI 클러스터, 개념부터 다시 잡고 가기
AI 클러스터는 한 줄로 요약하면 이렇다.
“GPU 수백~수천 개를 초고속 네트워크로 묶어서 하나의 거대한 컴퓨터처럼 동작하도록 만든 시스템”
GPT 같은 초대형 모델은 GPU 한 장, 서버 한 대로는 도저히 감당이 안 된다.
그래서 연산을 쪼개서 여러 GPU에 나눠주고, 그걸 다시 빠르게 합쳐야만 학습이 가능하다.
이때 필요한 것이 바로 클러스터다.
2. 물리적인 구조 ‘GPU에서 데이터센터까지’
AI 클러스터를 “확대되는 계층 구조”로 보면 이해가 훨씬 쉽다.
- GPU
- 실제로 연산을 수행하는 칩
- H100, MI300 같은 칩이 여기 들어간다.
- 서버(Node)
- GPU 여러 개 + CPU + 메모리 + 스토리지
- 예: GPU 8장이 들어간 1대의 서버
- 랙(Rack)
- 서버 수십 대가 세로로 꽂혀 있는 물리적인 캐비넷
- 전원, 네트워크 스위치도 같이 들어 있다.
- 팟(Pod) 혹은 섀시(Cluster Block)
- 여러 랙을 하나의 논리적인 묶음으로 구성
- 여기까지만 해도 이미 ‘작은 클러스터’ 느낌이다.
- 데이터센터 단위 클러스터
- 팟 여러 개가 상호 연결된 하나의 거대한 연산 공장
- 우리가 뉴스에서 보는 “GPU ○○만 장 규모 클러스터”가 이 단계다.
즉, GPU → 서버 → 랙 → 팟 → 데이터센터 이 순서로 스케일 업된다.
3. 클러스터의 핵심: 연결(Interconnect)
GPU가 많다고 자동으로 빠른 건 아니다.
오히려 연결을 잘못하면 “남는 GPU가 절반” 이 되는 구조가 나온다.
그래서 클러스터 설계의 핵심은 GPU 간을 어떻게, 얼마나 빠르게, 어떤 구조로 연결하느냐이다.
① GPU 안/사이 인터커넥트
- NVLink, NVSwitch
- NVIDIA가 GPU 간 고속 통신을 위해 만든 전용 링크
- PCIe보다 훨씬 대역폭이 넓다.
- AMD Infinity Fabric / ROCm
- AMD의 GPU·CPU 간 고속 연결 기술
② 랙·서버 사이 인터커넥트
- InfiniBand (HDR, NDR 등)
- 고성능 컴퓨팅(HPC), AI 클러스터에서 사실상 표준처럼 쓰이는 네트워크
- 고속 이더넷(200G/400G/800G)
- 점점 더 AI 워크로드에 맞춰 진화 중
여기서 중요한 건 대역폭과 지연(latency)이다.
대역폭이 낮거나 지연이 크면, GPU 수는 많아도 계속 기다리기만 하게 된다.
4. 어떤 방식으로 연산을 나눌까? ‘평행화 전략’
GPU를 많이 연결해놨다고 끝이 아니다.
“연산을 어떻게 쪼개서 어느 GPU에 보내느냐”가 또 한 번 중요해진다.
대표적인 평행화 방식은 세 가지다.
✔ 1) 데이터 병렬(Data Parallelism)
- 같은 모델을 여러 GPU에 복제
- 각 GPU가 다른 데이터 조각을 학습
- 학습이 끝나면 파라미터를 합친다.
→ 구현이 상대적으로 단순, 확장성이 좋다.
✔ 2) 모델 병렬(Model Parallelism)
- 모델 자체를 여러 GPU에 쪼개서 올린다.
- 한 GPU가 전체 모델을 담을 수 없을 때 사용.
예:
- 한 층은 1번 GPU, 다음 층은 2번 GPU
- 또는 한 층의 가중치를 여러 GPU에 나눠서 올리는 방식
→ 초대형 모델에서 필수, 대신 통신량이 많아져 설계 난이도가 높다.
✔ 3) 파이프라인 병렬(Pipeline Parallelism)
- 모델을 여러 구간으로 잘라서 입력 데이터가 공장에서 물건 흐르듯 GPU 사이를 흘러가게 만든다.
→ GPU 놀리는 시간을 줄이고, 전체 처리량을 올리는 방식.
실제 대형 모델 학습에서는 이 세 가지를 복합적으로 섞은 “하이브리드 병렬화” 가 사용된다.
5. 트레이닝 클러스터 vs 추론 클러스터
AI 클러스터라고 다 같은 용도는 아니다. 대략 두 가지로 나뉜다.
✔ 1) 트레이닝(학습) 클러스터
- 초대형 모델을 수주~수개월 동안 학습하는 용도
- 긴 시간 동안 GPU를 100%에 가깝게 돌리는 구조
- 병렬화 구조, 통신 최적화가 가장 중요
- 클러스터 하나의 실패가 전체 학습 실패로 이어질 수 있어
안정성과 장애 복구 전략도 중요하다.
✔ 2) 인퍼런스(추론) 클러스터
- 완성된 모델을 사용자에게 서비스하는 용도
- 예: 우리가 쓰는 챗봇, 이미지 생성 서비스 뒷단
특징:
- 트래픽 패턴에 따라 GPU 수요가 크게 변동
- 지연 시간이 중요(응답이 너무 느리면 서비스 불가)
- GPU를 “세밀하게 쪼개서 여러 유저에게 나누는” 기술이 필요
(멀티테넌시, MIG 같은 기술)
같은 GPU라도 학습에 쓰이느냐, 추론에 쓰이느냐에 따라 클러스터 구조와 운영 전략이 달라진다.
6. 비용 구조 – 왜 이 시장이 ‘자본게임’이 되었나
AI 클러스터는 앞에서 본 것처럼 GPU, 네트워크, 전력, 냉각까지 모두 돈이다.
여기에 운영·소프트웨어·사람까지 더해지면 실제 총비용(TCO, Total Cost of Ownership)은 상상을 초월한다.
✔ CAPEX (초기 설비 투자)
- GPU 구매비
- 서버/랙/스위치/케이블
- 데이터센터 건물, 전력 인프라
✔ OPEX (운영 비용)
- 전기요금
- 냉각 비용
- 장비 유지보수
- 운영 인력 인건비
그래서 빅테크들이 “우리는 향후 몇 년간 AI 인프라에 수십조 원을 투자하겠다”고 말할 때, 그 안에는 대부분 AI 클러스터와 데이터센터 투자가 들어 있다.
7. 왜 이렇게까지 클러스터에 집착할까?
겉으로 보면 ‘너무 비싼 장난감’처럼 보일 수 있다.
하지만 기업 입장에서 AI 클러스터는 비싸지만, 그만큼 회수 가능성이 큰 자산이다.
- 한 번 구축하면 여러 모델에 공용으로 사용 가능
- 클라우드 형태로 외부 고객에게까지 팔 수 있다 (GPU as a Service)
- 서비스 확장 속도가 인프라에 의해 결정된다
특히 “기초 모델(Foundation Model)”이 중요해질수록 모델 소유권보다 연산력 소유권이 더 큰 차이를 만든다.
블리프노트의 시선
AI 클러스터를 이해하는 건 그저 기술을 아는 차원을 넘어서서, AI 시대의 ‘기반 산업’을 이해하는 일이기도 하다.
과거 제조업 시대에는
- 누가 더 큰 공장을 갖고 있느냐
- 누가 더 싼 비용으로 많이 찍어내느냐
가 경쟁력이었다면, 이제는
- 누가 더 많은 연산을 가지고 있느냐
- 누가 더 효율적으로 클러스터를 운영하느냐
가 새로운 경쟁력이다.
우리가 매일 사용하는 AI 서비스 뒤편에는 “GPU 수만 장이 돌아가는 보이지 않는 공장”이 있다.
AI 클러스터란, 바로 그 공장의 설계도이자 심장이다.
