멀티 테넌트 AI 인프라 구현(Zadara)

핵심 요약 (Executive Summary)

NVIDIA는 확장 가능하고 소프트웨어 정의 방식의 새로운 형태의 AI Factory를 지원하는 레퍼런스 아키텍처를 통해 AI 인프라의 진화를 주도하고 있습니다. 이러한 환경은 멀티 테넌시, 소버린, 프라이빗 클라우드 전반에서 성능, 보안, 민첩성을 요구합니다.

Zadara는 엔터프라이즈급 오케스트레이션, GPU 성능 인식 스케줄링, 그리고 NVIDIA의 네트워킹 및 DPU 기술과의 네이티브 통합이 결합된 클라우드 네이티브 IaaS(Infrastructure-as-a-Service) 시스템을 통해 이러한 요구를 충족합니다. 이를 통해 서비스 제공자, 통신사, 기업은 NVIDIA 기반 인프라를 멀티 테넌트 환경에 빠르고 안전하게, 그리고 비용 및 규제 준수 측면에서 완전한 통제 하에 배포할 수 있습니다.

이 백서에서는 Zadara가 기반 인프라부터 컨테이너화된 AI 스택 실행에 이르기까지 NVIDIA AI Factory 아키텍처를 구현하는 데 있어 중심적인 역할을 수행하는 방식을 설명합니다. 또한 Zadara가 보안 GPU 네트워킹, NVIDIA 가상화 가이드라인에 따른 VM 단위 GPU 할당(1, 2, 4 또는 8 GPU per VM), 그리고 NVIDIA Cloud Partner 레퍼런스 아키텍처를 활용한 DPU 가속 네트워크 오프로드를 어떻게 지원하는지도 설명합니다.

아울러 이 백서는 Zadara가 실제 환경에서의 배포를 통해 운영 복잡성을 단순화하고 성능을 정밀하게 제어할 수 있도록 지원하는 방식을 강조합니다.

Zadara의 인프라는 조직이 소버린하고 멀티 테넌트 기반의 AI 클라우드를 신뢰를 바탕으로 구축하고 확장할 수 있도록 설계되어 있습니다.

Zadara의 주요 이점 요약

Zadara는 GPU 인프라와 비GPU 인프라를 함께 운영할 수 있는 통합형 관리 클라우드 시스템을 제공합니다. 고객은 AI, 컴퓨팅, 스토리지, 네트워크 워크로드를 단일 운영 모델 내에서 통합할 수 있습니다. 이를 통해 하이브리드 환경 배포, 워크로드의 원활한 마이그레이션, 환경 간 일관된 사용자 경험을 실현할 수 있습니다.

각 테넌트 환경은 보안이 보장되고 GPU 및 네트워킹이 완전히 연결된 상태로 인스턴스화되며, 이를 통해 데이터 과학자, 머신러닝 엔지니어, 또는 추론 환경을 구축하는 DevOps 담당자는 클라우드 제공자의 수동 개입 없이 즉시 작업을 시작할 수 있습니다.

NVIDIA BlueField DPU 및 Spectrum-X 네트워킹을 네이티브로 지원
NCP(NVIDIA Cloud Partners) 레퍼런스 아키텍처와 완전히 정렬
글로벌 소버린 AI 클라우드 확장성과 완전한 규제 준수 기반
Zadara GPU-Net을 통한 투명한 GPU 간 네트워킹(GPU-to-GPU networking)
VM 기반 GPU 노드 할당 (VM당 1, 2, 4 또는 8개의 GPU) 및 GPU, SuperNIC 패스스루 지원
SR-IOV 인터페이스 기반 DPU 오프로드 네트워크 스택 및 DOCA 가속 서비스 제공(firewall, telemetry, microsegmentation)

Zadara는 이 모든 기능을 완전 관리형 서비스로 제공하며, 24/7 모니터링, 인프라 수명 주기 관리, 2차 운영 지원을 포함합니다. 이를 통해 클라우드 제공자, 통신사, 엔터프라이즈 IT 팀은 Zadara를 기반으로 성능, 가용성, 지속적인 규정 준수를 보장받으며 AI 서비스를 자신 있게 제공할 수 있습니다.

도표 1: Zadara 클라우드 구조 — 분산된 자가 관리형 엣지 위치와 선택 가능한 중앙 집중식 제어

소버린 AI 엣지 클라우드 구현

AI 워크로드가 확장됨에 따라, 인프라 제공자는 멀티 테넌시, 동적 프로비저닝, 하드웨어 수준의 격리를 지원하는 보안성과 고성능을 갖춘 환경을 제공해야 합니다. 이러한 기능은 더 이상 하이퍼스케일러만의 전유물이 아니며, 지역 클라우드(regional cloud), 매니지드 서비스, 통신사, 프라이빗 엔터프라이즈 시스템에서도 필수적인 요소가 되었습니다.

Zadara는 이러한 수요를 충족시키기 위해 처음부터 설계되었습니다. Zadara의 클라우드 네이티브 IaaS(Infrastructure-as-a-Service) 시스템은 GPU 및 비GPU 워크로드를 모두 지원하며, NVIDIA의 레퍼런스 아키텍처와 통합되고, 테넌트별로 정밀하게 제어되는 오케스트레이션, 정책, 네트워크 세분화를 제공합니다. GPU 할당부터 DPU를 활용한 네트워크 오프로드에 이르기까지, Zadara는 복잡성을 추상화하면서도 성능과 규정 준수를 그대로 유지합니다.

NVIDIA Cloud Partner 레퍼런스 아키텍처는 확장 가능하고 소버린하며 멀티 테넌트를 지원하는 GPU 인프라를 구축하기 위해 필요한 원칙들을 정의합니다. 여기에 포함되는 요소는 전체 스택 오케스트레이션, GPU 할당 정책, PCI 패스스루, 테넌트 격리 네트워킹, 그리고 관측 가능성(observability)입니다. 이러한 원칙의 목표는 엣지에서 멀티 리전 팩토리(multi-region factories)에 이르기까지 다양한 환경에서 학습, 추론, 에이전트 워크로드를 지원할 수 있는 AI 클라우드(AI-ready clouds)의 배포를 단순화하는 데 있습니다.

Zadara는 이 원칙들과 완벽하게 정렬되어 있습니다. Zadara IaaS 시스템은 이러한 아키텍처를 단순한 프레임워크가 아닌 제품으로 구현하기 위한 필수 요소인 오케스트레이션 계층, GPU 및 SuperNIC 패스스루, DPU 오프로드, 테넌트별 정책 적용 기능을 제공합니다. 개별 하드웨어와 소프트웨어 구성요소를 조합하는 대신, Zadara는 NVIDIA 소프트웨어 스택을 안전하고 효율적으로 실행하는 데 필요한 모든 기능을 포함한 풀스택 관리형 클라우드 인프라를 제공합니다.

Zadara는 GPU-Net 패브릭 오케스트레이션(GPU-Net fabric orchestration), 동적 프로비저닝, 통합된 DPU 기반 정책 적용 기능을 통해 일관된 멀티 테넌트 GPU 클라우드 배포를 가능하게 합니다. Zadara의 구현에 대한 아키텍처 및 운영 세부 사항은 다음 섹션에서 자세히 다룹니다.

도표 2: Zadara–NVIDIA 레퍼런스 아키텍처 정렬 관계

NVIDIA IaaS 소프트웨어 레퍼런스 아키텍처의 핵심 설계 원칙:

VM 기반 GPU 테넌시를 위한 KVM 기반 하이퍼바이저 모델을 활용한 전체 스택 가상화
ID 서비스 및 IAM(Identity and Access Management)
VM당 1, 2, 4 또는 8개의 물리 GPU를 완전히 할당하는 GPU 패스스루(GPU Passthrough) 아키텍처
테넌트 VM에 직접 할당되는 SR-IOV 기반 가상 NIC 인터페이스
물리 호스트에 직접 접근하지 않는 테넌트 전용의 VM 기반 Kubernetes 클러스터
테넌트가 제어하는 Kubernetes 클러스터 내에 배포되는 컨테이너화된 AI 워크로드
격리 및 텔레메트리(telemetry)를 위한 BlueField DPU 기반 DOCA 지원 네트워크 스택
테넌트별로 VRF, VXLAN, EVPN을 활용한 동적 오버레이 네트워크 패브릭
Run:ai, NVCF, Lepton 등 다양한 오케스트레이션 모델 지원
테넌트 K8s 클러스터 내에서 마이크로서비스로 실행되는 NVIDIA AI 소프트웨어 구성요소(NIM, NeMo)

이 백서에서는 Zadara가 어떻게 자사의 관리형 IaaS 시스템을 통해 이러한 원칙을 구현하는지를 설명합니다. 해당 시스템은 NVIDIA SuperNIC, BlueField DPU, GPU-Net 패브릭 정책을 네이티브로 지원하며, 프로비저닝 시점에 동적으로 오케스트레이션됩니다.

Spectrum-X GPU 패브릭 및 GPU-Net

각 HGX GPU 서버에는 GPU 간 통신(동서 방향 east-west 트래픽)을 위한 SuperNIC 역할의 BlueField 장치가 탑재되며, 이와는 별도로 일반 네트워크 및 스토리지 오프로드용 BlueField DPU가 1~2개 추가로 구성됩니다.(이는 NVIDIA 레퍼런스 아키텍처에서 "일반 네트워킹"으로 정의됨). 이러한 분리는 트래픽 효율성 향상과 역할 기반 하드웨어 가속을 가능하게 합니다.

Zadara는 Spectrum-X를 AI 학습 및 추론 파이프라인에 최적화된 전용 GPU 간 네트워킹 도메인으로 구현하며, 이를 GPU-Net이라 명명합니다. GPU-Net은 가상 오버레이 패브릭이 아니라, VRF, VXLAN, Spectrum-X 정책으로 구성된 오케스트레이션 구조로서, 테넌트 VM이 배포될 때 자동으로 구성됩니다.

각 HGX GPU 서버는 동서 방향(east-west)의 GPU 간 통신을 위한 전용 NIC를 포함하며, 해당 NIC는 ConnectX 기반이거나 NVIDIA에서 SuperNIC으로 명명한 BlueField 카드 모델입니다. 이 NIC들은 GPU 노드에 직접 장착되어 GPU 패브릭의 일부로 관리됩니다. Spectrum-X로 구성될 경우, 이러한 NIC는 서버 간 GPU 간 고대역폭 통신을 제공합니다. 또한 Zadara는 서버당 추가적인 BlueField DPU를 활용하여 북남(north-south) 방향의 일반 네트워킹 트래픽과 인프라 오프로드를 처리합니다.

Spectrum-X 패브릭 설계 주요 사항:

각 GPU 노드는 별도의 Spectrum-X 스위치에 연결된 ConnectX 기반 NIC(SuperNIC)를 여러 개 포함합니다.

이러한 연결은 "레일 그룹(rail groups)"으로 정렬되며, 병렬적이고 블로킹이 없는 경로를 형성하여 NVIDIA가 정의한 리프 스위치(leaf switches) 간의 결정적 지연 시간과 대칭적인 동서(east-west) 트래픽을 보장합니다.
레일 그룹은 GPU 노드 간 선형 속도의 통신을 가능하게 하며, 장애 격리 기능(fault isolation ) 향상시킵니다.
여러 개의 레일 그룹을 조합하여 더 큰 확장형 유닛으로 오케스트레이션할 수 있으며, GPU 워크로드별 성능 격리는 그대로 유지됩니다.
Spectrum 정책은 레일 그룹 전체에 걸쳐 결정론적 경로 및 전체 대역폭을 제공하도록 오케스트레이션되며, 모델 병렬 처리와 추론 워크로드에서 일관된 GPU 간 성능을 보장합니다.

도표 3: Zadara에 의해 구현된 Spectrum-X 레퍼런스 아키텍처

Zadara의 GPU-Net 추상화(GPU- NET Abstraction) 기능:

이더넷 패브릭 상의 VXLAN 오버레이 기반으로 테넌트별 동적 L3 세그먼트 제공
테넌트 VRF별 통합 EVPN 제어 플레인을 통해 분산 가상 라우팅 및 정책 적용 지원
NVLink 및 이더넷 기반 GPU 통신을 지원하는 고처리량 인터커넥트(High-throughput interconnect), RDMA 유무와 관계없이 NVIDIA 최적화 전송 방식 포함
VRF 및 가상 네트워크 세그먼트를 통한 격리를 기반으로, VM 내·VM 간(노드 내/노드 간)의 GPU 간 통신을 투명하게 지원하며, 이는 VM 생성 시 동적으로 자동 프로비저닝됨.
각 VPC는 전용 VRF와 VXLAN 오버레이 네트워크로 구성되어 테넌트 간 트래픽을 완전히 격리하며, 이를 통해 테넌트의 VPC 내 모든 VM이 사용자 개입 없이 GPU 패브릭에 자동으로 안전하게 연결되는 원활한 클라우드 환경을 제공합니다.

GPU 및 SuperNIC 패스스루 기반의 최적화된 VM 구성

Zadara AI 클라우드 내 각 VM은 다음과 같이 구성됩니다:

NVIDIA GPU의 완전한 PCI 패스스루(Full PCI passthrough)를 통해 하이퍼바이저 스케줄링 간섭 없이 베어메탈 수준의 성능 제공
SuperNIC의 완전한 PCI 패스스루로 가상 스위치나 에뮬레이션 디바이스를 완전히 우회
NVIDIA 가상화 가이드라인에 준하여 VM당 물리 GPU 할당 (1, 2, 4, 또는 8개)
NUMA 정렬 및 CPU 피닝을 통해 할당된 GPU로의 로컬 메모리 접근 경로 보장
기반 PCI 토폴로지를 인식하여 GPU 및 NIC 패스스루 디바이스가 교차 CPU 버스 트래픽(cross-CPU bus traffic)이나 I/O 병목 현상을 방지하도록 깔끔하게 매핑
VM 레벨에서 NVLink 스위치 도메인을 인식하여, 가능한 경우 동일 노드 내에서 멀티 GPU 워크로드가 NVLink 대역폭을 완전히 활용할 수 있도록 지원

이러한 설정을 통해 가상화 인프라의 격리성, 정책 적용, 라이프사이클 유연성을 유지하면서도 베어메탈에 근접한 성능을 달성할 수 있습니다. 이러한 특성은 GPU 노드가 테넌트 간에 분할되는 경우에도 유지되며, Zadara는 이 구성을 테넌트 배포 시 자동으로 오케스트레이션하여 수동 튜닝 없이 워크로드 효율성을 극대화합니다.

VM에 여러 GPU가 할당될 경우, Zadara는 NVIDIA Fabric Manager를 활용하여 해당 GPU들이 완전한 NVLink 대역폭과 토폴로지 인식을 갖춘 상태로 초기화되도록 보장합니다. 이로써 GPU 그룹은 노드 내 NVLink 스위치 패브릭에서 최적 위치에 배치되며, 명시적인 테넌트 설정이나 수동 튜닝 없이도 멀티 GPU 워크로드가 저지연 피어 액세스와 NVLink 인터커넥트의 이점을 활용할 수 있습니다.

BlueField DPU 통합

네트워크 오프로드 및 보안 격리

BlueField DPU는 프로그래머블(Programmable) 데이터 처리 장치(DPU, Data Processing Unit) 로, 호스트로부터 핵심 인프라 기능을 오프로드하는 역할을 합니다.

테넌트 VM에 직접 할당되는 SR-IOV 가상 인터페이스
NIC에서 수행되는 가상 스위치, 트래픽 필터링(보안 그룹), VXLAN 가속화 기능을 통해 호스트 CPU 부하를 줄이고 처리량을 향상

각 VM은 하나 이상의 가상 기능(VF, Virtual Function)을 할당받아 하이퍼바이저를 경유하지 않고 SuperNIC에 직접 액세스하며, BlueField를 통해 관리되는 격리된 L2 세그먼트를 활용합니다. 이 아키텍처는 DPU 기반의 정책 적용 및 메트릭 수집 기능을 통해 완전히 격리되고 고처리량을 제공하는 AI 테넌트 환경을 구현합니다.

방화벽, 텔레메트리, 마이크로세그멘테이션 (firewall, telemetry, microsegmentation) 과 같은 DOCA 지원 서비스의 DPU 오프로드 기능도 곧 제공될 예정입니다.

AI 시스템 구현 및 NVIDIA 소프트웨어 스택 통합

Zadara는 NVIDIA AI Enterprise 소프트웨어 스택을 지원할 수 있도록 오케스트레이션, 아이덴티티 관리, 테넌트 수준의 정책 제어 기능을 제공합니다. 이러한 기능에는 보안성과 성능이 최적화된 GPU 가상 머신 환경에서 NVIDIA NIM 마이크로서비스, NeMo 프레임워크, Triton 추론 서버, RAPIDS 파이프라인 등을 실행할 수 있는 컨테이너 기반 환경이 포함됩니다.

Zadara의 zCompute 시스템은 복잡한 인프라 구조를 추상화하고 단순화합니다. API를 노출하고, 할당량(Quota)을 적용하며, GPU 테넌시를 격리함으로써 프로덕션 수준의 AI 워크로드 배포에 최적화되어 있습니다. ID 관리, 멀티 테넌시 정책, 리소스 제어는 NVIDIA Agentic AI Factory 아키텍처 지침에 부합하도록 설계되어 있습니다.

Zadara 시스템은 NVIDIA Mission Control 및 Dynamo를 위한 인프라 기반으로도 활용될 수 있습니다. Zadara가 GPU VM 인스턴스의 오케스트레이션과 라이프사이클을 관리하는 동시에, NVIDIA Mission Control은 배포 환경에 계층화되어 사이트 간 관찰성과 DPU 수준 정책 적용을 제공할 수 있습니다.

이 모델에서 Zadara는 GPU 클라우드 인프라를 프로비저닝하고 관리하며, NVIDIA Mission Control은 사이트와 패브릭 전반에 걸쳐 중앙화된 인사이트와 라이프사이클 추적을 제공합니다. NVIDIA Mission Control은 테넌트 Kubernetes 클러스터 전반의 컨테이너화된 워크로드를 오케스트레이션하지는 않지만, 에이전트 및 API 수준 확장을 통해 Zadara와 통합하여 인프라 상태, DPU 상태, 정책 상태를 시간 경과에 따라 모니터링할 수 있습니다.

Zadara는 주권형 환경과 서비스 제공업체 호스팅 환경 모두에서 이러한 제어 플레인을 운영화하는 데 필요한 보안 멀티 테넌트 기반과 오케스트레이션 계층을 제공합니다.

통합 가능성의 범위를 보여주기 위해, NVIDIA AI Enterprise 스택 및 AI Factory 설계의 다음 소프트웨어 컴포넌트들을 Zadara 상에 배포할 수 있습니다:

NVIDIA NIM: 최적화된 AI 모델 추론 엔드포인트를 제공하는 컨테이너화된 마이크로서비스
NVIDIA Triton Inference Server: VM 또는 컨테이너 관리 클러스터 내에서 확장 가능한 멀티 프레임워크 추론 서빙(multi-framework inference serving)
NVIDIA NeMo: LLM 및 파운데이션 모델을 위한 훈련 및 파인튜닝 파이프라인(fine-tuning pipelines)
NVIDIA RAPIDS: GPU 가속 데이터 분석 및 전처리 라이브러리
Agentic 오케스트레이션 계층: NVIDIA Dynamo와 같은 서비스를 통해 조정되는 새로운 AI 에이전트 워크플로우를 위한 통합 포인트

이러한 통합을 통해 Zadara는 AI Factory 아키텍처의 모듈형 확장 가능한 배포를 지원할 수 있으며, 인프라 준비성과 NVIDIA AI 워크로드의 풀스택 실행을 결합합니다.

요약 (Summary)

Zadara는 컴플라이언스, GPU 밀도, 운영 제어, 비용 효율성, 생태계 정렬과 같은 현대 IaaS의 핵심 요구사항을 해결합니다. 복잡성을 제거하고 모든 데이터센터, 통신사, 기업 또는 지역 클라우드 환경에 배포할 수 있는 완전 통합 GPU 인프라를 제공함으로써 NVIDIA 솔루션 아키텍트와 파트너가 더 빠르게 가치를 전달할 수 있도록 지원합니다.

Zadara의 NVIDIA IaaS 레퍼런스 아키텍처 배포는 우수한 성능, 보안 및 컴플라이언스를 갖춘 실제 운영 가능한 주권형 GPU 클라우드 환경을 구현합니다. 이 구현은 GPU 네트워킹, VM 튜닝, 운영상 타협 없는 풀스택 격리를 포괄합니다.

Zadara의 검증된 NVIDIA 기반 주권형 AI 인프라 접근 방식을 사용한 보안 AI 최적화 GPU 인프라 배포에 대해 더 자세히 알아보시려면 문의해 주시기 바랍니다.

🔗 문의: https://www.ebiztech.co.kr/kor/contact/contact.html

이 블로그 검색

이비즈테크(eBiztech)