블로그

스토리지와 컴퓨팅: AI 작업 흐름의 동시 요구 사항.

하드 드라이브 및 SSD는 GPU, CPU, HBM 및 DRAM과 함께 AI 애플리케이션의 필수 구성 요소입니다.

목차

storage-and-compute-tandem-needs-for-ai-thumbnail-image storage-and-compute-tandem-needs-for-ai-thumbnail-image storage-and-compute-tandem-needs-for-ai-thumbnail-image

AI(인공 지능) 애플리케이션의 채택이 전세계적으로 계속 증가하고 있습니다. 동시에 AI를 지원하는 IT 솔루션의 역량도 빠르게 가속하고 있습니다. 전례 없는 혁신이 뒤따르고 있습니다. 

현재 프로세서(논리) 측면이 AI에 기여하면서 업계 리더와 투자자로부터 가장 많은 관심을 받고 있습니다. 프로세서는 AI와 고성능 컴퓨팅에 필수적인 것은 사실입니다. 그러나 AI의 성공은 컴퓨팅과 고속 성능에만 의존하지 않습니다. 프로세서만큼이나 중요한 점은 AI 애플리케이션은 데이터 스토리지에도 의존한다는 것입니다. 데이터 스토리지는 원시 데이터의 초기 리포지토리를 제공하고, AI 작업 흐름에 신뢰성을 보장하는 체크포인트를 지원하며, 추론과 AI 분석 결과를 저장합니다. 

AI를 성공적으로 구현하려면 컴퓨팅 및 데이터 스토리지 리소스의 시너지가 필요합니다. 

대규모 데이터 센터가 AI 역량을 확장함에 따라 AI 애플리케이션이 AI 데이터 센터 아키텍처의 컴퓨팅 측면에만 의존하지 않는다는 사실이 더욱 명확해지고 있습니다. 컴퓨팅 클러스터는 고성능 HBM(고대역폭 메모리), DRAM(Dynamic Random Access Memory), 빠른 속도의 로컬 SSD(솔리드 스테이트 드라이브)를 갖춘 프로세서로 구성되어 AI 학습을 위한 강력한 엔진을 구축합니다. 컴퓨팅 클러스터 구성 요소는 일반적으로 서로 가까이 붙어있는 로컬 구성 요소입니다. 거리가 멀어지면 대기 시간 및 성능 문제가 발생할 수 있기 때문입니다.

또한 AI 애플리케이션은 대용량 네트워크 하드 드라이브와 네트워크 SSD(컴퓨팅 클러스터의 고성능 로컬 SSD에 비해 용량이 더 큼)를 포함하는 스토리지 클러스터에도 의존합니다. 스토리지 클러스터는 대규모 스토리지 성능 속도에 대한 우려가 적기 때문에 네트워크화(분산)되어 있습니다. 예상 대기 시간이 나노초 단위까지 짧아지는 총 대기 시간 방정식에서 스토리지 클러스터의 구성 요소 간 거리는 컴퓨팅 클러스터의 구성 요소 간 거리에 비해 중요하지 않습니다. 데이터는 궁극적으로 장기 보존용 대용량 하드 드라이브로 구성된 스토리지 클러스터로 흐릅니다.

이 문서에서는 일반적인 AI 작업 흐름의 여러 단계에서 컴퓨팅과 스토리지가 어떻게 함께 작동하는지 살펴봅니다.

AI를 위한 성능 및 확장성.

AI 작업 흐름에는 성능이 더 뛰어난 기술도 있고 확장성이 더 우수한 기술도 있지만 각 기술은 프로세스에 필수적입니다. 온디바이스 메모리는 성능이 매우 뛰어나며 일반적으로 프로세서(GPU(그래픽 처리 장치) 및 CPU(중앙 처리 장치) 또는 DPU(데이터 처리 장치))에 부착된 HBM 또는 DRAM으로 구성됩니다. DPU는 CPU에 부착된 오프로드 기능 엔진으로, 특정 작업에 도움이 됩니다. 아키텍처에 따라 사용 여부가 달라집니다. 메모리의 처리량이 높으면 효율적인 데이터 수집 및 AI의 모델 학습 측면이 가능합니다.

SSD는 대기 시간이 짧고 용량이 충분하기 때문에 저장된 콘텐츠에 빈번하게 액세스하고 빠르게 추론할 수 있습니다. AI 데이터 센터 아키텍처의 경우, 성능이 빠른 로컬 SSD가 프로세서 및 메모리와 가까운 컴퓨팅 클러스터에 포함됩니다. 로컬 SSD는 일반적으로 트리플 레벨 셀 메모리를 실행하고 내구성도 높지만 일반적으로 네트워크 SSD보다 비싸고 용량이 더 작습니다. 

로컬 SSD에 비해 데이터 스토리지 용량이 더 큰 네트워크 SSD는 스토리지 클러스터에 포함되며 AI 애플리케이션의 작업 흐름 전반에 걸쳐 다른 특정 역할을 맡습니다. 네트워크 SSD의 성능 속도는 로컬 SSD의 속도와 일치하지 않습니다. 네트워크 SSD는 일일 드라이브 쓰기 내구성이 상대적으로 떨어지지만 대용량으로 이를 보완합니다.

네트워크 SSD와 마찬가지로 AI 데이터 센터 아키텍처의 스토리지 클러스터의 일부인 네트워크 하드 드라이브는 AI 작업 흐름에서 가장 확장성이 높고 효율적인 IT 장치입니다. 액세스 속도가 비교적 적지만 용량이 매우 커서 빠르고 빈번한 액세스가 필요하지 않은 인스턴스에 적합합니다.

AI의 무한 루프.

AI 작업 흐름은 소비와 생성의 무한 루프에서 작동하므로 컴퓨팅 지원 프로세서와 메모리뿐만 아니라 스토리지 구성 요소도 필요합니다. AI 작업 흐름의 상호 연관된 단계에는 데이터 소싱, 모델 학습, 콘텐츠 생성, 콘텐츠 저장, 데이터 보존, 데이터 재사용이 있습니다. 이러한 단계에서 컴퓨팅과 스토리지가 수행하는 역할을 살펴보겠습니다.

1단계: 데이터를 소싱합니다.

데이터 소싱 단계에는 AI 분석을 위한 데이터의 정의, 발견 및 준비가 포함됩니다.

컴퓨팅: GPU는 고속 데이터 전처리 및 변환을 촉진하여 데이터 소싱 단계에서 기초적인 역할을 합니다. CPU를 보완하여 메인 애플리케이션이 CPU에서 실행되는 동안 반복적인 계산을 병렬로 실행합니다. CPU는 기본 장치 역할을 하며 GPU가 작은 집합의 특수 작업을 수행하는 동안 여러 범용 컴퓨팅 작업을 관리합니다.

스토리지: 데이터 소싱 단계에서는 네트워크 SSD와 네트워크 하드 드라이브가 모두 새로운 것을 만드는 데 필요한 방대한 양의 데이터를 저장하는 데 사용됩니다. 네트워크 SSD는 즉시 액세스 가능한 데이터 계층 역할을 하며 빠른 성능을 제공합니다. 네트워크 하드 드라이브는 공간이 크고 밀도가 높으며 확장 가능한 용량을 제공하며, 원시 데이터 장기 보존 및 데이터 보호도 제공합니다.

2단계: 모델을 학습시킵니다.

모델 학습 단계에서는 모델을 저장된 데이터로 학습시킵니다. 학습은 모델이 수렴되고 체크포인트로 보호되는 시행착오 과정입니다. 학습에는 고속 데이터 액세스가 필요합니다.

컴퓨팅: GPU는 병렬 처리 기능을 통해 딥 러닝과 관련된 대규모 계산 부하를 처리할 수 있기 때문에 모델 학습 단계에서 매우 중요합니다. AI 학습에는 GPU가 동시에 처리하는 수천 개의 행렬 곱셈이 포함되므로 프로세스를 가속하고 수십억 개의 매개변수가 있는 복잡한 모델을 학습할 수 있습니다. CPU는 GPU와 함께 작동하여 메모리와 컴퓨팅 리소스 간의 데이터 흐름을 조정합니다. CPU는 배치 준비 및 대기열 관리와 같은 작업을 관리하여 올바른 데이터가 올바른 시간에 GPU에 공급될 수 있게 지원합니다. 또한 모델의 하이퍼파라미터 최적화를 처리하여 GPU의 병렬 처리 능력이 필요하지 않은 계산을 수행합니다.

모델 학습 단계에서 HBM과 DRAM은 빠른 데이터 액세스를 위해 필수적이며 활성 데이터 세트를 프로세서와 가까운 곳에 유지합니다. 일반적으로 GPU에 통합되는 HBM은 학습 중에 GPU가 가장 자주 사용하는 데이터를 액세스할 수 있는 상태로 유지하여 데이터 처리 속도를 크게 높입니다.

로컬 SSD는 이 단계에서 사용되는 데이터 세트에 대한 빠른 액세스 스토리지 역할을 합니다. 중간 학습 결과를 저장하고 대규모 데이터 세트를 빠르게 검색할 수 있습니다. 수백만 개의 이미지가 포함된 이미지 인식 모델과 같이 대량의 데이터에 빠르게 액세스해야 하는 모델 학습에 특히 유용합니다.

스토리지: 하드 드라이브는 AI 모델을 학습시키는 데 필요한 방대한 양의 데이터를 경제적으로 저장합니다. 하드 드라이브는 필요한 확장 가능 용량을 제공하는 것 외에도 생성된 콘텐츠의 복제된 버전을 저장하고 보호하여 데이터 무결성을 유지하는 데 도움이 됩니다. 하드 드라이브는 다른 스토리지 옵션에 비해 비용 효율적이며, 신뢰할 수 있는 장기 스토리지를 제공하고 대규모 데이터 세트를 효율적으로 보존하고 관리합니다.

무엇보다도 네트워크 하드 드라이브와 네트워크 SSD는 체크포인트를 저장하여 모델 학습을 보호하고 개선합니다. 체크포인트는 학습, 조정 및 적응 중 특정 순간에 저장된 모델 상태의 스냅샷입니다. 나중에 지적 재산을 증명하거나 알고리즘이 결론을 도출한 방식을 보여 주기 위해 사용할 수 있습니다. SSD를 체크포인트 저장에 사용하면 액세스 대기 시간이 짧기 때문에 체크포인트는 빠른 간격(보통 1분마다)으로 기록됩니다. 그러나 SSD는 하드 드라이브에 비해 용량이 작기 때문에 이 데이터는 일반적으로 짧은 시간 후에 덮어쓰기됩니다. 반면에 하드 드라이브에 저장된 체크포인트는 일반적으로 더 느린 간격(보통 5분마다)으로 기록되지만 하드 드라이브의 확장 가능한 용량 덕분에 거의 영구적으로 보관할 수 있습니다.

3단계: 콘텐츠를 생성합니다.

콘텐츠 생성 단계에는 학습된 모델을 사용하여 출력을 생성하는 추론 프로세스가 포함됩니다.

컴퓨팅: GPU는 콘텐츠를 생성하는 동안 AI 추론 작업을 실행하여 학습된 모델을 새로운 데이터 입력에 적용합니다. GPU는 이러한 병렬 처리를 통해 동시에 여러 추론을 수행할 수 있으므로 비디오 생성 또는 대화형 AI 시스템과 같은 실시간 응용 분야에 필수적입니다. GPU가 콘텐츠 생성 중에 컴퓨팅 작업을 주도하는 반면, CPU는 제어 로직을 관리하고 직렬 처리가 필요한 모든 작업을 실행하는 데 매우 중요합니다. 스크립트 생성, 사용자 입력 처리 및 GPU의 높은 처리량이 필요하지 않은 우선 순위가 낮은 백그라운드 작업 실행 등이 여기에 해당합니다.

콘텐츠 생성 단계에서는 HBM과 DRAM을 사용합니다. 메모리는 실시간 데이터 액세스에서 중요한 역할을 하며, AI 추론 결과를 일시적으로 저장하고 추가 개선을 위해 모델에 다시 피드백합니다. 대용량 DRAM은 비디오 생성이나 실시간 이미지 처리와 같은 응용 분야에서 작업 흐름의 속도를 늦추지 않고도 콘텐츠를 여러 번 반복할 수 있습니다.

콘텐츠를 생성하는 동안 로컬 SSD는 실시간 처리에 필요한 빠른 읽기/쓰기 속도를 제공합니다. AI가 새로운 이미지, 비디오 또는 텍스트를 생성할 때 SSD는 시스템에서 병목 현상 없이 빈번한 고속 I/O 작업을 처리할 수 있으므로 콘텐츠를 신속하게 생성할 수 있습니다.

스토리지: 생성 단계에 필수적인 기본 스토리지 요소는 HBM, DRAM, 로컬 SSD입니다.

4단계: 콘텐츠를 저장합니다.

콘텐츠 저장 단계에서는 새로 생성된 데이터를 지속적인 개선, 품질 보증 및 규정 준수를 위해 저장합니다.

컴퓨팅:
GPU와 CPU는 장기 스토리지와 직접 관련되지는 않지만 저장 준비 과정에서 데이터를 압축하거나 암호화하는 데 도움이 될 수 있습니다. 대용량 데이터를 신속하게 처리할 수 있다는 것은 콘텐츠를 지연 없이 보관할 수 있음을 의미합니다. 메모리는 데이터가 장기 스토리지로 이동되기 전에 임시 캐시로 사용됩니다. DRAM은 쓰기 작업의 속도를 높여 AI에서 생성된 콘텐츠를 빠르고 효율적으로 저장합니다. 이는 데이터 저장 지연으로 인해 병목 현상이 발생할 수 있는 실시간 AI 응용 분야에서 특히 중요합니다.

스토리지: 콘텐츠 저장 단계는 지속적인 개선, 품질 보증 및 규정 준수를 위해 데이터를 저장하는 네트워크 SSD 및 네트워크 하드 드라이브에 의존합니다. 네트워크 SSD는 속도에 맞는 데이터 계층을 제공하며 AI에서 생성된 콘텐츠의 단기 고속 저장에 사용됩니다. 하드 드라이브에 비해 용량이 작기 때문에 SSD는 일반적으로 자주 액세스하는 콘텐츠나 즉시 편집 및 수정할 수 있어야 하는 콘텐츠를 저장합니다.

반복 프로세스로 인해 저장이 필요한 검증된 새로운 데이터가 생성됩니다. 이 데이터는 지속적인 개선, 품질 보증 및 규정 준수를 위해 저장됩니다. 하드 드라이브는 생성된 콘텐츠의 복제된 버전을 저장하고 보호하며 AI 프로세스 중에 생성된 콘텐츠를 저장하는 데 중요한 용량을 제공합니다. SSD와 같은 다른 스토리지 옵션에 비해 낮은 비용으로 높은 스토리지 용량을 제공하기 때문에 이러한 용도에 적합합니다.

5단계: 데이터를 보존합니다.

데이터 보존 단계에서는 복제된 데이터 세트를 여러 지역과 환경에 걸쳐 보관합니다. 이 단계에서는 일반적으로 스토리지 리소스가 사용됩니다.

스토리지: 저장된 데이터는 신뢰할 수 있는 AI의 중추로, 데이터 과학자는 이를 통해 모델이 예상대로 작동하는지 확인할 수 있습니다. 네트워크 SSD는 하드 드라이브를 로컬 SSD 레이어에 연결하고 생태계 내에서 데이터의 이동을 지원하는 성능 개스킷으로 사용됩니다.

하드 드라이브는 장기 저장 및 데이터 보호가 필요한 데이터의 주요 원동력입니다. AI 콘텐츠 생성의 결과물을 유지 관리하고 생성된 콘텐츠를 안전하게 저장하여 필요할 때 액세스할 수 있도록 돕습니다. 또한 증가하는 데이터 볼륨을 효율적으로 처리하는 데 필요한 확장성을 제공합니다.

6단계: 데이터를 재사용합니다.

마지막으로 데이터 재사용 단계에서는 소스, 학습 및 추론 데이터를 작업 흐름의 다음 반복에 적용합니다.

컴퓨팅: GPU는 보관된 데이터 세트에서 새로운 추론 또는 추가 학습을 위해 모델을 다시 실행하여 AI 데이터 주기가 다시 시작되도록 함으로써 데이터 재사용 단계에서 중요한 역할을 합니다. AI 시스템은 대규모 데이터 세트에서 병렬 계산을 수행하는 기능을 통해 최소한의 시간 투자로 모델 정확도를 지속적으로 개선할 수 있습니다. CPU는 저장된 데이터를 재사용할 수 있도록 쿼리하고 검색합니다. 과거 데이터를 효율적으로 필터링 및 처리하여 관련 부분을 학습 모델에 다시 제공합니다. 대규모 AI 시스템에서 CPU는 스토리지 시스템과 컴퓨팅 클러스터 간의 상호 작용을 관리하는 동시에 이러한 작업을 수행하는 경우가 많습니다.

AI 모델 분석의 다른 반복에서 재사용하기 위해 과거 데이터를 검색할 때 메모리는 대규모 데이터 세트에 대한 빠른 액세스를 보장합니다. HBM은 데이터 세트를 GPU 메모리로 신속하게 로드하여 재학습 또는 실시간 추론에 즉시 사용할 수 있도록 지원합니다.

스토리지: 콘텐츠 출력은 모델에 피드백을 제공하여 정확도를 향상하고 새로운 모델을 활성화합니다. 네트워크 하드 드라이브와 SSD는 지리적으로 분산된 AI 데이터 생성을 지원합니다. 원시 데이터 세트와 결과는 새로운 작업 흐름의 소스가 됩니다. SSD는 이전에 저장된 데이터의 검색을 가속합니다. 액세스 대기 시간이 짧으므로 데이터를 AI 작업 흐름에 신속하게 재통합하여 대기 시간을 줄이고 전체 시스템 효율성을 높입니다. 하드 드라이브는 AI 데이터 재사용 단계의 대용량 스토리지 요구 사항을 충족하므로 합리적인 비용으로 모델의 후속 반복을 구현할 수 있습니다.

스토리지는 AI의 중추입니다.

앞서 살펴본 바와 같이 AI 작업 흐름에는 고성능 프로세서와 데이터 스토리지 솔루션이 필요합니다. 온디바이스 메모리와 SSD는 고속 성능을 제공하므로 AI 애플리케이션에서 중요한 위치를 차지하며, 빠른 추론을 지원합니다. 하지만 Seagate는 하드 드라이브가 AI의 중추라고 생각합니다. 많은 AI 작업 흐름에서 반드시 갖추어야 하는 경제적 확장성을 고려할 때 하드 드라이브는 특히 중요합니다.

Seagate의 고유한 가열 자기 기록(HAMR) 기술인 Mozaic 3+™ 기술이 적용된 Seagate 하드 드라이브는 영역 밀도, 효율성 및 공간 최적화 이점으로 인해 AI 애플리케이션을 위한 훌륭한 선택입니다. 플래터당 3TB 이상의 전례 없는 영역 밀도를 제공하며, 현재 하이퍼스케일 고객에게 30TB 이상 용량으로 대량 출하됩니다. Seagate는 이미 플래터당 4TB 이상, 5TB 이상을 달성하는 Mozaic 플랫폼을 테스트하고 있습니다.

Mozaic 3+ 하드 드라이브는 현재 세대의 PMR(수직 자기 방식 레코딩) 하드 드라이브에 비해 작동 전력이 4배 더 적게 필요하고 내재 탄소 배출량이 테라바이트당 10배 적습니다.

AI 작업 부하에서는 컴퓨팅과 스토리지가 동시에 작동합니다. AI 애플리케이션에는 고성능 SSD뿐만 아니라 컴퓨팅 중심 처리 및 메모리도 필수적입니다. 확장 가능한 대용량 데이터 스토리지 솔루션도 마찬가지이며 Seagate 하드 드라이브가 이를 선도하고 있습니다.