전례 없는 데이터 성장을 주도하는 AI.

모델이 발전하고 AI가 보편화됨에 따라 데이터 생성은 기하급수적으로 증가할 것입니다.

AI와 함께 창조와 혁신이 폭발적으로 증가할 것입니다.

생성형 AI는 개인화된 게임부터 의료 영상, 콘텐츠 제작에 이르기까지 일상생활의 거의 모든 측면에서 리치 미디어가 확산되는 새로운 시대를 열고 있습니다.

사용자가 생성, 분석 및 개발할 수 있도록 돕는 AI 응용 분야에 대한 접근성이 높아지면서 AI 기반 데이터 성장이 가속화되고 있습니다. 그리고, 이는 시작에 불과합니다. 혁신적인 사용 사례가 확장됨에 따라 사람과 기계는 전례 없는 속도로 데이터를 생성할 것입니다.

AI는 데이터 성장을 가속화합니다.

지금까지 AI는 데이터 소비자였습니다. 이제 AI는 강력한 데이터 생성자입니다.

AI는 불과 년 반 만에 150억 개의 이미지를 생성했습니다.¹ 2028년까지 AI 모델을 사용한 이미지 및 비디오 제작은 167배 증가할 것으로 예상됩니다.² 궁극적으로 AI 시대는 더 풍부한 콘텐츠, 더 많은 복제, 더 긴 보존이라는 세 가지 핵심 요소로 인해 주요 데이터 성장 변곡점을 촉발하고 있습니다.

더 풍부한 콘텐츠.

AI의 혁신적 잠재력은 리치 미디어를 소비하고 생산하는 멀티모달 모델에 있습니다.

더 많은 복제.

AI 데이터는 모델이 학습되고 출력을 생성하는 동안 수없이 복사됩니다.

더 긴 보존.

데이터 보존은 AI 개발을 촉진하고 투명성을 제공합니다.

더 풍부한 콘텐츠.

AI의 혁신적 잠재력은 리치 미디어를 소비하고 생산하는 멀티모달 모델에 있습니다.

The smart chatbots and search summaries we use today are mere baby steps in AI's growth. The real transformative potential lies in multimodal AI models that consume and produce rich media.

이미지, 오디오, 비디오, 3D 애니메이션과 같은 더 풍부한 입력은 더 강력하고 직관적인 환경을 지원할 수 있는 더 풍부한 출력을 생성합니다. 멀티모달 AI 응용 분야의 범위와 기능이 확장됨에 따라 사람과 기업은 전례 없는 속도로 생성할 수 있게 될 것입니다.

미래의 리치 미디어 AI는 모든 산업에 영향을 미칠 것입니다.
  • 게임용 고해상도 3D 모션 그래픽
  • 추가 애니메이션으로 완성되는 영화 제작의 가상 세트용 Ultra HD 비디오
  • 건축, 엔지니어링, 건설, 제조를 위한 3D CAD 생성기 및 물리학 시뮬레이터
  • 방사선과, 종양학, 외과 분야의 AI 의료 보조자
  • 약물 발견 및 테스트를 위한 분자 합성
  • 초개인화된 광고, 게임 및 온라인 경험
     
이 모든 리치 미디어가 차세대 AI 모델을 향상하는 데 사용됩니다.

수 시간 분량의 콘텐츠, 수천 개의 이미지, 테라바이트 규모의 데이터를 생성할 수 있는 이 새로운 세상에서는 다음과 같은 세 가지 일이 일어납니다. 점점 더 많은 사람이 AI를 사용하여 점점 더 데이터 집약적인 콘텐츠를 생성하고, AI는 차세대 모델 교육을 위해 모든 데이터를 수집하며 전 세계에서 생성되고 저장되는 데이터의 양이 폭발적으로 증가합니다.

더 많은 복제.

AI 데이터는 모델이 학습되고 출력을 생성하는 동안 수없이 복사됩니다.

Enabling successful AI models and applications requires more data replication. Whether to ensure model quality through checkpointing, distribute applications geographically, iterate outputs, or modify them into multiple formats, copying data is integral to AI as models are dispersed across cloud and enterprise environments.

새로운 콘텐츠를 생성하고 복제하는 것은 AI 데이터 수명 주기 전반에 걸쳐 발생하는 복제의 일부일 뿐입니다. 데이터 발자국은 AI 개발 및 프로덕션 프로세스 중에 급증하고 AI가 배포되고 콘텐츠 생성이 시작되면 기하급수적으로 확장됩니다. 주기 전반에 걸쳐 전체 데이터 에코시스템은 규정 준수를 위해 반복적으로 복제됩니다.

복제는 모든 단계에서 데이터 증가를 가속화합니다.
  • 학습을 위해 데이터가 발견되고, 정리되고, 레이블이 지정될 때 데이터도 복제됩니다.
  • 학습 중 정기적인 체크포인트를 통해 진행 상황을 백업하여 일반적인 학습 실행에서 수백 개의 대용량 파일을 생성합니다.
  • 모델과 애플리케이션이 배포되면 해당 데이터가 수많은 노드와 인스턴스에 복사됩니다.
  • 점점 더 많은 사람들이 AI를 사용하여 여러 개념, 실험 및 버전을 만들고 반복합니다.
더 긴 보존.

데이터 보존은 AI 개발을 촉진하고 투명성을 제공합니다.

The data an AI model consumes and creates is a treasure trove of model behavior, usage patterns, and raw material. The more data we preserve, the better we can train and optimize models to produce better quality output.

모델 학습은 레이블이 지정된 대규모 데이터 풀에서 시작됩니다. 체크포인트 데이터를 포함하여 학습 실행 전반에 걸쳐 데이터를 저장하면 향후 모델 동작에 대한 통찰력을 제공할 수 있습니다. 모델이 배포되고 결과가 생성되면 각 프롬프트와 응답은 모델 성능을 평가하고, 모델을 조정하고, 다음 학습 실행을 준비하는 데 귀중한 소스가 됩니다.

데이터는 데이터 주기의 모든 합리적인 시점에 보존되어야 합니다. 
  • AI를 향상하고 개발하려면 새로운 데이터와 통찰력이 필요하며, 보존된 데이터가 이를 제공할 수 있습니다.
  • 미래의 더 스마트한 AI는 저장된 데이터에서 통찰력을 얻어 새로운 가치를 창출할 수 있습니다. 
  • 저작권법에 따라 저작물은 사용에 대한 라이선스를 획득해야 하며, 데이터를 보존하면 감사 가능한 추적 자료를 제공할 수 있습니다.
  • 규정에 따라 개인정보 보호, 법률 및 윤리 지침 준수를 입증하기 위한 보안 스토리지가 필요합니다.
신뢰할 수 있는 AI는 데이터 투명성에 달려 있습니다.

데이터를 장기간 보관하는 것은 AI 모델의 신뢰성을 확립하는 데 매우 중요합니다. 모델에서 내리는 각 결정을 문서화하고 결과를 분석하면 개발자가 모델 성능 저하와 환각 현상을 발견하는 데 도움이 됩니다.

학습 데이터로 오류를 다시 추적하면 주어진 모델의 의사 결정 프로세스를 분석하고 재학습 및 최적화를 위한 데이터를 제공하는 데 도움이 될 수 있습니다. 이러한 모든 데이터 포인트는 모델 성능에 대한 객관적이고 투명한 증거를 제공하기 위해 보존 및 공유되어야 합니다.