人工智慧促成了前所未見的龐大資料成長量。

隨著模型發展進步和人工智慧普及,資料建立量將會大幅成長。

使用人工智慧的資料建立量和創新技術會爆炸性增加。

生成式人工智慧正在開創新時代,而多媒體資料幾乎將遍及日常生活的每個層面。從個人化遊戲體驗到醫學影像,再到內容產生等都包括在內。

人工智慧應用程式的出現,讓使用者更容易獲得建立、分析和開發的能力,人工智慧驅動的資料成長也會爆發成長。但這都只是開始而已。隨著創新用途不斷擴大,人們和機器會以空前的速度產生資料。

人工智慧是資料成長的大力推手。

人工智慧向來都是資料的接收者。現在還成為了強力的資料建立者。

在僅僅 年半內,人工智慧已經建立了 150 億張影像¹。到 2028 年,人工智慧所建立的影像和影片會成長 167 倍²。人工智慧的時代終將觸發重大的資料成長反曲點,而這是由三大主要因素導致:更多樣化的內容、更多複製量和更長的保存期。

更多樣化的內容。

人工智慧引發變革的潛力,是在多模態人工智慧模型中,這種模型會吸收和產出多媒體資料。

更多副本。

模型在訓練和產生輸出成果的期間,人工智慧資料會被複製無數次。

更長的保存期。

資料的保存是人工智慧發展的動力,也有助於提高透明度。

更多樣化的內容。

人工智慧引發變革的潛力,是在多模態人工智慧模型中,這種模型會吸收和產出多媒體資料。

The smart chatbots and search summaries we use today are mere baby steps in AI's growth. The real transformative potential lies in multimodal AI models that consume and produce rich media.

像是影像、音訊、影片和 3D 動畫這類更為多樣化的輸入來源,能夠創造出更多樣化的輸出成果,並且支援更強大、更直覺化的體驗。隨著多模態人工智慧應用環境的範圍和功能逐步擴大,無論是人類還是公司企業,建立資料的速度都將會空前飛快。

未來的多媒體人工智慧會進入所有產業。
  • 遊戲用的高解析度 3D 動畫繪圖
  • 虛擬製片場景的超高畫質影片,加上更多動畫內容
  • 建築、工程設計、營建、製造業使用的 3D CAD 生成器和物理模擬器
  • 放射線科、腫瘤科、外科手術的人工智慧醫療助理
  • 藥物開發和測試所用的分子合成技術
  • 高度個人化的廣告投放、遊戲和線上體驗
     
所有這類多媒體都會用來強化次世代的人工智慧模型。

在這個全新的世界,我們可以建立數小時的內容、數千張影片、還有以 TB 計的資料,共有三件事會發生。許多人會使用人工智慧建立資料量越來越高的內容,人工智慧會吸收所有資料來訓練下個世代的模型,在全世界建立和儲存的資料量會爆炸性成長。

更多副本。

模型在訓練和產生輸出成果的期間,人工智慧資料會被複製無數次。

Enabling successful AI models and applications requires more data replication. Whether to ensure model quality through checkpointing, distribute applications geographically, iterate outputs, or modify them into multiple formats, copying data is integral to AI as models are dispersed across cloud and enterprise environments.

新內容的產生和複製只是人工智慧資料生命流程中的一小部分複製工作。資料足跡會在人工智慧發展和生產的過程中迅速增長,一旦部署了人工智慧並開始產生內容,就會一起快速增加。在整個週期內,整個資料生態系統會為了符合嚴苛的法規而反覆複製。

每個階段的複製作業都會讓資料倍增。
  • 每當為了訓練而發掘、彙整和標記資料時,也會複製資料。
  • 訓練過程中的一般檢查點會備份進度,在普通的訓練回合就會建立數百個龐大的資料。
  • 當模型和應用程式部署出去後,資料會在許多節點和執行個體上複製。
  • 越來越多人會使用人工智慧來建立和迭代處理多種概念、實驗和版本。
更長的保存期。

資料的保存是人工智慧發展的動力,也有助於提高透明度。

The data an AI model consumes and creates is a treasure trove of model behavior, usage patterns, and raw material. The more data we preserve, the better we can train and optimize models to produce better quality output.

訓練模型首先需要龐大的標記資料區。在訓練回合中時時儲存資料 (包括檢查點的資料) 有助於深度分析未來的模型行為。模型部署完畢並開始產生資料後,每個提示和反應都是珍貴的來源,可供評估模型效能、調整模型,並用於準備下一次的訓練回合。

資料循環內每個合理的時間點,都應當保存資料。 
  • 改善和開發人工智慧需要新鮮的資料和深度分析,而保存的資料就是來源。
  • 未來人工智慧會變得更聰明,也許能深度分析從前儲存的資料,創造出新的價值。 
  • 版權法規要求作品需獲得使用許可,保存起來的資料便可供審計之用。
  • 法規要求資料的儲存必須有安全保障,以展現符合隱私權、法律和道德規範的相關規定。
可信賴的人工智慧,資料必須公開透明。

若要建立人工智慧模型的信賴度,長期保留資料相當重要。若能記錄模型所做的每個決定並分析結果,有助於開發人員找出模型的偏移和幻覺。

回溯錯誤到訓練資料,就能瞭解特定模型的決策流程,並提供重新訓練和最佳化的資料。所有這些資料點都應當保存並共享,才能為模型的效能提供客觀透明的證據。