算力誠可貴,數(shù)據(jù)價更高。
當我們沉浸在算力競賽的角力之際,或許應該牢記AI大咖Andrew Ng的警句:“數(shù)據(jù)不是石油,它是土壤——粗暴開采只會留下荒漠,精心培育才能長出森林。”
的確,隨著Deepseek R1等大模型水平的突飛猛進,人工智能走向普惠化已不再是水中花、鏡中月,而是觸手可及的美好。接下來,大模型即將開啟真正進入到千行百業(yè)的序幕,數(shù)據(jù)的價值有望得以全面釋放的同時,與數(shù)據(jù)相關的一系列新挑戰(zhàn)也接踵而至。
根本原因在于,當下的數(shù)據(jù)架構已然不適應人工智能快速發(fā)展帶來的各種需求,而現(xiàn)代化的數(shù)據(jù)架構,就像是那把打開未來智能之門的金鑰匙,決定著這場人工智能變革的走勢。
正如Hammerspace全球市場高級副總裁 Molly Presley所言:“人工智能時代,解鎖數(shù)據(jù)價值,才有解鎖更多商業(yè)價值的可能。人工智能的快速發(fā)展,會帶來截然不同的工作負載需求,而這一切需要一個面向AI時代的新數(shù)據(jù)存儲架構,并且最好能在不推翻現(xiàn)有環(huán)境的基礎上融入,真正解決數(shù)據(jù)孤島、數(shù)據(jù)管理、存儲利用率等新挑戰(zhàn)。”
![]()
AI時代,數(shù)據(jù)架構迎來巨變
2025年伊始,百模大戰(zhàn)的喧囂猶然在耳,關于數(shù)據(jù)的討論又沸沸揚揚。前有VAST DATA等一眾公司關于針對人工智能對象存儲與文件存儲孰優(yōu)孰劣的激烈討論,后有Deepseek對于數(shù)據(jù)重要性的關鍵啟示。所有這一切都表明:隨著大模型持續(xù)進步,人工智能應用的下半場重點看數(shù)據(jù)。
數(shù)據(jù)價值要想全面釋放,先進的數(shù)據(jù)架構務必先行。數(shù)據(jù)無疑是企業(yè)在未來市場競爭中構建差異化能力的關鍵所在,而數(shù)據(jù)架構又是其中最為重要的拼圖。事實上,在人工智能技術快速發(fā)展的今天,很多企業(yè)依然主要沿用橫向擴展NAS或者HPC文件系統(tǒng)及數(shù)據(jù)架構來應對AI工作負載的需求,隨著企業(yè)在各類業(yè)務場景中部署與應用大模型,傳統(tǒng)數(shù)據(jù)架構均不可避免遇到瓶頸,面臨著以下數(shù)據(jù)挑戰(zhàn):
![]()
其一、由于不同數(shù)據(jù)協(xié)議、生命周期、地域等多個維度因素,新的數(shù)據(jù)孤島開始大量誕生,尤其是非機構化數(shù)據(jù)的孤島,幾乎上一套HPC/AI集群,即意味著一個數(shù)據(jù)孤島的誕生,加上人工智能涉及數(shù)據(jù)環(huán)節(jié)眾多,往往需要大量的數(shù)據(jù)遷移、復制,無形中增加了數(shù)據(jù)管理的難度,數(shù)據(jù)保護更是缺位嚴重。
例如,AI/DL工作負載在數(shù)據(jù)管道層面涉及到數(shù)據(jù)采集、數(shù)據(jù)清洗、訓練、推理、精調和應用等多個流程,并且需要訪問完整的數(shù)據(jù)集,而非結構化數(shù)據(jù)往往又散布在多個存儲類型和位置,導致“復制泛濫”現(xiàn)象頻發(fā)。
其二、傳統(tǒng)數(shù)據(jù)架構的缺陷在人工智能時代在持續(xù)放大。面對人工智能的工作負載,橫向擴展NAS雖然具備豐富的企業(yè)級功能特性,但是在性能上瓶頸明顯且成擴展成本昂貴;而HPC文件系統(tǒng)雖然具備出色的性能表現(xiàn),但在數(shù)據(jù)遷移、數(shù)據(jù)保護等企業(yè)級功能方面卻不足。
“以存儲利用率為例,隨著NVMe SSD容量越來越大,本地部署的GPU設備必然會面臨著存儲利用效率的問題。”Molly Presley直言道。
其三、大部分企業(yè)的數(shù)據(jù)架構缺乏云端敏捷和自動化,本地數(shù)據(jù)架構與云端的對接困難,很難靈活高效地使用云端的算力資源,數(shù)據(jù)流通與協(xié)作更是奢望,加上涉及數(shù)據(jù)管理、數(shù)據(jù)保護等工具,使得數(shù)據(jù)管理與數(shù)據(jù)治理工作復雜,亟待走向自動化與高效化。
“行業(yè)當前沿用橫向擴展NAS和HPC文件系統(tǒng)的做法,后面面臨的挑戰(zhàn)會越來越大。人工智能時代,先進的數(shù)據(jù)架構必須做減法。”Molly Presley表示,“Hammerspace的解決方案是Hyperscale NAS(超大規(guī)模NAS)架構,兼顧了橫向擴展NAS和HPC文件系統(tǒng)各自的優(yōu)勢,并且之后成功在Meta等重磅級客戶環(huán)境中得到了驗證與應用。”
什么才是面向人工智能時代的數(shù)據(jù)架構
“人工智能時代,新數(shù)據(jù)架構必須采用數(shù)據(jù)為中心的架構,讓數(shù)據(jù)成為全局資源。”Molly Presley如是說。
那么,如何才能稱之為“以數(shù)據(jù)為中心的數(shù)據(jù)架構”?
Hammerspace認為,數(shù)據(jù)分散化已成為常態(tài),未來的趨勢是數(shù)據(jù)移動,而非計算移動,數(shù)據(jù)應能自由流動并隨需部署至最適合的計算資源上。
因此,Hammerspace創(chuàng)新思路始于:以基于開放標準協(xié)議的超大規(guī)模NAS架構(Hyperscale NAS)為基礎,幫助企業(yè)構建起全局數(shù)據(jù)環(huán)境;同時,打破數(shù)據(jù)孤島,提供統(tǒng)一的命名空間和數(shù)據(jù)訪問入口,讓企業(yè)用戶們無需關注數(shù)據(jù)底層的各類操作,在任何位置即可完成數(shù)據(jù)的訪問和應用;另外,采用數(shù)據(jù)編排(Data Orchestration)技術來動態(tài)調整數(shù)據(jù)訪問路徑,優(yōu)化存儲和訪問性能,確保數(shù)據(jù)能夠根據(jù)預定義的規(guī)則和實時工作負載需求進行高效訪問。
![]()
“數(shù)據(jù)與計算的緊耦合很容易形成數(shù)據(jù)重力,傳統(tǒng)的‘計算移動到數(shù)據(jù)’理念不再適用。”Molly Presley介紹道,“數(shù)據(jù)需要根據(jù)計算資源來進行靈活調度,從而打破數(shù)據(jù)與計算等基礎設施的緊耦合。”
除了超大規(guī)模NAS架構,數(shù)據(jù)編排技術也是Hammerspace產(chǎn)品中的核心技術。與業(yè)界廣為認知的數(shù)據(jù)編織(Data Fabric)不同,數(shù)據(jù)編排技術目的是實現(xiàn)對數(shù)據(jù)的有效管理和調度流動,將數(shù)據(jù)移動到最合理的位置,從而實現(xiàn)“數(shù)據(jù)定義”。
Molly Presley表示:“數(shù)據(jù)編織是在統(tǒng)一環(huán)境中通過全局命名空間將數(shù)據(jù)聚合起來,而數(shù)據(jù)編排并不是一個關于數(shù)據(jù)的視圖,而是一項讓數(shù)據(jù)自由移動的技術,讓數(shù)據(jù)更加貼近需求。”
同時,Tier 0技術也是Hammerspace產(chǎn)品矩陣中的一項關鍵技術。眾所周知,GPU算力在當下依然是極為稀缺的資源,如何提升GPU利用率,充分發(fā)揮GPU算力性能就成為當前所有用戶都面臨的挑戰(zhàn)。對此,Hammerspace的Tier 0技術通過將GPU服務器本地NVMe存儲整合為共享資源池,不僅大幅提升本地GPU服務器存儲的利用率,同時優(yōu)化了本地數(shù)據(jù)的訪問性能,更將GPU存儲資源納入全局數(shù)據(jù)環(huán)境,幫助企業(yè)真正構建起一個全局數(shù)據(jù)平臺。
![]()
事實上,Hammerspace的產(chǎn)品理念已經(jīng)在人工智能巨頭Meta的業(yè)務中得到成功驗證與應用。在Meta一個擁有3.2萬個GPU的AI集群中,Meta并沒有改變現(xiàn)有基礎設施,在融入Hammerspace產(chǎn)品之后,進行了包括Llama2/Llama3等大模型的訓練工作,不僅很好地滿足了AI集群對于性能的苛刻要求,還滿足AI開發(fā)者對于GPU資源的高效調度與便捷訪問。
隨著Meta、Blue Origin、JellyFish、Los Alamos實驗室等重量級用戶采用了Hammerspace的產(chǎn)品,Hammerspace最近幾年間名聲鵲起,其“以數(shù)據(jù)為中心”的架構理念、強大且靈活的產(chǎn)品正在贏得越來越多用戶的青睞和認同。
針對中國市場,Hammerspace打算這么干
作為一家初創(chuàng)企業(yè),Hammerspace同樣在加速全球的業(yè)務布局。
日前,Hammerspace已正式成立亞太區(qū),計劃重點開拓包括中國、印度、韓國、日本、東盟等國家及地區(qū)的市場。其中,中國作為當前全球人工智能創(chuàng)新最為活躍的市場,Hammerspace如何在中國市場布局引發(fā)高度關注。
在產(chǎn)品層面,Hammerspace在中國市場將采用預配置設備的銷售形式,這樣的方式更便于部署與使用,有利于用戶們能夠快速上手Hammerspace的產(chǎn)品。
”我們非常高興地宣布,我們已與Hammerspace達成了一項針對亞洲地區(qū)市場的戰(zhàn)略合作協(xié)議。通過將Hammerspace的突破性技術與Hammerspace Asia公司在企業(yè)交付和市場知識方面的卓越能力相結合,我們將為整個區(qū)域的組織賦能,幫助他們解鎖新的效率,擴展AI項目,并以前所未有的方式推動創(chuàng)新。這一合作伙伴關系的建立,標志著我們在投資和致力于為客戶提供創(chuàng)新業(yè)務解決方案方面,邁出了重要的一步。” Hammerspace Asia中國區(qū)業(yè)務負責人李睿先生表示。
Molly Presley介紹,Hammerspace的產(chǎn)品除了AI場景外,也非常適合關注數(shù)據(jù)合規(guī)、數(shù)據(jù)治理、數(shù)據(jù)隱私保護等場景的行業(yè)用戶。
在生態(tài)層面,Hammerspace非常重視中國市場的本地技術生態(tài),除了與硬件合作伙伴的合作之外,還會重視行業(yè)上層應用側的各類合作伙伴,通過與合作伙伴緊密合作來更好地幫助企業(yè)全面釋放數(shù)據(jù)價值。
“Hammerspace軟件產(chǎn)品是完全硬件中立的,并且具有充分的靈活性,我們之后會在服務、支持等方面給予中國市場最大的支持。”Molly Presley如是說。
綜合觀察,隨著人工智能技術走向普惠化,數(shù)據(jù)架構層面的挑戰(zhàn)刻不容緩。Gartner最新報告認為,企業(yè)在AI就緒的準備中,對于數(shù)據(jù)相關方面的投資未來可能獲得20倍以上的效率提升。顯然,在傳統(tǒng)數(shù)據(jù)架構瓶頸日趨凸顯的情況下,Hammerspace帶來的“以數(shù)據(jù)為中心”的架構理念正迅速獲得業(yè)界的認同,其產(chǎn)品也正成為人工智能時代解決數(shù)據(jù)挑戰(zhàn)的更優(yōu)解。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.