騰訊雲AIGC存儲解決方案全面升級,數據清洗、訓練效率翻倍

極客公園 2024-04-10 02:45:40

4月8日,在騰訊雲存儲技術發布會上,騰訊雲宣布其面向AIGC場景的雲存儲解決方案實現全面升級。據悉,使用新的解決方案,大模型的數據清洗和訓練效率可提升一倍,所需時間縮短一半,爲AI大模型的研發和應用提供了強有力的支持。

騰訊雲AIGC雲存儲解決方案的核心競爭力在于其全面自研的存儲引擎技術。該方案由對象存儲COS、高性能並行文件存儲CFS Turbo、數據加速器GooseFS和數據萬象CI等産品組成,是國內首個實現存儲引擎全面自研的雲存儲解決方案。目前,已有80%的頭部大模型企業,如百川智能、智譜、元象等,選擇了騰訊雲的AIGC雲存儲解決方案。

在AI大模型的研發生産流程中,數據采集與清洗、模型訓練、推理是三大關鍵環節,每個環節都涉及海量的數據處理。

騰訊雲對象存儲COS支持單集群管理百EB級別存儲規模,提供便捷、高效的數據公網接入能力,並支持多種協議,充分滿足大模型PB級別的海量數據采集需求。COS通過自研數據加速器GooseFS提升數據訪問性能,實現高達數TBps的讀取帶寬,顯著提升數據清洗效率。

在模型訓練環節,騰訊雲自主研發的並行文件存儲CFS Turbo,經過專門優化,每秒總讀寫吞吐達到TiB/s級別,每秒元數據性能高達百萬OPS,爲業界領先。CFS Turbo能夠在10秒內完成3TB checkpoint文件的寫入,大幅提升大模型訓練效率。

此外,數據萬象CI爲大模型推理場景提供圖片隱式水印、AIGC內容審核、智能數據檢索MetaInsight等能力,全面優化AIGC內容生産與管理模式,順應監管導向,拓寬存儲邊界。

隨著大模型應用的普及,存儲需求將變得更加多樣化和複雜化。在應對這一挑戰的同時,騰訊雲推出了Metalnsight産品,以滿足多模態數據搜索的需求,並且在存儲層面創新性地應對這些挑戰。

當前存儲技術主要應用于大模型的訓練階段,但隨著大模型應用的普及,存儲技術將逐步向智能存儲和數據應用方向發展。同時,當前存儲領域仍然需要解決穩定性、性能和性價比等核心問題,但隨著大模型應用的持續增長,智能存儲、數據治理和數據應用等方面將成爲未來存儲技術發展的重點。

會後,騰訊雲存儲總經理馬文霜、騰訊雲存儲總經理陳峥、騰訊雲文件存儲總監陸志剛以及騰訊雲智能存儲總監葉嘉梁接受了極客公園在內的多家媒體群訪,分享了騰訊雲存儲在AIGC場景下的能力升級,以及新一代的存儲發展趨勢,群訪內容如下:

訓練與存儲策略

問:在大模型的訓練環節有一個指標是Checkpoint寫入時間,可否詳細解釋一下這個操作具體是什麽,以及爲什麽重要?

馬文霜:Checkpoint它其實是GPU的顯存,剛剛也提到如果我們沒有把Checkpoint周期性的保存下來的話,那麽它的訓練的話就像剛剛陸志剛講的,比如說我們寫個文檔你沒有保存的話,中途沒有保存的話,一旦斷電以後你的文檔內容就全沒了,大模型的訓練其實也是一樣的,它中間的這些結果的話如果你不保存的話,,一旦遇到任何一個卡掉卡或者任何一台機器宕機,前期的訓練全部的功虧一篑了。所以說我們需要去寫這個Checkpoint,那寫這個Checkpoint爲什麽需要快才行呢?

第一,你寫這個Checkpoint的時候它是所有的GPU全部要停下來,等你Checkpoint寫完了,就說每個GPU都要把自己的顯存寫到共享存儲裏面,必須是所有的GPU它都寫完了那我的GPU才能繼續開始訓練。也就是說,你這裏寫入的時間一定要非常短,如果你寫的太長了,比如說你任何一個卡寫慢了那可能其他人全部在等你,這樣的話你GPU訓練的效率就被拉低了,所以說我們就需要我們存儲的話提供更高的寫入帶寬,讓我們的寫入包括剛剛陸志剛講的,我們通過一些異步寫入的方式讓GPU的等待盡量的短。

問:在數據清洗環節騰訊雲使用的是對象存儲COS,但實際上在訓練和推理階段用到的是並行文件存儲CFS Turbo,爲什麽在不同環節用不同的存儲産品?在這個基礎上底層的引擎也不一樣,這兩個環節的不同之處分別是什麽?

馬文霜:這個我來回答一下吧。清洗環節它的對象是互聯網上原始數據,所以它的數據量是比較大的,一般到PB級甚至到EB級的。但是比如說清洗完了以後,可能它只是裏面符合我們需要的那個內容其實只是裏面的一小部分,所以說我們把原始數據放到COS裏面的話主要是考慮到COS它的價格是更便宜,那這樣的話我是可以付出更小的成本先把原始數據先存下來。我清洗完了以後,我裏面有效的數據我提取出來了以後,那我放到Turbo裏面,Turbo因爲它是一個高帶寬、高OPS、高IOPS的一個存儲,它的存儲的價格的話是比對象存儲要高的。

爲什麽要放到Turbo裏面呢?主要還是你在訓練這個環節,因爲它是要涉及到GPU集群效率的一個提升,因爲如果你在訓練這個環節你還是去用COS低成本存儲的話,前面我們也講過,因爲它是一個regions的一個服務,標准是通過HTPP的方式去訪問的,它的延遲自然是比較高的。那如果我們還去用COS的話那,我們GPU訓練的效率就上不來,自然我們整個你訓練的周期就會拉長。

問:在訓練推理階段用到的是異步模式,正常情況下Checkpoint是後面檢查完了之後再進行下一階段的訓練,有看到其實是並行的,在這個過程中Checkpoint如果出問題了,後面的環節是不是反而會更多的花費時間?

陸志剛:我們設計這個異步模式就是考慮到這一點,它如果是中間會出問題的話,那我們下面存儲的服務會去做一些重拾,數據不會丟掉,即使後端整個集群重啓,這中間緩存的數據也會在集群重啓之後刷入到後端的存儲。我們這裏做到的是客戶使用原生的pinpoint(音)直接寫入就可以,有些友商也做了類似的功能,但是它是需要去改pinpoint結構,去給它打一些補丁,要求客戶安裝補丁之後再去做到異步的操作。

問:看到騰訊雲用了文件存儲、對象存儲來解決整個AIGC的問題,數據是怎麽移動的?

馬文霜:其實我們數據的話還是以整個COS數據湖作爲底座,包括我們做完清洗你的數據的話,比如說我們現在一般用戶它都會有一些數據平台它會去做一些數據的移動,比如說在我們的Turbo和COS之間做移動。

我們現在也有一些能力,像我們Turbo它其實跟我們底座COS它是打通的,其實我們之前有一些用戶案例,因爲跟這次的AIGC不是太相關,比如說它的數據它是先放在Turbo裏邊,一段時間以後我們可以通過Turbo下沉到COS裏面去降成本,相當于它在Turbo裏面只需要不太大的一個集群或者說容量來爲它提供很好的性能,那這裏的話其實它就不用再去付出它有對應的存儲容量的成本,其實就是一個提升性價比的一個方案了。

問:對象存儲COS在推理和訓練中也會從上面讀數據,CFS Turbo打通的話它是不是就通過Turbo那邊直接在讀數據,對象存儲的數據不需要通過GooseFS了?

馬文霜:我們提供的方案有兩種,可以GooseFS作爲加速,可以根據用戶的場景用戶自己來選擇了。比如說有些用戶他喜歡更全的文件訪問的語義,這個就是我們Turbo提供更全的訪問的語義,他可能更喜歡用Turbo來去完成的業務的處理。比如說有些用戶他說我不想再去買一個Turbo,我就用COS加Goose加速器GooseFS那我也沒有太多的語義需求的話,主要是讀、寫、刪,做一些最佳什麽的,其實GooseFS的話也能滿足它的訴求,主要還是說我們提供了多種解決方案,還是爲了方便用戶的使用。

問:就PC或者手機而言,怎麽看待存儲在雲端或者在本地?

陳峥:包括我們對象存儲也好,其實我們提供了全鏈路的安全訪問一些策略、措施,從數據的上雲、清理、域訓練包括最後的訓練,就是我們對存儲的數據都是做了一些加密的,用戶的訪問也是通過Tbps這種協議防止數據被篡改或者讀取。其實我們的數據跟計算都是盡量的把數據推到訓練所在的GPU或者一些清洗的一些CPU的附近,其實也就是你剛才講的盡量做到本地,其實雲上已經可以做到這種狀態了。你自己再去做一些私有化的部署,其實跟我們雲上所做的事情是類似的。

還有一個雲上能夠提供一個多住戶的一個模式,可以基于我們計算資源也好或者存儲資源也好,用戶它是按需或者說有一些雲上的一些錯峰也好,能夠給我們雲上的客戶提供更優質的,成本相對低廉的或者效率更高的,有可能我們會利用我們整個雲上彈性的資源,就是說用戶有一些業務突發或者有一些峰值的時候雲上能夠扛住的,反而你去做本地化的部署,你的資源就那麽多,你的業務一下子漲了2倍、3倍,其實你的服務器就被打亂了。

騰訊雲的技術路線

問:騰訊雲一些技術架構上的創新,放在國際上或者業內的話怎麽看?對于存儲容量的需求不斷增長,如何看待當前的存儲需求上限和未來的發展趨勢?

隨著用戶數量的增加,大模型的性能和效果可能會提升,但這也導致成本的增加。隨著模型參數的增加,總體成本仍在上升。是否現有的降成本措施在面對未來更大模型的需求時可能只是杯水車薪?

馬文霜:我先回答第一個、第二個問題。現在Turbo或者高性能存儲在國際上或者說業內吧,業內並沒有給用戶提供一個開箱即用或者說用戶需要這麽高的帶寬的時候它其實現在還是沒有很好的産品形態能夠滿足用戶的需求的,包括剛剛我們提到的我們友商也在做一些OEM這樣的一個産品策略也是說想能夠快速的滿足用戶對高帶寬的這麽一個訴求。

第二個,到底性能的天花板在哪裏。現在有點說不清楚,爲什麽呢?因爲我感覺大模型現在整個的技術甚至它的這種環境都不停的在變化,我們雲廠商要做的就是說我們能很好的跟隨這個變化,當用戶說後續還繼續去做對GPU卡去提升算力,去做更大參數的大模型,那我們也就只能去跟隨,我們讓我們的存儲在這裏面能夠很好的幫助用戶去做這樣的一個嘗試。

如果另外的一個發展方向是說可能是要把模型精簡化或者說去做不需要那麽大的算力,包括像現在也有一些創業團隊在去做,他們叫做更聰明的AI基礎設施就是我不需要這麽多的卡,歸根結底還是說我們也時刻跟隨這個行業的發展趨勢,我們做滿足行業需要的存儲産品。

陳峥:第三個的話是這樣的,隨著我們訓練參數的提升,它其實對模型所需要的算力更存力其實都是有不同程度的提升的,只是說我們整個雲存儲團隊在做産品演進和産品規劃的時候是我們盡量的去在提升我們産品規格和性能的同時能夠在客戶使用存儲的時候能夠盡量的去幫客戶提供更高性價比的産品,這個是我們整個雲存儲團隊的一個初衷。

但是說算力這裏,業界目前比較多的一個玩法是什麽呢?它會先訓練一個大模型,基于大模型上面再架小模型,就是去做一些微調,變向做一些性價比的提升,我不需要在多輪的基于大模型的去做,因爲我大模型出來以後我基于小模型再去做一些微調其實也是可以達到它想要的效果的,這是目前業界普遍的一種做法。

基于這些考慮,我們在算力跟存力同時具備的時候,我們怎麽能夠在算力這裏能夠給客戶提供更高性價比的産品是我們主要考慮的一個地方。

圖片來源:視覺中國

問:騰訊團隊內部包括跟混元這邊一塊去做技術判斷的方法有沒有一些可以分享的?

陳峥:我來回答一下這個問題吧。因爲我們這邊跟混元對接比較多。是這樣的,混元它其實每到一個階段它會提一個訴求,就是說我們希望達到什麽程度。我們是基于混元提的它的訴求我們會去提前做一些預估或者做一些預判怎麽去提升或者做我們産品的一些叠代或者是優化去滿足整個混元對整個算力、存力要求的。算力這裏相當于混元它有自己的一些考量,這個不是我們團隊能夠介入或者說去幹預的。

AI 存儲的市場需求

問:騰訊雲現在的存儲技術,不止是對AI的訓練吧?

馬文霜:對,包括我們的數據清洗其實它不一定是For AI的,我們還可以更大的數據清洗場景,包括我們跟大數據生態結合起來,但大數據那一塊的能力的話,其實它不一定是AI相關的,還有包括像我們CFS Turbo的話,其實它還有很大一部分是在爲隱私渲染,它其實也是需要很大的讀寫帶寬的。相對來說我們整個的方案的話它是我們之前服務了除了AI以外,除了大模型以外其他的場景其實都是是用數據清洗,我們的高吞吐、高性能的文件存儲,我們的數據審核,其實大部分的用戶的話可能只是用到其中的一個環節。

問:解決方案升級價格會漲嗎?

馬文霜:價格我們是沒有變化的。

問:現在來看哪些行業的客戶可能會更願意買或者更需要這樣的服務?

陳峥:我們現在整個一套的雲存儲解決方案除了在AIGC這個領域之外,其實我們在自動駕駛這個領域其實案例是蠻多的,只是說自動駕駛它更側重訓練,它在推理這裏會稍微偏少一些。AIGC它訓練出它的模型之後,像目前比較多的C段的應用APP它其實是基于智能模型在做推理實際應用輸出,其實現在整個業內的一些AIGC的應用大家應該都體驗過,像KiMi是To C的一些東西,自動駕駛更側重在B端,用戶通過它的路采數據上來之後,海量的數據去做一些清洗、分割,然後再去輸送到整個自動駕駛訓練場景,能夠産生一些模型的數據去輔助我們的車輛怎麽去規避一些路障,能夠自動駕駛行駛的過程。

除了我們同事剛才說的,還包括渲染,在一些電影動畫裏面去做渲染,其實也是用到我們整個雲存儲的解決方案。我們今天做的發布升級主要是應用場景是講AIGC,就包括我們自研的混元,包括我們外界支持的大模型之外,其實各行各業基于我們整個雲存儲的底座,我們雲存儲底座提供了更多的解決方案能夠適配各行各業。

問:方案裏面有提到騰訊雲是業內唯一雲原生自研並行文件的存儲引擎,行業內其他廠商是怎麽做的?他們有沒有提供類似的産品?

馬文霜:現在行業內我們有些友商是國外産品爲用戶提供並行的文件存儲的場景,這個也是業內一個通用的一個做法。爲什麽呢?用戶需要這樣高性能,就是這麽強的文件存儲,但是現在由于友商前期的布局或者准備不足的話,現在的市場需求又是比較的迫切,去o一個商業化的軟件或者說産品也是順理成章的。

我們4年前就在布局高性能文件存儲這一塊,剛好前期的布局和投入剛好在大模型的訓練這一塊派上了非常大的用場。

問:騰訊雲AIGC存儲解決方案的技術門檻是否適合外部客戶使用?目前使用該解決方案的客戶類型及其主要應用場景是什麽樣的?是否所有用戶都需要這樣高級的存儲服務,或者MaaS等簡化服務其實已經能滿足大多數用戶的需求?

陳峥:這個問題我來回答一下。我們整個自研業務裏面,包括我們混元大模型其實也是基于我們整個AIGC雲存儲的一個底座來進行構建的,包括剛才大家說的我們基于Checkpoint寫入其實也是基于我們的CFS Turbo高性能寫入的一個新的架構,包括數據的清洗這些也是基于我們對象存儲COS包括我們整個底座的存儲引擎YottaStore進行構建的。在整個效率上,具體的數據我就不說了,整個效率包括我們的訓練時間確實提升了2倍以上,從我們自研業務上來看。

從外部客戶來看的話,AIGC清洗領域的一些創業公司應用了我們整個AIGC雲存儲的整個解決方案之後,包括我們的清洗、訓練它的效率確實也得到了提升,包括在整個應對讀寫大帶寬的時候、高吞吐的時候,跑出實際業務的值已經超出我們當時的想象,確實提升有數倍之多。

馬文霜:我剛剛那個問題我稍微補充一下。我們其實兩年前我們發布了我們CFS Turbo的第一個版本,當時我們是100GB的讀寫吞吐,我們當時覺得這個讀寫吞吐已經足夠的大了,應該很多的業務已經用不到了,去年大模型出來了以後,大模型用CFS Turbo來去寫Checkpoint,我們發現其實100G還遠遠不夠。

我們實際業務場景裏面,現在在我們雲上實際的業務數據的話我現在也直接講了,基本上我們有200G以上的甚至有跑到300多個GB的吞吐的,所以說現在我們這一次把能力的話升級到了一個TB,也是說我們希望我們把我們能力升級了以後能夠更好的去讓這些大模型的用戶能更快的加速它的訓練,提升效率。

未來趨勢

問:第一個問題,Metalnsight産品中跨模態檢索功能的技術細節是怎麽樣的?它怎麽創新性地在存儲層面滿足多類型數據搜索的需求?第二個問題,這一輪技術浪潮到來之後,對于存儲當下的一個變革以及未來的技術趨勢四位是怎麽展望的?

葉嘉梁:兩個問題,我可能倒著稍微解答一下。因爲其實我們可以看到包括前段時間Sora再往前GPT Sora再到最近一些音樂相關的Suno等等現在各種大模型的應用出來。其實對于整個存儲而言,我們前面馬大師講整個大模型的時代下面我們需要怎樣一個存儲,其實我們要做的存儲最核心的根本是穩定性、性能,可能還有性價比。大模型來的時候我們可以看到除了從以前的文本輸入到現在後續的可能會有圖片再到後來的視頻輸入,所以不單止是說是輸入,輸出這一塊海量數據産出這一塊隨之而來的是在整個過程中,不管是采集、訓練或者推理乃至說最後的存儲、分發等等也好,它對存儲的挑戰是很大的。我們要在此基礎之上提供更穩定的讀寫速度更快的,底層整個規模更高效的,彈性更高的等等相關的能力。這是對第二個問題的解答。

第一個問題,爲啥剛才會有Metalnsight形態出來,我們可以看到今天的整個發布/整個解決方案我們是從采集,采集當然是基于我們現在雲上各種産品,比如說我們有千億服務MSP,有離線的千億服務CDM等等相關,以及各種生態的産品我們去做好協議的兼容,使得進到我們整個存儲湖的道路是被打通的,所以采集的路我們過往已經做了一些。在今天我們還有訓練,有推理,然後還有應用,那在應用側其實我們可以留意到現在國內的各種黑馬也好或者說我們各大的創業公司他們在應用側做了各種嘗試,也跑出來好多一些相關創業公司。在應用側他們會去基于類似GPT自研的各種大模型去做一些嘗試,所以在應用側我們是在AIGC場景所重要強調的。

那爲啥我們的Metalnsight會提出來呢?其實我們可以看到我們一直說的雲存儲上雲,除了去享受雲上更豐富的算力、各種存力,其實數據上完雲之後是否更方便的去檢索了呢?這是在過往整個存儲我們所遇到的,包括客戶給我們提的問題中經常提的一個問題數據上來之後你怎麽去快速的找到你所要的一個數據,怎麽去在我的海量的視頻文件裏面我能找到我過往裏面我所要的一些精彩的瞬間,怎麽去通過我自然語言的輸入我能夠讓計算機能聽懂我人話的輸入能夠快速的去找出我相關的一些資源出來。所以我們基于我們的混元,還有底層內部的一些圖文大模型以及騰訊雲的向量數據庫我們整體搭建了Metalnsight這一個形態,讓存儲本身能夠基于它的我們叫Native AI,讓存儲本身的AI往上延伸出快速檢索的相關的能力。

這是對第一個問題的解答。

圖片來源:視覺中國

問:這個産品能不能算是大模型原生應用的一個産品?

葉嘉梁:從我們存儲來看相當于是對大模型跟存儲結合之後所延伸出來的一個産品。

問:那這個産品是不是更應該由混元那邊的人來開發,這個産品直接由存儲團隊來做好像有點奇怪?

葉嘉梁:是這樣的,其實混元它提供的更像是一個叫大模型,我們叫引擎,它是引擎能力之一,但其實存儲這邊有海量的數據,我們其實有入口,我們會有用戶的更多它能授權的一些數據,另外也有客戶最直面的一些訴求,基于這個引擎的能力,其實剛才前面也提到還有向量數據庫等等我們需要把它做一個結合之後,包括我們還會在這一層做一些微調再去呈現一個更符合用戶場景的一些能力。

其實剛才有提到,其實我們預制了上千個離線模板,可能這樣更符合用戶在使用對象存儲時候的一些場景。當然最核心提到的能力,就是混元那一塊圖文大模型一些推理的能力,可能有一些向量化的能力會是混元他們更專業的人來去做的,我們跟他們也有一些打通合作。

問:今年開始有一些聲音是說大模型其實從去年的百模大戰到現在重點到了一個多模態,這樣的變化對于騰訊雲存儲來說會有一些什麽樣的挑戰?會如何應對這樣的一些挑戰和變化?

陳峥:多模態這裏其實是根據不同的數據,可能就是文本、圖片、視頻,就是你怎麽基于不同規格的數據去延伸出你需要的一個模型,就包括之前我們做的文生文是一個模型,文生圖是一個模型,文生視頻可能又是另外一個模型。所謂的多模型跟跨模態,不管你輸入具體的數據是什麽樣的,我依據我的模型在後續推理過程中能夠給到他想要數據的一種形態。

在多模態這裏,我們在文生文、文生圖、文生視頻不斷演進的過程中,其實我們的存儲産品都是提前去做了一些考慮或者是一些布局或者是規劃,怎麽能夠面對海量數據的增長,以前文生文、文生圖片其實數據量沒有多少,包括模型訓練出來大小相當于是比較小的,反而現在文生視頻出來之後這個數據的量級是直接上了一個量級的,同時訓練出來的模型的參數以及包括剛剛說的檢查點Checkpoint有一個倍數的增長關系,所以就說在這裏我們在訓練模型需要,我們對我們底層存儲提的一些訴求其實是我們整個雲存儲團隊去做規劃和布局的,在業務需要同時我們能夠滿足客戶或者說業務它需要的一種産品形態或者産品能力,這是第一個問題。

問:你們在升級解決方案的過程當中有觀察到大模型行業有發生一些比較重要的變化嗎?

陳峥:其實最開始整個IGC也是拿著比較先容易上手的一個領域,比如說文生文這種是比較簡單的,你給模型問,模型給你一個回答,通過全網的輸入輸入你想要近似的一些答案可以做一些修改,現在用的比較多的像一些寫手的APP。

文生圖的話是爲什麽呢?人在對話的同時可能你想要一些視覺上、效果上你想要的,就遊戲行業裏面比較多的就做一些美工、美化這種,我們整個騰訊公司的遊戲團隊其實每個人會基于自己的數據去訓練一個自己的小模型,基于這個模型它會餵一些數據産生出來它想要的一些圖片它再做一些美化和美工。這個時候效率提升蠻高的,本來是一周的工作他一天就可以完成了,這個也跟遊戲團隊做了一些溝通和交流,問他們現在基于文生圖的模型出來之後它效率提升的一個程度。

因爲大家除了文跟圖片之後,它其實對視頻的效果其實也是有的,它是一層一層往上去提升的,可能到後面文生圖片出來之後,各家都出來之後可能會延伸出我們有可能想象不到的是一種立體感的一種産品形態,可能現在我也說不清楚,因爲科技在進步,包括整個雲的産品、雲的能力,包括模型訓練這裏,大家對模型、算法、大模型的思考不斷演進的話,在底層支撐以及業務同時在同步與時俱進的時候,其實它可能會延伸出來一些新的産業形態,只是說這個産業形態我們也沒有想特別清楚,因爲我們畢竟是做底座的,只是說我們希望有一個新的産品形態出現的時候,我們整個雲存儲團隊的産品能夠滿足客戶的訴求,或者說滿足業務的訴求。

馬文霜:我再補充我們觀察到的變化,Q1的話,我覺得大模型企業在雲存儲的消耗同比增加了,可能是大模型企業拿到的投資更多了吧。

問:當下的空間和未來的技術展望,幾位老師怎麽看?

馬文霜:當下我覺得AIGC的應用雖然說也在爆發式的增長,但是我覺得還遠沒有到繁榮的一個階段,當下我們存儲首要還是解決的在大模型訓練這個階段,跟隨著算力,跟隨著網絡,讓它的訓練能夠高效的訓練出各種各樣,就是各種應用場景、各種行業的大模型出來。那天我看一個新聞就是說我們工信部認證的大模型都是180多個了,但我覺得這些模型其實還不一定夠,因爲還有各種垂類行業的大模型我覺得甚至我覺得後面可能每個人都會有一個大模型。

這麽多的大模型出來以後,我覺得後續應用逐步的會更加的繁榮,那應用繁榮了以後AI生成的這些內容,我覺得會更加的是以指數式的爆發式增長。所以說現在我們存儲的發展的話,當下先解決快、性能高、高性價比的問題,後面的話我認爲會是在智能存儲,就是葉嘉梁他做的這個方向,就是在數據的審核、數據治理、數據應用這個場景幫助更多我們的開發者、創業者、創業團隊去做它的數據應用,我認爲是後續很重要的一個方向。

陳峥:我大概說一下,最開始AIGC出來之後,開始是文生文、文生圖,現在業界比較前沿的在文生視頻,怎麽通過文字能夠延伸出大家都想要的一段視頻,隨著整個AIGC的發展,對數據它肯定會迎來一個爆發式的增長,以前是文本,現在延伸到圖片,然後延伸到視頻。在整個過程中對整個存儲底座包括我們存儲解決方案的要求只會越來越高,其實我們整個騰訊雲雲存儲團隊已經提前在這裏做了布局,不管是我們的對象存儲也好、文件存儲也好還是塊存儲也好,以及我們的數據萬象以及我們的一些日志服務,其實我們對不同的場景選定了AIGC也好或者是自動駕駛這個場景也好,我們針對每個業務的場景其實已經在預言未來2-3年可能對我們整個存儲底座,技術指標也好或者說産品形態也好或者說産品能力或者規模各項指標的訴求我們已經提前在做一些預言,滿足未來2-3年或者3-5年業務的發展。

馬大師剛才也講了,除了我們的穩定也好、快也好,這個只是我們現階段在做的一個事情,其實我們像Metalnsight已經提前去在做一些布局,就是把我們整個數據的價值能不能開放給客戶,帶給我們的客戶,這樣的話能夠讓客戶在存好的同時怎麽把數據用好,這樣才能把我們做存儲的初衷就是把價值反饋給我們的客戶,這個是我們整個騰訊雲存儲團隊一直在思考並不斷去更新去叠代的一個過程。

0 阅读:12