當(dāng)下,大模型的火熱已成為行業(yè)共識,從時間線上看,2022年12月大模型實現(xiàn)破圈爆火,2023年3月,因NVIDIA CEO 黃仁勛在NVIDIA GTC Keynote 中首次提及向量數(shù)據(jù)庫,強調(diào)其在構(gòu)建專有大型語言模型的組織中的重要性,行業(yè)內(nèi)部人士逐漸意識到,向量數(shù)據(jù)庫可以支持大模型進行信息召回,彌補大模型長期沒有記憶等問題,拓寬大模型邊界。
近日,騰訊云發(fā)布AI 原生(AI Native)向量數(shù)據(jù)庫Tencent Cloud VectorDB。該數(shù)據(jù)庫能夠被廣泛應(yīng)用于大模型的訓(xùn)練、推理和知識庫補充等場景,是國內(nèi)首個從接入層、計算層、到存儲層提供全生命周期AI化的向量數(shù)據(jù)庫。自2019年開始在內(nèi)部PCG業(yè)務(wù)團隊進行孵化,目前已應(yīng)用在了騰訊視頻、QQ瀏覽器、QQ音樂等多款產(chǎn)品中。
(資料圖片)
何為向量?機器學(xué)習(xí)與數(shù)據(jù)科學(xué)中,向量代表一組數(shù)字,構(gòu)成多維數(shù)值空間。向量的每個維度代表該空間的一個不同的特征或?qū)傩?,如文本中每個詞的出現(xiàn)頻率等。通過對向量進行數(shù)學(xué)運算,可以實現(xiàn)各種機器學(xué)習(xí)算法和數(shù)據(jù)分析技術(shù)。單就數(shù)據(jù)而言,只有向量化之后的數(shù)據(jù)才能被AI模型所分析。向量數(shù)據(jù)庫是一種專門用于存儲和管理向量數(shù)據(jù)的數(shù)據(jù)庫。
行業(yè)內(nèi)將大模型稱為“大腦”,向量數(shù)據(jù)庫則是其“海馬體”。騰訊云數(shù)據(jù)庫副總經(jīng)理羅云表示,團隊內(nèi)部有一個共識——如果你看好AI,你就可以看好向量數(shù)據(jù)庫。因為在AI市場中,大模型有兩大限制——一個是時間上,一個是空間上。前者因客戶希望使用最新數(shù)據(jù)進行訓(xùn)練,后者系客戶不愿將私域數(shù)據(jù)放在公開場合進行大模型訓(xùn)練。而這兩方面問題,向量數(shù)據(jù)庫都可以解決。
相對于大模型的高調(diào)火熱,向量數(shù)據(jù)庫更多在靜悄悄地發(fā)生迭代。近一個月內(nèi),向量數(shù)據(jù)庫迎來融資潮,Qdrant、Chroma、Weaviate先后獲得融資,Pinecone宣布1億美元B輪融資,估值達到7.5億美元。東北證券預(yù)測,到2030年,全球向量數(shù)據(jù)庫市場規(guī)模有望達到500億美元,國內(nèi)向量數(shù)據(jù)庫市場規(guī)模有望超600億人民幣。
羅云透露,目前每天不止一到兩位客戶會前來咨詢向量數(shù)據(jù)庫什么時候能夠給他們使用。整體來講大家對向量數(shù)據(jù)庫的關(guān)注度、對它需求的迫切度都很高。
但需注意的是,從技術(shù)與行業(yè)層面,向量數(shù)據(jù)庫仍面臨幾方面的挑戰(zhàn)。其一是向量化數(shù)據(jù)有著高昂的計算成本,尋求存儲成本替代是必要的。該部分成本主要來自數(shù)據(jù)預(yù)處理、特征提取和向量化表示的生成,涉及大量復(fù)雜數(shù)學(xué)運算,消耗大量的計算資源和時間。
對此,羅云對第一財經(jīng)記者表示,數(shù)據(jù)庫主要解決低成本存儲數(shù)據(jù)與高效檢索數(shù)據(jù)的問題,向量數(shù)據(jù)庫也一樣。目前主要在檢索層面成本非常高昂,業(yè)界目前有幾種解決方案,其一是在算法層面進行優(yōu)化,其二是通過云上資源調(diào)度體系,用更合適的資源對底層算力成本做更好的補充。
但成本層面,短期內(nèi),羅云判斷不會發(fā)生數(shù)量級的差異,更多會發(fā)生在應(yīng)用性方面,推動數(shù)據(jù)庫與云資源體系結(jié)合,讓產(chǎn)品更穩(wěn)定,實現(xiàn)單價成本有20%~30%的提升。
第二方面的挑戰(zhàn)是平臺產(chǎn)品與開源社區(qū)之間的關(guān)系。向量化技術(shù)并非新鮮事物,目前已十分成熟,并存在大量開源解決方案,在不同的領(lǐng)域也存在不同的向量化方案,如目前存在Zilliz等做開源向量數(shù)據(jù)庫的公司。
對于大平臺與開源社區(qū)之間的關(guān)系,羅云對第一財經(jīng)記者表示,目前國內(nèi)外在云計算領(lǐng)域的發(fā)展階段不同,國內(nèi)場景更多的企業(yè)對公有云持有觀望態(tài)度,這樣的背景下,更多客戶對數(shù)據(jù)類產(chǎn)品相對謹慎,因此公有云廠商提供的數(shù)據(jù)服務(wù)相對而言更有競爭力。
廣發(fā)證券計算機團隊表示,在過去AI模型訓(xùn)練數(shù)據(jù)量較小、數(shù)據(jù)類型單一的情況下,向量數(shù)據(jù)庫可應(yīng)用的場景較小。自2017年Transformer模型推出后,各科技廠商開始大語言模型的探索,對于向量數(shù)據(jù)庫的需求開始形成規(guī)模。但向量數(shù)據(jù)庫適于AI大模型非結(jié)構(gòu)化場景,市場需求尚處于初期,中遠期規(guī)模還不到夸張之時。
在近日召開的上半年煤炭經(jīng)濟運行分析座談會上,中國煤炭運銷協(xié)會有更多
2023-07-05 11:02:12近年來,內(nèi)蒙古將煤礦智能化建設(shè)作為推進煤炭生產(chǎn)方式變革的重要內(nèi)更多
2023-07-05 09:56:04滿載電煤的列車行駛在唐包鐵路線烏蘭察布市境內(nèi) 入夏以來,隨著社會更多
2023-07-05 10:09:21據(jù)商務(wù)部重要生產(chǎn)資料市場監(jiān)測系統(tǒng)數(shù)據(jù)顯示:6月17日-6月23日,從更多
2023-07-05 10:11:17據(jù)商務(wù)部重要生產(chǎn)資料市場監(jiān)測系統(tǒng)顯示,6月17日至6月23日,陜西省更多
2023-07-05 10:05:48供應(yīng)端 產(chǎn)地方面來看,6月底,主產(chǎn)地煤礦開工情況轉(zhuǎn)弱,主要原更多
2023-07-05 10:00:55國家電投集團內(nèi)蒙古能源有限公司認真貫徹國家發(fā)展改革委關(guān)于迎峰度更多
2023-07-04 16:09:44上周,部分受到中國終端用戶需求增加預(yù)期帶動,紐卡斯?fàn)柛鄹呖▌恿?a class="more" href="http://konar.com.cn/newsinfo/gn/20230704/145570.html">更多
2023-07-04 15:55:116月以來,全國多地高溫天氣持續(xù),帶動用電負荷激增,特別是京津冀更多
2023-07-04 09:56:28貴州省充分應(yīng)用大數(shù)據(jù)、云計算、互聯(lián)網(wǎng)、人工智能等技術(shù),走出了煤更多
2023-07-04 10:07:49