向量數據庫與RAG技術：爲突破大模型短板創造可能

在這一期的AI + a16z播客中，Pinecone創始人兼首席執行官Edo Liberty與a16z的Satish Talluri和Derrick Harris對談，討論向量數據庫和檢索增強生成（RAG）的前景、挑戰和機遇。

Pinecone向量數據庫是一個雲原生的向量數據庫，具有簡單的API和無需基礎架構的優勢。它可以快速處理數十億條向量數據，並實時更新索引。同時，它還可以與元數據過濾器相結合，以獲得更相關、更快速的結果。 Pinecone是完全雲托管的，容易上手、擴展輕松，用戶可以放心使用。

人們常常把大語言模型比喻成大腦，但這是一個被切除了颞葉的大腦，缺乏記憶，並且常常出現幻覺。爲了解決這些問題，我們常常需要借助向量數據庫。針對幻覺問題，可以將所需領域的專業知識存入向量數據庫，當要prompt時，系統自動的從向量數據庫中根據相似度查找最相關的專業知識，把這些知識和你的提示詞一同提交給大模型，這樣就可以有效減少幻覺的出現。記憶的問題也類似，可以選擇把部分你和大模型的聊天記錄存入向量數據庫。這是向量數據庫近期出現熱度的原因。

Edo Liberty是耶魯大學計算機科學博士，曾擔任雅虎的技術總監，並負責管理AI實驗室。隨後在AWS構建了包括SageMaker機器學習平台和服務。在亞馬遜工作期間就負責向量嵌入，在離開亞馬遜後開始研發Pinecone向量數據庫。

在Edo Liberty看來，所有人工智能創業公司要麽擁有模型,要麽提供某種更好的搜索能力，而RAG技術像是對模型與搜索能力的綜合。通過 RAG，我們有機會將100個完整的文檔作爲搜索結果，並且進一步使用語言模型或基礎模型來提取一些信息、事實或輸出。因此，這創造了一個全新的機遇浪潮，可以用 RAG 構建一系列全新的應用程序。

以下爲本期內容目錄：

01 RAG技術帶來發展機遇

02 RAG技術的現狀觀察

/ 01 / RAG技術帶來發展機遇

Satish Talluri: 2019年你創辦了Pinecone，當時的想法是什麽？是什麽讓你認爲向量數據庫或Pinecone是你想要創辦的公司？

Edo Liberty: 兩個方面。首先，趨勢已經顯現。嵌入式技術和向量在搜索、推薦引擎、語義搜索和商品排序中的應用已經開始流行。雖然我們在那之前已經使用了十年左右,但它在當時真正開始流行起來。

我認爲第一個真正的開源預訓練模型是BERT。雖然BERT很慢、笨拙、奇怪，在很多方面都是錯誤和無用的，但它已經打破了壁壘。它有時會做出令人驚訝的好輸出，讓人們意識到這裏有潛力，需要弄清楚這項技術到底能做什麽。這引發了一場軍備競賽，Facebook、亞馬遜和谷歌都參與其中。人們即使不是人工智能愛好者，也會討論嵌入式技術、向量搜索等等。

最初的幾個月,我都覺得這太早了,沒人知道我在說什麽,這簡直是瘋了。但一會兒之後,我又覺得太晚了,每個人都知道這些,我們已經錯過了時機,我應該三年前就開始了。如果這種情況一直在發生,這可能正是一個信號,表明現在正是最佳時機。

Satish Talluri: 這聽起來是個很好的直覺。是的，我記得在早期見到你時，你主要的用例是語義搜索和推薦引擎。對吧？Netflix 是一個流行的例子，亞馬遜在其網頁上顯示類似商品也是另一個例子。從語義搜索的使用案例出發,它是如何發展到現在的地步的?你可以分享一下你親身見證的這段曆程嗎?

Edo Liberty: 當然。說實話，語義搜索仍然是我們一個非常重要的用例。我們正在取代 Elasticsearch （一種分布式搜索和分析引擎）和其他解決方案。人們轉而使用語義表示數據。人們開始意識到在他們的應用中,規模、速度和成本是非常重要的因素。

所有人工智能創業公司要麽擁有模型,要麽提供某種更好的搜索能力,差不多95%的創業公司都屬于這兩種之一。我把 RAG （檢索增強生成）也包括在內了。你可以把 RAG 看作是這兩者的某種結合。這一過程實際上只是一種推演。雖然推薦引擎的發展沒有像 RAG 那樣快,但 RAG 確實極大地加速了語義搜索的發展。你仍然使用向量數據庫來檢索與上下文語義相似的文檔、段落或事實等內容。但是，當人類在使用搜索結果時，你可以閱讀十個藍色鏈接或者十段內容，或者類似一頁的內容之類的，你的認知帶寬是有限的。而通過 RAG，我們有機會將100個完整的文檔作爲搜索結果，並且進一步使用語言模型或基礎模型來提取一些信息、事實或輸出。因此，這創造了一個全新的機遇浪潮，可以用 RAG 構建一系列全新的應用程序，而傳統的語義搜索明顯無法做到這一點。

幕後的情況也是如此。仍然使用向量搜索來實現大規模、低成本、高速的搜索能力，只是第二階段不再由人類來消費,而是由大型語言模型來處理，這就催生了諸如問答等全新的應用形式。

Derrick Harris: 我今天早上讀到一些內容,不知您能否就此給我些啓示。主要是關于在提高模型性能方面,使用更大的上下文窗口和RAG這兩種方法之間的辯論。這兩種是否是一種非此即彼的關系?您對上下文窗口和RAG的看法如何?

Edo Liberty: 我並不認爲使用更大的上下文窗口和RAG是一種非此即彼的關系。如果能在保持經濟高效的情況下分析更多上下文，並且結果還很令人滿意,那就太好了。這意味著搜索引擎可以爲您返回更多相關數據，如果這些數據確實相關,那體驗會更好。但這並不意味著您不需要從某處檢索最相關的信息。

如果我需要從一個文檔中回答問題,我可以將該文檔作爲上下文發送。如果有10個文檔,也許我可以全部發送。但如果有100萬份文檔,那就瘋了。如果有100億份文檔,那就根本無法實現了。你不可能在每次進行谷歌搜索的時候都把整個互聯網作爲上下文發送過去。這是不可能的。

Satish Talluri: 我認爲上下文至關重要,而且必須盡可能地保持相關性。大型語言模型在總結方面有獨特的超能力。因此,只需爲它們提供最相關的上下文就是一種更好的策略,可以保證性能和准確性。這是您的觀點嗎?

Edo Liberty: 正確。首先,您必須保證結果准確。模型提供商按token收費,他們當然樂于告訴您更多token會帶來更好的效果，但事實並非如此。如果您添加了無關的信息作爲上下文,那是無益的,因爲無關信息無法提供幫助,相反它會引起混亂和分散注意力,這種做法浪費資源,而且實際上會傷害結果。所以能夠爲模型提供正確的上下文對于准確性和成本都很重要。而且,規模效應也會逐漸顯現,對于大客戶來說,在某些大型應用程序上花費10萬美元是無所謂的,100萬美元尚可接受,但1000萬美元就無法做到了。

/ 02 / RAG技術的現狀觀察

Satish Talluri: 您提到了基本的RAG方法,它正在不斷發展,已經不再是簡單地將文檔分塊、向量化,在向量數據庫中查詢前5個最相關文檔,然後將其發送給大型語言模型進行總結。隨著這些應用進入生産環境,人們正在采用更複雜的分塊策略,甚至在向量數據庫查詢之後使用重新排序器等。您在客戶群中看到了哪些趨勢和發展,從最基本的RAG解決方案到現在生産環境中的這些複雜高級系統?

Edo Liberty: 我想說,現在的RAG就如同2017年的transformer模型一樣,使用起來笨拙、奇怪且難以正確設置,有很多棘手的問題,但它有時也能産生驚人的效果。大多數早期采用者和非常先進的用戶已經開始使用並努力應對所有這些問題。RAG是一個非常廣泛的範式,您自己也提到了分塊、模型編碼、向量數據庫選擇和配置、結果處理、重新排序、剪枝、重新排序、上下文處理、提示工程、模型選擇等,有許多不同的選擇和子系統需要構建。所以,在RAG上取得進展的人都是那些深入理解技術發展不會一蹴而就的人。

回到您關于進入生産環境的問題,人們使用Pinecone、模型提供商、評估等工具,真正努力找到最可靠的合作夥伴和基礎設施進入生産環境。他們內部建立了評估何種解決方案更好、如何構建這些系統的專業知識。當然,我們作爲公司也與他們密切合作,因爲他們的成功也是我們的成功。

Derrick Harris: 從您所描述的這個領域來看,實際上對客戶來說,向量數據庫和RAG技術它們還處于初期階段，比較粗糙,您是如何向他們推銷的呢?

Edo Liberty: 人們無法回避這一點。就拿我小孩子來說吧，他們碰見任何屏幕都點，對著任何智能音箱都說話。好像東西不是觸摸屏的話，他們就一臉茫然，對吧？軟件正在改變，人們期望能用自然語言直接和軟件互動，這是必然的趨勢。

尤其是對于知識、文檔、圖片等信息來說，以前那種需要編程或者經曆複雜的操作流程，比如選擇內容、添加標簽等等，都太麻煩了。人們覺得，軟件應該足夠智能，能聽懂我直接說想要什麽。現在的人們都這樣認爲，他們對軟件有這樣的期待。

對于軟件公司來說，情況是這樣的：初創公司可能會率先找出一種方法，將這種技術應用到軟件的某個細分領域，然後將這種能力賣給更大的公司。而大公司則時刻面臨著顛覆的風險，因爲那些名不見經傳的小公司說他們能做到這一點，盡管你認爲他們做不到，但你的客戶卻認爲他們能做到。所以這會讓大公司很頭疼，迫使他們去尋找不被顛覆的辦法。還有一些巨頭公司會開始積極地宣示自己的主導地位，說他們需要真正帶頭做這件事，而不僅僅是購買現成的軟件等等。

所以，我認爲這是一件勢在必行的的趨勢。就像掌握雲計算、安全等等技術一樣，人們也需要擅長人工智能。這不是可選項，你不能不投資。

你剛才的問題可能還涉及到這樣一個方面：如今，做這件事的門檻還比較高。爲什麽不等到它變得容易些了再去用更成熟的方案呢？但問題是，這種想法永遠都會存在，對吧？過六個月，我可能會說出類似的話。沒錯，工具會變得更好，但我們的期望也會更高，事情從來不會輕而易舉。對你的組織來說，培養這種能力就像練肌肉一樣，你必須盡早開始，盡管現在的人工智能人才非常昂貴而且很難找到，但你確實別無選擇。

娛樂新聞吧

向量數據庫與RAG技術：爲突破大模型短板創造可能

烏鴉智能說