億鴿在線客服系統
<delect id="9a3g6"></delect>
        <table id="9a3g6"></table>
        <acronym id="9a3g6"></acronym><p id="9a3g6"><label id="9a3g6"><xmp id="9a3g6"></xmp></label></p>

        1. 物聯網開發

          資本都在瘋投的向量數據庫到底是啥?能做啥?

          ? ? 騰訊云的向量數據庫是一種針對處理高維向量數據而設計的云數據庫服務。它基于騰訊云自主研發的分布式存儲和計算技術,在處理大規模向量數據時提供高效的存儲、索引和查詢能力。


          ? ? 向量數據庫在人工智能、圖像識別、推薦系統等領域具有廣泛應用。它能夠高效存儲和處理海量的高維向量數據,如圖像特征、文本嵌入等。同時,向量數據庫還支持基于向量相似性的快速查詢和檢索,可以方便地進行相似向量搜索、推薦算法等操作。


          向量數據庫


          ? ? 騰訊云的向量數據庫提供了可擴展的存儲、高效的索引機制和快速的查詢性能,能夠滿足用戶對大規模高維向量數據管理和處理的需求。它為開發者提供了簡單易用的API接口和工具,以便更方便地集成和應用于各種應用場景。


          ? ? 向量數據庫在大模型時代中展現出了巨大的商業機會。向量數據庫市場空間巨大,目前處于從0-1階段。預測到2030年,全球向量數據庫市場規模有望達到500億美元,國內向量數據庫市場規模有望超過600億人民幣。


          ? ? 1、向量數據庫怎么就火了


          ? ? 近期,許多具備大模型技術棧研發實力的企業,都會不約而同地提及“應用語言向量檢索技術用于模型訓練”。


          ? ? 在技術界,向量檢索并不是一個新名詞。但它的發展與人工智能浪潮的推動高度綁定。


          ? ? 向量,顧名思義Embedding,最開始的用于文本表達的詞向量,到后來可用于表達圖片、視頻、語音等非結構化數據轉化的深層語義,通過數據向量化可被計算機識別、使用,且在轉化的過程中不丟失信息。一開始,向量技術也基本使用于互聯網大公司的業務場景中。


          ? ? 例如,微軟Bing搜索引擎,在2000年就曾宣布使用向量實現搜索引擎的增強,可處理2000多億張網頁的向量數據。在那個時代,這個數據已經非常龐大了,但在更多的工業界或實驗室里,向量數據仍處于小規模驗證的階段。


          ? ? 真正的改變則來自于2017年前后,伴隨深度學習在工業界的廣泛落地,實際應用場景下的數據量級開始直線增加。這一年,FAIR研究人員開源了(FAISS,Facebook AI Similarity Search)AI向量相似性檢索庫,在十億級數據集上創建了鄰近搜索、且運行于GPU的k-selection算法。2020年7月,谷歌研究院開源了向量相似性搜索庫ScaNN,提出新的數據集向量壓縮技術,以提高向量檢索的準確性。


          ? ? 實際上,在此期間,國內的互聯網公司也沒閑著,據說阿里巴巴自研了Proxima,對于更多的企業,包括創業廠商在內,也會使用向量相似性檢索技術的相關開源組件如Faiss、Nmslib和Annoy等ANN庫,京東零售基于Faiss的Vearch也已經在各自規?;瘶I務場景中投入使用。


          ? ? 創業公司Zilliz從2018年開始布局做向量數據庫,2019年開源了Milvus,單獨作為一個品類進行研發創新。其做法比較明確:開源Milvus向量數據庫,持續運營積累大量社區開發者使用;在商業化方面,推出云端全托管數據庫服務Zilliz Cloud,并與Milvus形成插件化集成,與國產大模型進行對接。


          ? ? 不過,不同于2017年前后在行業風口和資本熱錢影響下成立的一批AI公司,一開始就瞄準向量數據庫創業賽道的企業其實寥寥無幾。即便Zilliz也并非是從創業之初錨定向量數據庫——Zilliz創始人星爵在去年9月與鈦媒體交流時曾解釋:“AI時代,數據處理的類型和計算體系架構都發生了較大變化,但當時團隊對最終產品形態是什么,并不是很清晰。不斷交流的過程中,我們意識到企業對海量非結構化數據管理的需求?!?/span>


          ? ? 總結起來,在向量數據庫的發展過程中,技術進展和創新起到了重要的推動作用。


          ? ? 首先在數據層面,向量作為一個新型數據處理單元,其數據量達到了一定規模,需要一個專用的管理系統,對管理的復雜度如分布式、高可用性、數據的一致性和備份等要求也越來越高。


          ? ? 其次,數據庫系統的研究者和工程師們不斷改進和優化向量數據庫的存儲引擎、索引結構和查詢算法,提高了向量數據的存儲效率和查詢性能。


          ? ? 此外,隨著硬件技術的發展,如GPU、FPGA、ARM架構芯片的應用,也為向量數據庫的性能提升帶來了新的機會。


          ? ? 這三點因素共同促使了向量數據庫系統的誕生——想要高效處理這些海量的向量數據,就需要更細分、更專業的數據基礎設施,為向量構建專門的數據庫處理系統。


          ? ? 2、向量數據庫在當下的應用價值


          ? ? 從上面我們可以看到,向量數據庫的價值其實是伴隨著整個大模型的發展而發展的,只要大模型在不斷發展,那么向量數據庫也會不斷發展,因為它們就像 CPU 和存儲一樣。


          ? ? 而向量數據庫在當下的應用,第一個就是讓大模型可以利用企業或者個人的私域數據,實現信息數據的連接;或者反過來說,讓那些擁有大量數據和應用場景的企業利用大模型的能力幫它解決問題,同時還能保持自己對于數據的掌控力。


          ? ? 我們都知道大模型是基于公開數據進行預訓練的,它的訓練周期也比較長,無法獲取當下的實時信息以及企業內部的私域數據,因此需要通過向量數據庫這個存儲來實現模型與這些數據的連接,此時只需把你的私域數據通過向量數據庫進行索引即可。


          ? ? 而為了保護企業的私有數據產權,大模型不能將你的私有數據占為己有,它只能在那一刻使用,用它的模型能力把你的數據處理完并把結果返回給你,它不能存儲,也不能將這些數據拿來訓練優化其母模型,使用完即刪除。


          ? ? 在美國,這一點是在法律上得到保證的,因此大家可以無所畏懼的跟 ChatGPT 等大模型進行合作,而不用擔心自己的私域數據被這些大模型占為己有(需要說明的是,并非這些大模型沒有這個能力,而是法律不允許。這也解答了我對于大模型的一些疑惑,之前以為像 ChatGPT 這樣的通用大模型會吃掉所有能吃掉的服務,因為它能不斷吸收企業的私域數據,現在看來這點無需擔憂了,或許也正是這種明確的保護機制,促進了 ChatGPT 的誕生)。


          ? ? 同理,其第二個應用就是大模型對于(人類)新知識的利用,人類每天都在產生新的知識新的數據,大模型本身無論如何都無法實時將這些信息納入其模型的訓練,一方面在于其訓練周期,另一方面每時每刻產生的這些新知識是一個龐大的數據量,這在成本上也不可行。


          ? ? 如何讓大模型的能力應用于新知識?和私域數據一樣,需要通過向量數據庫這個存儲實現信息的連接與索引。無論是私域數據還是新知識的利用,向量數據庫在這里起到的本質作用都是解決記憶存儲的問題。


          ? ? 而第三個應用價值,則和當下最熱門的 AutoGPT 或者 BabyAGI 這樣的 Agent 智能體有關,它們和前面的私域數據以及新知識不同,它面向的是 AI 自己生成的知識,而不是人類創造的知識。這些智能體會把自己創造的知識保存下來,進而進行不斷的迭代演化,這會導致數據以指數級增長,這些智能體必需要求助于向量數據庫,因為這么大體量的數據是無法通過模型本身來存儲的。


          ? ? 目前大家對于類似 AutoGPT 和 BabyAGI 這樣的智能體的認知還處于玩具階段,但是它們很可能是 ChatGPT 后新的 Killer APP,前面的智能體只是對人類已有知識(包括私域數據和人類新知識)的記載,但 BabyAGI 這樣的智能體可能逐漸會與人類的知識變得毫無關聯。


          ? ? 如果說這些智能體的部署和生產的成本越來越低的話,他們甚至可能會產生人類的數據,這也就是很多人認為我們人類已經到了造物主這個時刻。以前本質上這個世界的信息都是人類的生產經營活動造成的,但以后人類會創造一個東西,這個東西是自己的自我演化,會產生遠比人類更多的數據,那么數據會爆炸,非結構化數據會爆炸,存儲數據也會爆炸,這也就是向量數據庫未來的巨大機會所在。


          ? ? 盡管在當下我們還想不到這類智能體的具體應用場景,以及人類是否需要那么多智能體,但是或許到某一天可能我們每個人都需要大量這樣的 Agent,而每個 Agent 都伴隨著向量數據庫。


          ? ? 3、從技術棧的角度理解向量數據庫


          ? ? 如果從技術棧的角度來看,AI 時代的技術棧是 CVP( ChatGPT-Vector Database-Prompt ),這里的 C 是指以 ChatGPT 為代表的大模型,Vector Database 就是向量數據庫,Prompt 也就是提示詞。在實際應用過程中,真正需要用到向量數據庫的并不是這些大模型本身或者說它們的需求量很小,而是基于大模型做開發的開發者。


          ? ? 如果我們將其對應到移動互聯網時代,開發者平臺 iOS 和 Android 就相當于 CVP 里的 C,而 mongoDB和 Firebase 這樣的數據庫就對應于 CVP 里的 V,各種前端應用對應于 CVP 里的 Prompt。


          ? ? 在每一個技術時代,都是類似的技術棧,都需要相應的數據庫,而使用這些數據庫的并非類似 iOS 和 Android 這樣的平臺,而是開發者,這也就是為什么數據庫的市場如此大的原因,因為最終的平臺可能也就幾家,但是開發者成千上萬甚至上億。


          ? ? 而當下中間層非?;鸬?Langchain 和 LlamaIndex 等產品,其角色是把 CVP 串聯起來,如果放到上一個時代的話,它有點類似 IDE,讓開發者可以更簡單地開發應用。


          ? ? 無論怎樣,外界正在意識到向量數據庫作為一種新型數據庫存在的價值。不過,理解大模型只是AI的其中一種形態,泛化能力變強,場景通用性也更強,以大模型助力AI落地變得更順暢的過程中,還有很多可優化空間。


          ? ? 鄭州博觀電子科技有限公司是一家提供科技類物聯網開發軟硬件定制化方案服務商、也是中原地區領先的物聯網終端設備解決方案提供商。致力共享換電柜、智能充電樁、共享洗車機、物聯網軟硬件等服務平臺的方案開發與運維??偛课挥诤幽鲜∴嵵菔懈咝聟^,已取得國家高新技術企業認證證書。經過10多年的業務開拓,公司已經形成了以中原地區為中心、業務遍布全國的經營格局。


          注:本站文章部分文字及圖片來自互聯網。如有侵權行為,請聯系我們,我們會及時刪除。


          超清乱人伦中文视频在线|在线观看日本亚洲一区|亚洲青青在线视频|亚洲国产精品VA在线
          <delect id="9a3g6"></delect>
                <table id="9a3g6"></table>
                <acronym id="9a3g6"></acronym><p id="9a3g6"><label id="9a3g6"><xmp id="9a3g6"></xmp></label></p>