分析型數據庫(ApacheDoris)分析性能的速度到底有多快?

SelectDB 2024-04-26 15:26:52

在當今數據驅動的時代,企業對數據分析和洞察的需求日益增長。傳統的關系型數據庫在處理大規模數據時,往往面臨性能瓶頸,比如存儲大、處理速度慢、數據分析模型固定靈活性較低、運維成本高等,而分析型數據庫(Apache Doris)以其卓越的性能和高效的數據處理能力,正在改變這一現狀,SelectDB 作爲基于 Apache Doris 構建的現代化數據倉庫, 支持大規模實時數據上的極速查詢分析。

早期的數據倉庫架構往往存在以下的痛點:

依賴組件多。大部分的數據倉庫 在 2.x、3.x 版本中強依賴 Hadoop 和 HBase ,應用組件較多導致開發鏈路較長,架構穩定性隱患多,維護成本比很高。

構建過程複雜,構建任務容易失敗。構建需要進行打寬表、去重列、生成字典,構建 Cube 等如果每天有 1000-2000 個甚至更多的任務,其中至少會有 10 個甚至更多任務構建失敗,導致需要大量時間去寫自動運維腳本。

維度/字典膨脹嚴重。維度膨脹指的是在某些業務場景中需要多個分析條件和字段,如果在數據分析模型中選擇了很多字段而沒有進行剪枝,則會導致 Cube 維度膨脹嚴重,構建時間變長。而字典膨脹指的是在某些場景中需要長時間做全局精確去重,會使得字典構建越來越大,構建時間也會越來越長,從而導致數據分析性能持續下降。

數據分析模型固定,靈活性較低。在實際應用過程中,如果對計算字段或者業務場景進行變更,則要回溯部分甚至全部數據。

不支持數據明細查詢。早期數倉架構是無法提供明細數據查詢的,Kylin 官方給的解決方法是下推給 Presto 做明細查詢,這又引入了新的架構,增加了開發和運維成本。

現代分析型數據庫(Apache Doris)架構的優勢:

極簡運維,維護成本低,不依賴 Hadoop 生態組件。Apache Doris 的部署簡單,只有 FE 和 BE 兩個進程, FE 和 BE 進程都是可以橫向擴展的,單集群支持到數百台機器,數十 PB 的存儲容量,並且這兩類進程通過一致性協議來保證服務的高可用和數據的高可靠。這種高度集成的架構設計極大的降低了一款分布式系統的運維成本。

鏈路短,開發排查問題難度大大降低。基于 Doris 構建實時和離線統一數倉,支持實時數據服務、交互數據分析和離線數據處理場景,這使得開發鏈路變的很短,問題排查難度大大降低。

支持 Runtime 形式的 Join 查詢。Runtime 類似 MySQL 的表關聯,這對數據分析模型頻繁變更的場景非常友好,解決了早期結構數據模型靈活性較低的問題。

同時支持 Join、聚合、明細查詢。解決了早期架構中部分場景無法查詢數據明細的問題。

支持多種加速查詢方式。支持上卷索引,物化視圖,通過上卷索引實現二級索引來加速查詢,極大的提升了查詢響應時間。

支持多種聯邦查詢方式。支持對 Hive、Iceberg、Hudi 等數據湖和 MySQL、Elasticsearch 等數據庫的聯邦查詢分析。

新的數倉在速度上的優勢,具體我們來看看數據上的表現吧!

以下將簡述分析型數據庫在多個公開標准測試數據集上的優異性能表現,揭示其如何助力企業實現更快速、更准確的數據洞察。

我們通過使用 3 台 16core, 64GB 雲主機測試, SF100 得出以下結論(測試數據圖如下):

1、多表關聯複雜查詢場景 Doris 2.0 性能相比 Doris0.15 提升 13 倍,相比其他的 MPP 數據庫有明顯優勢;

2、單表場景 Doris 2.0 性能相比 Doris 0.15 提升 10 倍,相比擅長單表的 CK 有優勢;

從上面的測試數據看,不管是多表關聯複雜查詢場景還是單表場景 Doris 2.0 都比傳統的 Doris 0.15 要提升了 10 倍以上。現在你對于分析型數據庫(Apache Doris)以及分析性能的速度到底有多快有一定的概念和理解了嗎?

Apache Doris 憑借其靈活的查詢模型、極低的運維成本、短平快的開發鏈路以及優秀的查詢性能等諸多方面優勢,如今已經在實時業務運營、自助/對話式分析等多個業務場景得到運用,滿足了設備畫像/用戶標簽、業務場景實時運營、數據分析看板、自助 BI、財務對賬等多種數據分析需求。

基于 Apache Doris 構建的現代化數據倉庫 SelectDB, 支持大規模實時數據上的極速查詢分析,當前市場上 SelectDB 研發的 SelectDB 産品被廣泛使用。

在未來,隨著數據量的不斷增長和技術的不斷創新,SelectDB 將在更多領域發揮重要作用。從金融行業的風險管理到醫療領域的疾病預測,從電商平台的用戶行爲分析到政府部門的政策效果評估,Apache Doris 等分析型數據庫將爲企業提供更快速、更准確的數據洞察,助力企業實現更高效、更智能的決策。

0 阅读:0

SelectDB

簡介:基于 Apache Doris 構建面向實時分析的現代化數據倉庫