精品视频123区在线观看_少妇按摩一区二区三区_91亚洲精选_91老司机在线_久久大综合网_97超碰在线资源_亚洲午夜久久久久久久久电影院_日韩欧美一区二区三区视频

二維碼
企資網

掃一掃關注

當前位置: 首頁 » 企業資訊 » 行業 » 正文

基于英特爾?_優化分析包(OAP)的_Spar

放大字體  縮小字體 發布日期:2021-12-21 07:22:14    作者:付春雪    瀏覽次數:108
導讀

Spark SQL 作為 Spark 用來處理結構化數據得一個基本模塊,已經成為多數企業構建大數據應用得重要選擇。但是,在大規模連接(Join)、聚合(Aggregate)等工作負載下,Spark 性能會面臨穩定性和性能方面得挑戰。為了

Spark SQL 作為 Spark 用來處理結構化數據得一個基本模塊,已經成為多數企業構建大數據應用得重要選擇。但是,在大規模連接(Join)、聚合(Aggregate)等工作負載下,Spark 性能會面臨穩定性和性能方面得挑戰。

為了提升 Spark SQL 得性能,用戶可以選擇使用英特爾? 優化分析包(Optimized Analytics Package,OAP)以及英特爾? 傲騰? 持久內存和新一代英特爾? 至強? 處理器來改善典型 Spark SQL 工作負載得運行效率。

Spark SQL 面臨多場景性能瓶頸

C 報告顯示,全球數據規模將從前年年得45 ZB 增長到2025年得175 ZB ,上年年創建、捕獲和消耗得數據量估計過 59 ZB。在數據快速移動、迅猛增長得趨勢下,企業需要使用先進得分析技術來實時處理數據以獲得實時得業務洞察力。大數據分析技術得新發展與革命性新硬件得問世,顯著提高了大數據分析性能,使得數據科學家、分析師和業務用戶能夠獲得更深刻得業務洞察。

作為面向大規模數據處理而設計得快速通用得計算引擎,Spark 具有開源、經濟、靈活等優點,常用來構建大型、低延遲得數據分析應用程序。但是,Spark 在特定場景下依然會面臨性能挑戰,特別是當處理特大規模數據及交互式查詢時。例如,由于缺少高性能緩存方案,數據 I/O 很容易成為瓶頸。此外,Spark Shuffle 也常常因為大量得較小隨機磁盤 IO、序列化、網絡數據傳輸成為性能瓶頸,導致作業延遲大幅增加,進而影響工作負載性能。

新興得硬件技術可以幫助解決這些挑戰。例如,高級矢量擴展(AVX)功能使 Spark 能夠利用 SIMD 同時處理更多得數據來加快執行速度,而英特爾? 傲騰? 持久內存可以利用其高性能,大容量和低延遲創新得突破性組合來提高 Spark SQL 性能。OAP(優化分析包)是英特爾和社區開發得一個開源項目,旨在借助先進得英特爾處理器、內存和存儲以及網絡技術,通過數據源緩存、SQL 索引、Native SQL 引擎、MLlib 優化等創新軟件功能提高 Spark 性能,以解決 Spark 核心和相關組件面臨得計算和 I/O挑戰。

英特爾 Spark 優化分析包(OAP)

英特爾? 優化分析包(OAP)是英特爾和社區開發得開源項目,旨在提高 Spark 性能。它基于先進得英特爾硬件技術,提供了多種功能來改善 Spark 高速緩存、Shuffle、執行和機器學習性能。如下圖1顯示了 OAP 架構,它包括以下組件:OAP 數據源高速緩存、Native SQL 引擎、Arrow 數據源、OAP MLlib、RDD 高速緩存、RPMem Shuffle 和遠端 Shuffle。

  • SQL 數據源高速緩存: 一種優化得擴展包,通過在 Spark SQL 數據源層使用高速緩存技術來提升 Spark SQL 性能。
  • Native 執行引擎: Spark SQL 得 Native 引擎將 Spark 行數處理轉為列式處理,并借助矢量化 SIMD 以及 Arrow 數據格式進行加速。
  • MLlib: Vanilla Spark MLlib 得替代版本,通過oneDAL、oneMKL 和 oneCCL 進行了優化。
  • RDD 高速緩存、RPMem Shuffle 等功能:通過借助持久內存得大容量、高性能等特點來避免存儲溢出(包括 RDD 高速緩存、溢出、中間數據),提高 Spark 性能。
  • 遠端 Shuffle: 支持遠端 Shuffle 和基于持久內存得 Shuffle。

    (圖1)

    OAP 數據源高速緩存

    數據源高速緩存(SQL DataSource Cache)旨在利用用戶定義得索引和智能細粒度內存數據高速緩存來提高 Spark SQL 性能(如圖2所示),主要目得是解決交互式查詢和批處理作業得性能問題。

    (圖2)

  • 交互式查詢

    大多數用戶使用 Spark SQL 作為批處理引擎。但作為一個統一處理引擎,很難與非批處理區分。交互式查詢需要在幾秒、甚至幾亞秒內返回數據,而非批處理所需得幾分鐘、甚至幾小時。這對于當前得 Spark SQL 數據處理來說是一個很大得挑戰。交互式查詢通常處理較大得數據集,但在通過特定條件過濾后只返回一小部分數據。通過為關鍵列創建和存儲完整得 B+ 樹索引,并使用智能細粒度內存數據高速緩存策略,Spark SQL 交互式查詢處理時間可以顯著縮短。

  • 批處理作業

    對于在數據倉儲中使用 Spark SQL 進行業務分析得用戶,OAP SQL 數據源高速緩存可以通過兩種可配置得高速緩存策略來加速批處理作業:

    ? 自動高速緩存熱數據。

    ? 專門高速緩存熱表。

    SQL 索引和數據源高速緩存為不同列式存儲格式提供統一得高速緩存表示形式,并設計了針對 RowGroup 中單列得細粒度高速緩存單元。同時,它為兩種列存儲文件格式 Parquet 和 ORC 設計了兼容得適配器層,索引和高速緩存都構建在統一表示形式和適配器之上。

    OAP 數據源高速緩存架構設計

    數據源高速緩存可以高速緩存已解壓縮和已解碼得矢量化數據以及二進制原始數據。一般來說,DRAM 通常在 Spark 集群中用作高速緩存介質,但在 OAP 數據源高速緩存中,英特爾? 傲騰?持久內存也可以用作高速緩存介質,以提供高性能、高成本效益得高速緩存解決方案。如下圖3顯示了英特爾? 傲騰? 持久內存用作高速緩存介質時得 OAP 數據源高速緩存得架構設計。

    (圖3)

    OAP 數據源高速緩存提供以下主要功能:

  • 覆蓋內置得 Parquet/ORC 文件格式。
  • 在分布式集群中提供本地 cache(需要外部 KV 存儲以支持元數據持久性)。
  • NUMA 綁定以提供更高性能(若啟用英特爾? 傲騰? 持久內存得 snoopy 模式,則不需要 NUMA 綁定)。
  • 基于 Plasma 得實現,從而支持多個 spark 執行單元同時訪問緩存。OAP RPMem Shuffle

    Spark 旨在為不同得工作負載(如即席查詢、實時流和機器學習)提供高吞吐量和低延遲得數據處理。但是,在某些工作負載(大規模數據連接/聚合)下,由于 Shuffle 需要在本地 Shuffle 磁盤讀取/寫入中間數據并將其通過網絡傳輸,Spark 可能會出現性能瓶頸。英特爾? 傲騰? 持久內存是一種創新型內存技術,相較于 DRAM,其在同等價位下一般可提供更大得容量,并且支持數據得持久性。同時,遠程直接內存訪問(RDMA)技術支持在不同計算機之間進行獨立于操作系統得直接內存訪問,從而提供高吞吐量、低延遲得網絡性能。使用高性能英特爾? 傲騰? 持久內存和 RDMA 網絡可以幫助在一定程度上化解 Shuffle 挑戰。

    OAP RPMem Shuffle 提供了一個名為 RPMem Shuffle 擴展得可插拔模塊,該模塊可通過修改配置文件覆蓋默認得 Spark Shuffle 管理器,無需更改 Spark 代碼即可使用。使用此擴展,Spark shuffle 可以充分利用英特爾? 傲騰? 持久內存和 RDMA Shuffle 解決方案,相較于傳統得基于磁盤得 shuffle 方式,可以顯著提高 Shuffle 性能。

    OAP RPMem Shuffle 架構設計

    如前文所述,Spark Shuffle 是一項成本高昂得操作,需要大量得小型隨機磁盤 IO、序列化、網絡數據傳輸等步驟,因此會大幅增加作業延遲,并且很容易成為工作負載性能得瓶頸。通常,Spark Shuffle 將從底層存儲加載數據并作為 Mapper 得輸入,然后 Mapper 將根據某種規則處理數據,例如根據特定得 Key 將數據分組到不同得分區中。每個 Mapper 得輸出都會持久化到本地存儲中,即 Shuffle 寫操作。然后 Reducer 會嘗試讀取不同 Mapper 得輸出數據,即 Shuffle 讀操作,再將讀入得數據進行排序等聚合操作,并蕞終輸出結果。可以看到,一個經典得 Shuffle 操作包括數據在磁盤得讀寫和在網絡得傳輸,而這二者在大數據集下都可能成為工作負載得性能瓶頸。

    OAP RPMem Shuffle 旨在解決 Shuffle 瓶頸。如下圖4所示,OAP RPMem Shuffle 可以通過附加庫得形式覆蓋現有得 Spark Shuffle 實現。在底層,它使用英特爾? 傲騰? 持久內存作為 Shuffle 介質,并在用戶空間通過 libpmemobj 對英特爾? 傲騰?持久內存進行訪問,作為 PMDK 得重要組件,libpmemobj 在英特爾? 傲騰? 持久內存上提供了事務對象存儲。OAP RPMemShuffle 擴展使用 Java Native Interface 對 libpmemobj 進行封裝,并通過 Spark Shuffle Manager 以插件得方式接入Spark。

    (圖4)

    RDMA 網卡是 RPMem Shuffle 擴展得可選項,它可以增加網絡帶寬,降低網絡延遲和通信節點得 CPU 利用率。HPNL4 作為一款高性能網絡庫,支持各種網絡協議,如 TCP/IP、RoCE、iWRAP、OPA 等,它為 RPMem Shuffle 提供網絡通信支持。如下圖5顯示了 Vanilla Spark Shuffle 和 OAP RPMem Shuffle 得設計。

    (圖5)

    在 Vanilla Spark Shuffle 設計中,需要首先將數據序列化到堆外內存,然后寫入機械硬盤或固態盤上得本地文件系統,并蕞終通過 TCP-IP 網絡傳輸數據。這一過程涉及大量上下文切換和文件系統開銷,因此如果不對現在得 Spark shuffle 實現進行更改,就無法充分利用英特爾? 傲騰? 持久內存得能力。

    OAP RPMem Shuffle 使用 libpmemobj 庫將數據直接寫入英特爾? 傲騰? 持久內存,然后通過將 RDMA 內存區域注冊在英特爾? 傲騰? 來傳輸數據。此實現方案減少了上下文切換開銷,消除了文件系統開銷,并可充分利用 RDMA 實現零拷貝來進一步降低延遲和 CPU 利用率。

    原文鏈接:click.aliyun/m/1000290564/

    感謝為阿里云來自互聯網內容,未經允許不得感謝。

  •  
    (文/付春雪)
    免責聲明
    本文僅代表作發布者:付春雪個人觀點,本站未對其內容進行核實,請讀者僅做參考,如若文中涉及有違公德、觸犯法律的內容,一經發現,立即刪除,需自行承擔相應責任。涉及到版權或其他問題,請及時聯系我們刪除處理郵件:weilaitui@qq.com。
     

    Copyright ? 2016 - 2025 - 企資網 48903.COM All Rights Reserved 粵公網安備 44030702000589號

    粵ICP備16078936號

    微信

    關注
    微信

    微信二維碼

    WAP二維碼

    客服

    聯系
    客服

    聯系客服:

    在線QQ: 303377504

    客服電話: 020-82301567

    E_mail郵箱: weilaitui@qq.com

    微信公眾號: weishitui

    客服001 客服002 客服003

    工作時間:

    周一至周五: 09:00 - 18:00

    反饋

    用戶
    反饋

    午夜国产精品视频免费体验区| 中文字幕www| 欧美午夜片在线免费观看 | 亚洲人成人一区二区在线观看| 亚洲制服在线观看| 92福利视频午夜1000合集在线观看 | 91av精品| 欧美中文字幕亚洲一区二区va在线| 欧美性xxxxx极品少妇| 九九热精品在线| 99在线观看视频网站| 日韩免费成人av| 国产日韩在线观看视频| 在线中文字幕一区| 日韩精品久久久毛片一区二区| 亚洲二区av| 日韩成人一区| 日韩免费成人网| 欧美大香线蕉线伊人久久| av影片免费在线观看| 中文字幕一区二区三区蜜月| 国产精品成人国产乱一区| 国产大学生av| 亚洲 另类 春色 国产| 性一交一乱一色一免费无遮挡| 亚洲国产片色| 成人亚洲欧美一区二区三区| 久久国产午夜精品理论片最新版本| 少妇献身老头系列| 久久91麻豆精品一区| 欧美日本高清| 国产伦精品一区二区三区千人斩| 国产成人亚洲综合a∨婷婷| 男人添女人荫蒂免费视频| 日日摸夜夜爽人人添av| 久久国产精品无码网站| 夜夜嗨av一区二区三区四区| 日韩国产欧美精品一区二区三区| 国产a一区二区| 好吊色视频一区二区三区| 蜜桃视频动漫在线播放| 欧美亚洲人成在线| 久久精品免费看| 999精品网站| 欧洲成人一区| 91麻豆国产精品| 在线观看黄网站| 日本精品网站| 国产精品专区第二| 亚洲自拍偷拍另类| 9国产精品视频| 欧美成熟毛茸茸复古| 成人在线免费看黄| 成人小视频免费观看| 欧美系列一区| 一区二区在线免费播放| 国产一区免费观看| 中文无码日韩欧| 醉酒壮男gay强迫野外xx| 国产一区二区三区不卡视频网站| 999国内精品视频在线| 91嫩草香蕉| 欧美一级二级三级区| 久久亚洲电影| 91久色国产| 8848hh四虎| 欧美韩国理论所午夜片917电影| 国产经典av| 欧美日韩亚洲国产一区| 91最新在线观看| 国产色在线播放| 国产曰批免费观看久久久| 黄色片免费在线观看| 在线观看国产小视频| 久久久久久91亚洲精品中文字幕| 国产无套内射又大又猛又粗又爽| 日韩欧美三级在线观看| 五月天开心婷婷| 国产日韩在线一区二区三区| 国产成人看片| 先锋影音亚洲资源| 男人天堂手机在线视频| 天天操天天爽天天射| 亚洲AV无码久久精品国产一区| 裸体裸乳免费看| 99在线观看视频免费| 免费午夜视频在线观看| 一区二区在线免费观看视频| 91久久免费视频| 国产精品成人国产乱| 亚洲一卡二卡在线观看| 亚洲男人天堂网址| 日韩三级在线观看视频| 国产成人无码精品亚洲| 性一交一乱一精一晶| 亚洲人成影院在线| 日韩 国产 欧美| 免费观看的毛片| 伊人影院中文字幕| 中国xxx69视频| 成人禁在线观看网站| 国产精品一级伦理| 欧美aaa视频| 日韩电影免费网站| 国产综合色精品一区二区三区| 久久久精品黄色| 久艹在线观看视频| 波多野结衣在线电影| 中文字幕亚洲日本岛国片| 免费看的av| 黄色成人影院| 国产成人tv| 日韩国产欧美在线视频| 亚洲欧洲日韩在线| 精品美女在线观看| 国产精品久久久久久五月尺| 日本欧美色综合网站免费| 最近免费中文字幕中文高清百度| 天天操天天舔天天射| 精品国产va久久久久久久| xfav资源| 日韩伦理在线| 欧美在线二区| 欧美激情一区二区三区蜜桃视频 | 东方伊人免费在线观看| 精品无码一区二区三区的天堂| 国产一线天粉嫩馒头极品av| 精品久久av| 欧美午夜寂寞| 国产精品 日产精品 欧美精品| 日韩欧美成人精品| 欧美老少配视频| 波多野结衣三级在线| 中文字幕成人动漫| 五月激情六月婷婷| 黄色电影免费在线看| 亚洲欧洲免费| 久久夜色精品一区| 精品亚洲一区二区三区| 国产精品视频免费观看| 国产裸体视频网站| av男人天堂av| 亚洲校园欧美国产另类| 欧美激情久久久久久久久久久| 国产91富婆露脸刺激对白| 91精品国产日韩91久久久久久| 国产精品视频一| 在线观看岛国av| 91禁在线观看| 在线观看免费视频一区二区三区| 国产亚洲精品美女久久 | 国产亚洲在线| 在线观看一区二区视频| 国产精品黄页免费高清在线观看| 你真棒插曲来救救我在线观看| 久草福利资源在线观看| 美日韩精品免费视频| 男女18免费网站视频| 一区二区三区国产免费| 亚洲女成人图区| 亚洲国产日韩欧美在线动漫| 黑人极品videos精品欧美裸| 欧美极品少妇xxxxⅹ裸体艺术 | 成人亚洲视频在线观看| 99成人精品视频| 全国男人的天堂天堂网| 毛片基地网站| 香蕉久久一区| av成人老司机| 久久777国产线看观看精品| 欧美国产激情视频| 成人网站免费观看| 亚洲国产成人私人影院| 综合在线影院| 中文字幕综合网| 91精品免费在线| 国产一区二区不卡视频在线观看 | 性高潮免费视频| 四虎精品视频| 国产成人精选| 你真棒插曲来救救我在线观看| www.成人69.com| 欧美a在线观看| 99久久99久久综合| 日韩最新中文字幕电影免费看| 国产高清av在线播放| www.成人免费视频| sm性调教片在线观看| 国产精品一区二区91| 色系列之999| 亚洲一区在线不卡| 另类专区欧美| 性xxxxx| 国产91在线精品| 国产日韩欧美激情| 高清欧美一区二区三区| 国产chinese中国hdxxxx| 黄色小视频在线看| 日本不卡电影| 欧美一卡2卡三卡4卡5免费|