摘要:數據處理框架 數據處理是一個非??矸旱母拍?數據處理框架在數據架構中,主要是用于數據移動和分析這兩大功能當中.對于數據移動,有離線數據移動和實時數據移動,也可以叫做是批量數據移動和流式數據移動.而對于分析這一塊,有離線數據分析和實時數據分析,也可以稱作是批量數據分析和流式數據分析.離線和實時,批量和 閱讀全文
posted @ 2020-03-03 09:33 hdpdriver 閱讀(325) 評論(0) 推薦(1) 編輯
摘要:調試Spark應用性能的時候,首先應該理解spark是如何工作以及你的spark應用需要何種類型的資源。比如說,機器學習相關的spark應用更依賴cpu計算能力,ETL應用更依賴I/O能力,以此進行有針對的優化和配置。 硬件配置 正確的硬件配置要根據實際的情況來看??梢源右韻錄父齜矯胬純悸牽?存儲系 閱讀全文
posted @ 2020-02-26 11:00 hdpdriver 閱讀(51) 評論(0) 推薦(0) 編輯
摘要:(官方文檔整理) 系統級調優 1.保證充足的RAM 2.64位的操作系統 3.Linux的swappiness設置為0 : sysctl vm.swappiness=10 vim /etc/sysctl.conf 加上 vm.swappiness=0 網絡級調優 當集群的擴容的時候,應該同時注意交換 閱讀全文
posted @ 2020-02-25 15:01 hdpdriver 閱讀(109) 評論(0) 推薦(0) 編輯
摘要:概述 以 Hortonworks Data Platform (HDP) 平臺為例 ,hadoop大數據平臺的安全機制包括以下兩個方面: 身份認證 即核實一個使用者的真實身份,一個使用者來使用大數據引擎平臺,這個使用者需要表明自己是誰,即提供自己的身份證明,大數據平臺需要檢驗這個證明,確定這個證明是 閱讀全文
posted @ 2019-08-05 23:31 hdpdriver 閱讀(799) 評論(0) 推薦(0) 編輯
摘要:前言 要問 Hortonworks 這家公司最有產品力的產品是什么,我覺得是 Apache NiFi.去年Cloudera 和 Hortonworks 合并之后,以 Cloudera 為主,兩家公司進行產品整合.Cloudera 從 Hortonworks 家沒拿啥東西,唯獨拿來了 Apache N 閱讀全文
posted @ 2019-04-20 12:49 hdpdriver 閱讀(2093) 評論(0) 推薦(2) 編輯
摘要:本文來源于 "官方文檔" 翻譯 ___ NiFi 的核心概念 NiFi 最早是美國國家安全局內部使用的工具,用來投遞海量的傳感器數據.后來由 apache 基金會開源.天生就具備強大的基因.NiFi基本設計理念與 "Flow Based Programming" 基于流式編程 的主要思想非常類似,核 閱讀全文
posted @ 2019-04-19 21:19 hdpdriver 閱讀(583) 評論(0) 推薦(0) 編輯
摘要:自己做過的項目在這里做一個記錄,否則就感覺不是自己的了.一是因為過去時間已經很長了,二是因為當時做得有點粗糙,最后還不了了之了. 話不多說,先大致介紹一下項目背景.以前各大手機視頻 App 一般都有運營商的流量包套餐.當用戶產生這樣的業務行為時,運營商便獲取了一系列的用戶行為日志. 這條日志是一條獲 閱讀全文
posted @ 2018-07-21 15:38 hdpdriver 閱讀(277) 評論(0) 推薦(1) 編輯
摘要:(官方文檔翻譯整理及總結) 一、優化數據倉庫 ① Hive LLAP 是一項接近實時結果查詢的技術,可用于BI工具以及網絡看板的應用,能夠將數據倉庫的查詢時間縮短到15秒之內,這樣的查詢稱之為Interactive Query。 Ambari安裝好之后,還需要額外的兩個步驟來開啟Hive LLAP: 欧洲青年联赛
posted @ 2017-10-09 20:00 hdpdriver 閱讀(1014) 評論(0) 推薦(0) 編輯