突破靈活強大的分析的極限

  • 執行摘要
  • 雲計算與大數據
  • 兩個世界匯合

在過去的幾年中,雲計算的增長和大數據系統的出現一直是最具破壞性的兩種技術趨勢。 這些發展改變了技術組織運作並為利益相關者帶來價值的方式。

借助正確的統一,端到端,數據集成,商業智能和機器學習編排平台,組織可以在雲中和本地快速交付大數據處理。

執行摘要

雲計算使企業可以優化IT運營和快速創建新服務。 這可以通過顯著減少對內部硬件,軟件和技術技能的投資需求來實現。 同時,大數據技術使組織能夠從數據資產中獲得前所未有的價值。

借助正確的統一,端到端,數據集成,商業智能和機器學習編排平台,組織可以在雲中和本地快速交付大數據處理。

本白皮書涵蓋:

  • 開源大數據技術和平台類別如何迅速被採用。
  • 關鍵技術組件可從雲平台上的大量多樣數據中提取價值。
  • 示例解決方案體系結構,說明瞭如何利用各種技術來推動業務成果。
  • 納斯達克案例研究,描述了該公司如何將基於雲的解決方案與Hitachi Vantara的Pentaho平台結合使用,以管理大量數據並推動業務洞察力。

雲計算與大數據

過去十年中,最具破壞力的兩項技術趨勢是雲計算的增長和大數據系統的出現。 這些發展改變了技術組織運作並為利益相關者帶來價值的方式。

從根本上講,雲計算使企業可以通過顯著減少對內部部署硬件和軟件的投資需求來優化IT運營,更不用說維護這些系統所需的人員了。 雲為企業提供了更高的靈活性,因為他們可以以與項目需求的時間和持續時間更加匹配的方式來獲取應用程序,基礎架構和計算能力。

此外,通過在許多客戶之間集中基礎架構,雲供應商能夠提供高度彈性和可擴展的服務。 這意味著企業要解決基礎架構需求中意料之外的高峰和低谷,在財務和運營上的管理要容易得多。 總體而言,由於公共IT雲服務市場的增長速度預計將比整個IT行業快五倍,因此云的採用仍將繼續呈現勢頭。

同時,大數據技術使組織能夠從數據資產中獲得前所未有的價值。 從歷史上看,高容量,結構多樣化和快速變化的數據給習慣於使用傳統關係數據庫技術的企業帶來了艱鉅的挑戰。

但是,新的技術範例,例如在訪問數據時定義讀取模式,大規模並行處理,微服務和流處理提供了許多新機會。 這些選項包括減少將原始數據放入數據存儲,處理運動中的數據以及構建健壯而靈活的體系結構所需的開銷的能力。

它們極大地提高了處理大量數據的速度和效率。 結合這些新範例,使企業更易於訪問非結構化和半結構化數據,從而可以提供新一代的應用程序,業務模型和效率。

這些創新還開始對各種先前具有挑戰性的數據源進行可行的分析,包括網絡日誌,文檔和文本以及機器傳感器。 甚至通過這些新技術,“暗”數據(鎖定在公司筒倉中的數據幾乎沒有分析訪問權限)也有了新的生命。 隨著開源大數據技術已經成熟並成為商業支持的產品,我們已經看到幾種平台類別開始獲得快速採用,尤其是對於下一代應用程序和分析。

  • 基於Apache Hadoop的發行版: 跨分佈式文件系統進行大規模數據存儲和高性能處理的框架,是大量非結構化數據的理想選擇。
  • 非唯一SQL(NoSQL)存儲: NoSQL數據庫是敏捷的,可以包含地理分佈式橫向擴展體系結構。 NoSQL存儲的主要類型是文檔數據庫,圖形存儲,鍵值存儲,寬列存儲和多模式存儲。

兩個世界匯合

在基礎架構即服務(IaaS)級別上,企業將轉向具有管理和維護極其可擴展且靈活的計算和存儲基礎架構專業知識的雲提供商。

大數據系統可幫助組織解決難題,但通常需要大量的前期和持續的IT投資。 這種類型的風險包括潛在的大量服務器機器以及具有Java或MapReduce技能等難以掌握的技能的員工。

同時,雄心勃勃的多PB項目中的大量數據可能會導致團隊重新考慮將所有內容保留在內部是否是最佳策略。 最後,時間因素也很重要:採購,安裝,配置和測試所需技術並不是一overnight而就的。

在基礎架構即服務(IaaS)級別上,企業將轉向具有管理和維護極其可擴展且靈活的計算和存儲基礎架構專業知識的雲提供商。

雖然本地數據系統絕不會消失,但研究表明“雲平台是現代應用程序體系結構中構建的彈性和臨時工作負載的理想部署選項。” 這表明組織可以通過利用託管在雲基礎架構上的大數據系統來有效地推動大規模分析的極限。

現在,更高級的平台即服務(PaaS)版本的數據處理引擎,Hadoop-asa-Service或NoSQL-as-Service已使與其他基於雲的應用程序堆棧更好地集成。

一項針對企業決策者的調查報告顯示,超過四分之一的組織已經開始將公共雲資源用於大數據分析項目,另有四分之一的計劃計劃繼續這樣做。 儘管許多這些早期的雲項目涉及大量的結構化數據,但是有幾個關鍵技術組件已經能夠從雲基礎架構上的海量,多樣的數據中提取價值。

  • 雲分析數據庫: 這些基於雲的服務(例如Amazon RedShift)是彈性數據倉庫,已針對現有商業智能(BI)工具進行了分析優化。 除了利用大規模並行處理和列存儲之類的增強功能來提高性能外,這種類型的分析數據庫還包括提供商對解決方案的管理和監視。 用戶能夠避免與建立和管理傳統數據倉庫有關的許多成本。
  • Hadoop和NoSQL服務: Hadoop服務還可以在雲中託管或作為平台運行,從而避免了對本地基礎架構的需求,並減少了對內部特定於Hadoop的人員配置的依賴,以支持大數據用例。 考慮到本地啟動成本和集群硬件隨時間的擴展,很容易看到雲可以在哪裡提供價值。 某些Hadoop雲產品還包括託管服務,例如作業故障排除,軟件安裝,測試等。
  • 數據集成和分析: 儘管“雲商務智能”工具的採用有所增加,但日立Vantara的Pentaho平台卻是獨一無二的。 Pentaho提供了可部署雲的平台,該平台支持大數據存儲的端到端數據集成和業務分析,包括上面討論的雲分析數據庫和託管或平台Hadoop服務。 可以將這些數據與其他各種基於雲的數據進行混合以進一步了解。 可以在工具內創建提取,轉換和加載(ETL)作業,但無需使用任何編碼即可通過使用Spark或MapReduce的下推處理執行該作業。 處理來自Apache Kafka的流數據,使用身份和訪問管理連接到Amazon S3,連接到Google Cloud Storage,Google BigQuery,Microsoft Azure存儲和許多其他方法。 甚至可以滿足ORC,Avro和Parquet之類的文件類型。

下一節將討論一個示例解決方案體系結構,說明如何利用這些不同的技術在實踐中推動業務成果

要閱讀完整的下載白皮書,請執行以下操作:

每次$ 1美元

在這裡提交廣告

網絡安全媒體

訪問最新的信息技術白皮書,研究,案例研究以及涵蓋諸如IT管理,企業管理,信息管理和物聯網(IOT)等廣泛主題的更多內容。
https://websecuremedia.com/

發表評論