Badass分析師的時代

  • 與Badass數據分析師共度一天
  • 探索現代的數據分析方法,以釋放您的光彩。
  • 五個常見的數據挑戰

作為數據分析師,您將提供當今業務中最需要的服務之一,以您提供的洞察力觸發重要的決策,同時應對可能的截止日期,高期望值和IT瓶頸。 從醫療保健到政府再到高等教育,各個領域的組織都需要數據分析師。

無論您從事哪個行業,收集數據並將結果匯總到報告中都將有助於該業務,這是工作的一部分。

無論您從事哪個行業,收集數據並將結果匯總到報告中都將有助於該業務,這是工作的一部分。

第一節讓我們潛入

數據分析:推動者改變的障礙

您的組織依靠您來準確地回答他們提出的問題。 正確答案至關重要,因為決策者會使用這些答案做出重要選擇。 在您的壓力鍋角色中,要生存就很難了,要遠不如以前那麼繁榮。 成功完成此操作,您將獲得Badass狀態。

第2節五個常見的數據挑戰

1.數據準備工作在哪裡消亡

儘管數據準備和混合只是分析過程中的第一步,但正確無誤也至關重要,因此,當需要產生洞察力時,數據才是準確的。 這就是為什麼大多數分析人員將大量時間都花在使用手動流程來整理數據上,而幾乎沒有時間生成報告的原因。

您使用的數據跨多種文件類型存在-SQL數據庫,CSV,XML,Excel(XLSX)格式等。 您需要將數據難題的每一部分放在一起,但是手動過程對於生成見解並不有效。 從這些格式中清除數據需要大量複製/粘貼,公式或宏,除非您碰巧知道Python,R,Pandas或Jupyter。

如果這樣做,您就會知道腳本語言會佔用大量時間,並且容易出錯。 如果您不這樣做,則唯一的選擇是進行一定程度的手動調節,並且手動數據處理令人費解,緩慢,不靈活且容易出錯。

即使您熟悉這些工具或其他工具,使用傳統的數據清理方法來準備可能以多種方式“變髒”的數據仍然很緩慢。 當然,清除數據並不僅限於確保命名和縮寫的一致性。 您一定會遇到其他準備和混合障礙,例如:

  • 單位轉換,例如磅到公斤或英尺到碼
  • 貨幣換算
  • 空的空間
  • 從非英語字母導入的無法識別的字符需要變成是/否記錄的真/假記錄(反之亦然)
  • 空值會使您的高級分析陷入困境
  • 包含不想要的字符(如%,&和其他符號或標點符號)的記錄
  • 不完全相同的副本,例如“ Maria Seelos”和“ M. Seelos”

2.聯接數據不應該成為無禮之舉

為了從清洗後的數據中得出有用的答案,您可能必須合併多個數據源,例如以以下格式格式化的多個電子表格和數據庫:
多種方式。

報表通常需要多種編程語言和方法來實現您的目標。 從R到Python到SQL,從dplyr到sqldf到data.table,探索和應用這些解決方案會浪費時間。 當您想使用一個解決方案來執行以下操作時,SQL,R和Python方法可能會限制您的靈活性:

  • 連接數據以產生一個或兩個以上的輸出
  • 查看來自所有三個輸出的輻射數據
  • 根據數據流中的兩個輸入鍵對記錄進行分組
  • 產生包含兩個或多個表的每個組合的數據集

3.您沒有幫助的數據

在開始準備數據之前,您必須對其進行跟踪。

根據最近的一項調查,經過傳統的準備和混合的數據中,將近三分之二的數據在到達分析數據庫時至少已存在五天,因此不再能夠滿足快節奏分析的準則。

它可能已被鎖定在IT部門中,並且需要幾天的時間進行訪問,因為IT在您的請求之前具有許多優先級。 或者,您的數據可能埋在通過電子郵件來回穿梭的電子表格中,或者藏在由單個用戶管理的自定義數據庫中。

這些方案使您依賴於其他方案的時間表,而您自己的項目進度卻完全停滯不前。 結果可能會錯過最後期限。 在任何情況下,處理老化數據都是不理想的。

當內部流程緩慢且報告需要幾天才能生成時,您將無法交付最佳的工作。 根據最近的一項調查,經過傳統的準備和混合的數據中,近三分之二的數據在到達分析數據庫時至少已存在五天,因此不再能夠滿足快速分析的準則。

4.尚未建立高級功能的過時方法

準備好數據後,您將需要充實數據,以便可以提取盡可能多的價值。 例如,雖然捕獲公司的名稱和地址是一件好事,但最好通過更深入的業務洞察力(例如行業,規模和收入)來擴充該信息。

地理空間數據也是如此。 借助此類數據,您可以查明目標客戶的位置,以設計更好的營銷活動,尋找新的零售地點或優化您的供應鏈物流。 當涉及到客戶和潛在客戶時,了解年齡和收入等細節很重要。

最好獲得更深入的知識,包括他們所購買的技術,食品和家用產品的類型,以加深您的理解並激發新的細分方法。

但是對於像電子表格這樣的過時方法,您無法走得太遠。 通常,您將需要專家的幫助和一些手動編碼來充實您的數據,這需要花費您很多時間。

5.仍在等待預測和處方?

期望數據分析師比以往任何時候都能夠提供諸如預測和規範模型之類的高級分析,包括創建決策樹,運行A / B測試和邏輯回歸以及執行市場籃子分析。

許多分析師仍然專注於描述性分析,以解釋已經發生的事情。 他們想朝著更多的預測和更明智的情況下發展,但不確定如何做。

一次,數據科學家需要應用預測性和規範性模型,但情況已不再如此。 如果您的高級分析仍然依賴於其他實施,那麼了解您還有其他選擇很重要。

現在,可以通過現代技術增強分析師的能力。 現代化,易於使用的解決方案可幫助分析師提高學習能力,而無需學習代碼。

閱讀完整的下載白皮書

每次$ 1美元

在這裡提交廣告

網絡安全媒體

訪問最新的信息技術白皮書,研究,案例研究以及涵蓋諸如IT管理,企業管理,信息管理和物聯網(IOT)等廣泛主題的更多內容。
https://websecuremedia.com/

發表評論