Page 1 of 1

2024 年資料科學路線圖

Posted: Tue Dec 03, 2024 6:31 am
by urrifat77
料科學家,就必須遵循一條道路。這並不總是那麼容易,因為資料科學領域已經變得相當廣泛,因此,有不同類型的資料科學專業人員具有不同的活動和技能。

為了大致了解資料科學路徑,本文概述了資料科學前景,以便您可以了解哪些角色符合您的抱負。此外,它還提供了有關如何進入或成長為該領域中不同角色的指導,回答了以下問題:您應該發展哪些技能以及您應該熟悉哪些方法?

讓我們開始我們的數據科學路線圖。

簡而言之:數據科學路線圖
在本文中,我們將深入探討路線圖的 伯利茲電話號碼列表 各個面向。但是,如果您正在尋找大綱的快速摘要,可以在下面找到:

了解資料科學:掌握資料科學的基礎知識及其廣闊的前景。
熟悉專案生命週期:從業務問題開始,開發預測模型,並將其部署到生產中,了解不同角色(資料分析師、資料科學家、機器學習工程師、資料工程師、資料架構師)的貢獻。
資料分析與視覺化:執行探索性資料分析(EDA)和主資料視覺化工具(例如Python的matplotlib、R的ggplot2、PowerBI、Tableau)。
統計和數學基礎:學習描述性和推論性統計,並理解關鍵的數學概念,特別是機器學習應用。
進階主題:機器學習和人工智慧:訓練和評估模型,深入研究深度學習,並了解人工智慧回饋循環。
實際應用和專案:使用公共或個人資料集實施和展示項目,參加黑客馬拉松,並開發作品集來展示專業知識。
職業導航:確定與您的技能相符的職位,準備相關面試問題,並隨時了解行業趨勢和資源。
透過遵循此路線圖,您可以有效地駕馭數據科學領域,培養基本技能,並在該領域追求有價值的職業。

1.了解數據科學的基礎知識
什麼是數據科學?
為了理解數據科學路線圖的背景,了解什麼是數據科學至關重要。我們有一份涵蓋數據科學定義和解釋的完整指南,但就本文而言,我們將數據科學視為旨在透過使用數據解決問題的一組活動。

經常遇到的問題是“我有一個問題,但不知道答案”,因此,如果您在銷售資料庫上執行 SQL 查詢來計算組織上個月的​​收入,那麼您就是資料科學家!

通常,問題/解決方案更複雜,需要更多樣化的技能。為了能夠在整個數據科學路線圖中討論廣泛的數據科學角色和技能,我們將使用數據科學專案生命週期作為組合。這將使我們能夠繪製不同的活動和角色,並將作為佈局資料科學領域的基礎。

2. 熟悉資料科學專案生命週期
數據科學項目大多從商業問題開始。問題觸發啟動階段,其中定義一組可能的解決方案,並評估初始可行性。進行初始資料收集或對可用資料進行探索性資料分析,以了解什麼是可能的,什麼是不可能的。數據夠豐富嗎?它包含足夠的功能嗎?

發起與探索
一旦所有燈都變綠,我們就開始開發預測模型。該模型將使用輸入來預測結果。最初,這可能只是一個一次性模型,在 k 倍交叉驗證集(一種機器學習技術,用於評估模型在未見過的資料上的表現)上進行訓練、測試和驗證。這是典型的資料科學家通常完成的工作。一旦模型表現得足夠好,就可以開始生產它,並將其放入現有基礎設施的管道中,其中性能將受到監控,並在必要時重新訓練模型。

每個階段都需要不同的技能。在啟動階段,人們需要具備商業頭腦,熟悉資料轉換、清理、描述性統計和基本的推論統計。這是資料分析師和/或資料科學家可以完成的工作。

模型開發及生產化
在建模階段,需要建立預測模型。簡單的模型(例如回歸)可以由資料分析師構建,但如果它變得更複雜,您將需要資料科學家使用現有演算法建立模型,甚至需要機器學習工程師來更改當前演算法或建立新演算法。

當部署和生產模型時,您就進入了機器學習工程師或資料工程師的領域。與早期階段相反,不一定與業務有緊密聯繫,當前的任務圍繞預測模型創建和監控管道,以便為正確的目標系統提供可靠的輸出。

在整個過程中,所有資料都應該在正確的位置提供正確的元資訊,這就是資料架構師的角色。當新資料被攝取或現有資料轉換為新資訊時,它們同樣確保資料最終到達正確的位置。

Image

角色整合與跨職能協作
下圖說明了不同角色在生命週期不同階段的貢獻方式。由於不同的角色在不同的階段做出貢獻,因此需要不同的技能。

生命週期初期的角色需要更多的商業頭腦和更少的工程能力,而後期階段則需要更少的商業頭腦和更多的工程和演算法最佳化。為了說明這一點,身為資料科學家,您可以透過次優的運算效能來顯示模型的價值和效能。但是,一旦您負責生產模型,您就需要能夠優化計算複雜性,以確保您的流程(成本)有效率。

整個資料科學專案中不同資料科學角色的貢獻程度(DAn - 資料分析師、DS - 資料科學家、MLE - 機器學習工程師、DE - 資料工程師、DAr - 資料架構師 - 作者圖片

整個資料科學專案中不同資料科學角色的貢獻程度(DAn - 資料分析師、DS - 資料科學家、MLE - 機器學習工程師、DE - 資料工程師、DAr - 資料架構師 - 作者圖片

重要的是要知道角色之間的劃分並不嚴格。許多資料科學家已經考慮了正確的來源/目標系統和計算效率,並在他們的程式碼中考慮了這些。機器學習工程師可能會意識到某些特徵產生方法可以提高模型效能。資料分析師可能會就資料目錄中的何處儲存為資料架構師產生的功能提供很好的建議。換句話說,所有角色都應該在某種程度上了解其他角色的工作,但不必深入了解彼此的職責。

基本技能和工具