遇到 Excel 跑不動的數據,交給 Pandas 就對了!(附教學簡報)
你都怎麼處理巨量資料呢?
淺談 Excel、Power BI、Tableau
在我過去的分析工作中,我們所遇到數據處理都還是使用 Excel 為主。回顧工作介紹可點此連結。
當時主要是因為大部分要做的分析報告資料量不大、入門協作也簡單,同時也是因為大部分的同事不會 Excel 以外的工具。
Excel 的功能相當齊全。樞紐分析表、篩選功能、Vlookup 等函數,在處理資料方面相當方便、快速,可說是分析師不得不學會使用的工具之一。
然而,遇到巨量資料,達到十幾萬、百萬筆數的資料,導致 Excel 無法讀取、編輯時,我們則會跳槽使用 Tableau 或者是 Power BI 這種 BI Tools。
雖然 Power BI 與 Tableau 在編輯 / 查找 Raw Data 不即 Excel 直觀(也是很多人入門 BI Tools 遇到的痛點),但是在面對這種資料量體而言,也是我們僅存的少數選擇了。
不過,相當然爾,這些 BI Tools 也是有所極限。這也是為什麼我到後期更決心要專精 Pandas 的主要原因。
為什麼要學 Python Pandas 套件?
對於需要對巨量資料做分析、處理的分析師而言,BI Tools 往往也只是輔助。不論你是寫 R 還是 Python,資料量體過於龐大時,一定會在讀取就遇到難關,更不用說是接續的清理、分析,又或是視覺化工作。所以,在拿到 Raw Data 的一開始就以程式語言起頭,會讓後面的一切順利許多。
不過,這裡還是要再重申:
每個資料處理工具都有適合的使用場景,因此 Python 也不見得是每個分析報告的最佳解
倘若你的工作只會處理到數百、千筆資料,而且經常需要編輯 Raw Data,那使用 Excel 其實會比 Python Pandas 來得更有效率喔!
Pandas 入門:實務上的常用功能有哪些?
Pandas 的介紹相信大家爬文都能找到,這邊簡單說明:
Pandas 是讓使用者能夠在 Python 建築資料結構(Data Structure)進而做到清理與分析的工具。
常用清單
就好比我們常使用 Excel 等工具做的資料處理一樣,我們可以在 Excel 做到的事情,基本上都難不倒 Pandas,包含樞紐分析表也可以在 Pandas 呈現。底下這邊列舉常用的入門 Pandas 功能:
0) 資料格式(Data Type)
1) 讀取資料(Load Data)
2) 擷取資料(Trim Data)
3) 增加 / 刪減資料行 / 資料欄位(Add/ Delete Rows/ Columns)
4) 處理空值與重複值(Manipulate Na Value and Duplicates)
5) 處理時間資料(Data in DateTime Format)
6) 樞紐工具 / 分組(Pivot Table / Group By Data)
7) 排序(Order By Data)
8) 合併資料(Combine Data)
9) 匯出資料(Export Data)
簡報資源
為了不佔用版面,針對上面 0–9 點,可以參照我上傳到 Github 的簡報,來學習 Pandas 套件:
提醒 (1):分享請務必附上作者 Github 網址
提醒 (2):簡報使用 Dataset 為「Kaggle Titanic」,資料說明可透過此關鍵字查找
結語
簡報的內容對於初步的分析而言十分重要,若是掌握了裡面的內容,也建議可以進一步嘗試進階一些的功能,如:搭配 lambda / transform / apply 的應用方式。
Comments