top of page
作家相片任性分析師 GT

只會 Excel 拉資料?面對巨量資料不可不知的 Python Pandas 套件|教學

已更新:2023年4月29日

遇到 Excel 跑不動的數據,交給 Pandas 就對了!(附教學簡報)


python pandas 商業分析師的隨筆記 bianalyst gt

你都怎麼處理巨量資料呢?


淺談 Excel、Power BI、Tableau


在我過去的分析工作中,我們所遇到數據處理都還是使用 Excel 為主。回顧工作介紹可點此連結


當時主要是因為大部分要做的分析報告資料量不大、入門協作也簡單,同時也是因為大部分的同事不會 Excel 以外的工具。


Excel 的功能相當齊全。樞紐分析表、篩選功能、Vlookup 等函數,在處理資料方面相當方便、快速,可說是分析師不得不學會使用的工具之一。


然而,遇到巨量資料,達到十幾萬、百萬筆數的資料,導致 Excel 無法讀取、編輯時,我們則會跳槽使用 Tableau 或者是 Power BI 這種 BI Tools。


雖然 Power BI 與 Tableau 在編輯 / 查找 Raw Data 不即 Excel 直觀(也是很多人入門 BI Tools 遇到的痛點),但是在面對這種資料量體而言,也是我們僅存的少數選擇了。


不過,相當然爾,這些 BI Tools 也是有所極限。這也是為什麼我到後期更決心要專精 Pandas 的主要原因。


為什麼要學 Python Pandas 套件?


對於需要對巨量資料做分析、處理的分析師而言,BI Tools 往往也只是輔助。不論你是寫 R 還是 Python,資料量體過於龐大時,一定會在讀取就遇到難關,更不用說是接續的清理、分析,又或是視覺化工作。所以,在拿到 Raw Data 的一開始就以程式語言起頭,會讓後面的一切順利許多。


不過,這裡還是要再重申:

每個資料處理工具都有適合的使用場景,因此 Python 也不見得是每個分析報告的最佳解

倘若你的工作只會處理到數百、千筆資料,而且經常需要編輯 Raw Data,那使用 Excel 其實會比 Python Pandas 來得更有效率喔!


Pandas 入門:實務上的常用功能有哪些?


Pandas 的介紹相信大家爬文都能找到,這邊簡單說明:


Pandas 是讓使用者能夠在 Python 建築資料結構(Data Structure)進而做到清理與分析的工具。



常用清單


就好比我們常使用 Excel 等工具做的資料處理一樣,我們可以在 Excel 做到的事情,基本上都難不倒 Pandas,包含樞紐分析表也可以在 Pandas 呈現。底下這邊列舉常用的入門 Pandas 功能:


0) 資料格式(Data Type)

1) 讀取資料(Load Data)

2) 擷取資料(Trim Data)

3) 增加 / 刪減資料行 / 資料欄位(Add/ Delete Rows/ Columns)

4) 處理空值與重複值(Manipulate Na Value and Duplicates)

5) 處理時間資料(Data in DateTime Format)

6) 樞紐工具 / 分組(Pivot Table / Group By Data)

7) 排序(Order By Data)

8) 合併資料(Combine Data)

9) 匯出資料(Export Data)


簡報資源


為了不佔用版面,針對上面 0–9 點,可以參照我上傳到 Github 的簡報,來學習 Pandas 套件:



提醒 (1):分享請務必附上作者 Github 網址

提醒 (2):簡報使用 Dataset 為「Kaggle Titanic」,資料說明可透過此關鍵字查找


 

結語


簡報的內容對於初步的分析而言十分重要,若是掌握了裡面的內容,也建議可以進一步嘗試進階一些的功能,如:搭配 lambda / transform / apply 的應用方式。

Comments


bottom of page