目錄
1. 什麼時候和如何使用R?
2. 什麼時候和如何使用Python?
3. R的優點
4. R的優點亦或是不足
5. R的不足
6. Python的優點
7.Python的優點亦或是缺點:可視化
8.Python的缺點
圖片來源:https://www.datacamp.com/tutorial/r-or-python-for-data-analysis
為幫助開發者小伙伴快速學習快速提高,我開辟了《新手上路常見問答》欄目,將大家的問題匯集起來,希望能給大家一些快速導引,避免給自己挖坑,少走彎路。
關於R和Python在數據科學的應用,今天我們來做一下比較。
如果數據分析任務需要對各個服務器進行獨立計算或分析,建議使用R。它非常適合研究和探索性工作,幾乎可以用於任何類型的數據分析,因為大量的軟件包和易於使用的測試通常可以提供快速啟動和運行所需的工具。 R也能在大數據解決方案中應用。
R提供了以下熱門軟件包:
dplyr,plyr和data.table用來輕松操作包,
stringr處理字符串,
zoo用於正常和不規律的時間序列,
ggvis,lattice和ggplot2可視化數據,
caret用於機器學習
當數據分析任務需要與Web應用程序集成或者統計代碼需要合並到生產數據庫中時,可以使用Python。作為一個完全成熟的編程語言,它是實現生產使用算法的好工具。
利用NumPy / SciPy(科學計算)和pandas(數據處理)包,Python可用於數據分析,matplotlib可以用來畫圖,scikit-learn是機器學習的應用包。
R有很好的可視化工具包
可視化數據通常比原始數字更有效,也更易被理解。可視化軟件包ggplot2,ggvis,googleVis和rCharts都有很好的功能。
R有較好的生態系統
R擁有豐富的很前沿的包生態系統和活躍的社區。可在CRAN,BioConductor和Github下載R包,可以通過Rdocumentation搜索所有R包。
R是數據科學的通用語言
R由統計學家開發。他們可以通過R代碼和軟件包來交流想法和概念,不一定需要計算機科學背景才能開始。此外,R在學術界之外越來越多地被采用。
R的出現,幫助了統計學家,但是增加了計算機的運行時間。雖然由於編寫代碼不足,R的運行速度很慢,但是有很多包可以提高R的性能,如pqR,renjin和fastR,Riposte等等。
R學習起來不是很容易,特別地,如果從GUI進行統計分析會非常困難。如果對R不熟悉,即使查找包也可能很耗時。
可以使用IPython筆記本輕松使用Python和數據。
可以輕松地與同事共享筆記本,而無需安裝任何程序,可以大大減少組織代碼、輸出和筆記文件的開銷,可以提高工作效率。
Python是一種簡單直觀的通用語言
Python是一種簡單直觀的通用語言。學習起來很容易,也提高了開發程序的效率。大家可以查看我的文章【新手上路常見問答】關於Python
此外,Python測試框架是一個內置易使用的入門測試框架,可以進行良好的測試覆蓋,代碼的重用性和可靠性能得到保障。
Python有一些很好的可視化庫,例如Seaborn,Bokeh和Pygal。此外,與R相比,Python的可視化通常更復雜,展示結果也並不理想。
Python是R的挑戰者。它不提供數百種必需R包的替代方法。
做數據分析時,究竟用R還是Python呢,根據以上的比較,大家應該會有一些判斷了吧。