一、出現場景
當面對企業級大數據處理時,因為代碼本身,導致CPU高負荷運行,內存基本占用滿,代碼依舊未響應,如果真的因為數據量的問題那麼就應該考慮,優化本地運行環境,或是使用專業的高性能運算服務器來完成。
二、解決辦法
- 如果代碼中無類或函數,關注循環處的代碼,有其它方法盡可能避免循環與判斷,盡量避免變量直接賦值給變量,如:a = b
- 如果代碼裡有類或函數,避免定義多個self,避免大量使用全局變量
- 最重要的是關注第三方庫,需要使用numpy或者pandas這些庫時,注意自己的需求,非獨有功能盡量避免使用它們來運算,例如,要行索引相同的他們對應的值相加,完全可以用list方法來實現