程序師世界是廣大編程愛好者互助、分享、學習的平台,程序師世界有你更精彩!
首頁
編程語言
C語言|JAVA編程
Python編程
網頁編程
ASP編程|PHP編程
JSP編程
數據庫知識
MYSQL數據庫|SqlServer數據庫
Oracle數據庫|DB2數據庫
您现在的位置: 程式師世界 >> 編程語言 >  >> 更多編程語言 >> Python

這10個Python機器學習庫,你用過哪些?

編輯:Python
來源:量子位

1. Awkward Array

根據官方介紹,Awkward Array用於嵌套的、大小不一的數據,包括任意長度的列表、記錄、混合的類型和缺失數據,使用起來類似NumPy

看起來像是升級版的NumPy呀。

果然,不同長度的數組可以直接放在一起運算。

並且,官方表示Awkward Array不僅使用起來更簡便,在速度內存上也有量級的優勢。

看看是不是可以安排上了~

https://pypi.org/project/awkward/

2. Jupytext

相信大家對Jupyter Notebook都不陌生。

當你有了Jupytext這個小插件就可以將Jupyter Notebook和IDE完美結合,聽起來是不是很棒!

從此Jupyter Notebook可以被存儲為Markdown文件或多種語言的腳本文件。

Jupytext可以做的事主要有:

  • Jupyter Notebook的版本控制

  • 在你喜歡的文本編輯器中編輯、合並或重構Notebook

  • 在Notebook上使用Q&A檢查

在Python中使用的樣子:

此項目在Github上已有5k+star。

https://github.com/mwouts/jupytext

3. Gradio

比Streamlit還輕量UI設計庫Gradio讓你輕松在浏覽器中“玩轉”你的模型,可以直接在浏覽器中拖放圖片,粘貼文字,錄制聲音,等等。

只要將launch()函數中的參數設置為share=True,還能得到一個可分享網址,拿到鏈接的朋友在電腦和手機端都能打開,活脫脫就是一個小程序

時常需要做Demo的小伙伴快看起來吧,此項目在Github上已有4.5k+star。

https://github.com/gradio-app/gradio

4. Hub

這個Hub在數據管理和數據預處理上可是一把好手。

它可以處理任何類型任何大小的數據,並且因為數據儲存在雲端上,所以可以無縫在任何機器上訪問。

被壓縮為二進制字節的數據可以被存儲在任何地方,並且只有在需要的時候才會被獲取,所以沒有TB級硬盤也可以處理TB級數據

Hub貼心地提供了重要API,支持數據在常用工具(PyTorch等)上的使用,數據版本控制,數據轉換等功能。

此項目在github上已有4.1k+star。

https://github.com/activeloopai/Hub

5. AugLy

AugLy是facebook最新推出的數據增強庫,同時支持語音文本圖像視頻類型的數據,包含了100多種增強方式。

數據對於模型訓練至關重要,而標注大規模數據十分困難。由於人力資源,和模型特性的限制,數據增強的應用越來越廣泛。

AugLy的優點

  • 處理類型更為全面。其他的數據增強庫,例如Albumentations和NVIDIA DALI,主要負責圖像相關數據的處理,文字數據不支持。

  • 處理方式十分人性化。AugLy可以將一張圖片做成備忘錄,在圖片/視頻上疊加文字/Emojis,轉發社交媒體上的截圖,還可以幫助你處理諸如拷貝檢測、仇恨言論檢測或版權侵權等問題。

此項目在Github上已有4.1k+star。

https://github.com/facebookresearch/AugLy

6. Evidently

Evidently是用來監測模型效果的工具,可從Pandas DataFrame或csv文件中生成交互式可視化報告JSON格式效果簡介。在Jupyter Notebook中可以使用。

目前可以提供6種報告:數據漂移、數值目標漂移、分類目標漂移、回歸模型性能、分類模型性能和概率分類模型性能。

此項目在Github上已有1.8k+star。

https://github.com/evidentlyai/evidently

7. YOLOX

如果你熟悉YOLO的話,那你或許會對曠視今年推出的YOLOX感興趣。

YOLO就是那個目標檢測算法,可以被使用在汽車自動駕駛等前沿技術中。

YOLOX是YOLO的無錨版本,設計更簡單,但性能更好!它的目標是在研究界和工業界之間架起一座橋梁,同時彌合兩方之間的差距。


這個Github上的開源項目在短短半年內已獲得5.2k+star。

https://github.com/Megvii-BaseDetection/YOLOX

8. LightSeq

正如它的名字一樣,LightSeq是一款由字節跳動開發的支持BERT、GPT、Transformer等眾多模型的超快推理引擎。

可以看到它的表現,比FasterTransformer還要Fast

LightSeq支持的模型也是非常全面

總之就是兩個字“好用”。此項目在Github上已有1.9k+star。

https://github.com/bytedance/lightseq

9. Greykite

想預測COVID-19的恢復速度嗎?那就來看看LinkedIn為了自家時間序列預測需求開發的Greykite吧。

功能全面(多種時間趨勢),界面直觀,預測速度快和可擴展性強是它最大的亮點。

被應用在上面的三大算法:

  • Silverkite (Greykite’s flagship algorithm)

  • Facebook Prophet

  • Auto Arima

感興趣的話就去研究看看吧,此項目在Github上已有1.4k+star。

https://github.com/linkedin/greykite

10. Jina and Finetuner

如今,在搜索引擎等應用上,語義識別的地位越來越高,因為它可以有效避免字詞匹配的局限。

不過語義識別涉及的神經網絡可能會讓很多人感到頭大,JinaFinetuner可以幫你解決這些問題。

Jina是一個神經搜索框架,使任何人都能在幾分鐘內建立可擴展的深度學習搜索應用程序。

Finetuner配合Jina幫助你對神經網絡進行調參,以獲得神經搜索任務的最佳結果。

Jina和Finetuner適合沒什麼經驗,又想嘗試的朋友。

https://github.com/jina-ai/finetuner

參考鏈接:

https://tryolabs.com/blog/2021/12/21/top-python-libraries-2021

END -

對比Excel系列圖書累積銷量達15w冊,讓你輕松掌握數據分析技能,可以點擊下方鏈接進行了解選購:

  1. 上一篇文章:
  2. 下一篇文章:
Copyright © 程式師世界 All Rights Reserved