轻松构建自己的Python开发环境,进入机器学习新世界
無論是學習機器學習還是開發大型操作模型,其實工作站硬件并不是那么重要。
原因是不建議在工作站上安裝大型模型。
機器學習開發涉及許多小的測試,以便找出問題的初始答案,例如:
- 使用什么數據。
- 如何準備數據。
- 使用什么型號。
- 使用什么配置。
最終在工作站上的目標是找出要運行的實驗。我稱之為初步實驗,對于初步實驗使用較少的數據即適合硬件能力的小樣本數據,確保能輸出你要的結果就可以了。
如果使用的是深度學習方法,則需要 GPU 或者 TPU 硬件。一般企業會提供或者可以在云中以低廉的價格租用它,例如 AWS、阿里云、騰訊云、華為云等等。
從性能角度比工作站 (CPU) 更快,容量 (RAM) 更多,可以運行的初步小實驗的數據就越多或越大,并且從大型實驗中獲得的收益就越多。
我自己喜歡帶有大量 RAM 和大量內核的 PC 機器。例如這個是我機器的配置
總之:
- 工作站:使用您的數據的小樣本并找出要運行的大型實驗。
- 服務器:運行需要數小時或數天的大型實驗,并幫助您確定在操作中使用的模型。
文章目錄
- 安裝機器學習依賴項
- 機器學習編輯器
安裝機器學習依賴項
您必須安裝用于機器學習開發的庫依賴項。
在 Python 中,這可能是 Pandas、scikit-learn、Keras 等。不僅僅是安裝依賴項,您還應該有一個可重復的過程,以便您可以在幾秒鐘內再次設置開發環境,例如在新工作站和新服務器上。
我建議使用包管理器和腳本(例如 shell 腳本)來安裝所有內容。庫總是通過錯誤修復進行更新,因此更新專門安裝的庫(及其依賴項)。
- 安裝腳本:維護一個腳本,您可以使用該腳本重新安裝開發環境所需的一切。
- 更新腳本:維護一個腳本來更新機器學習開發的所有關鍵依賴項并定期運行它。
機器學習編輯器
機器學習開發的艱苦工作不是編寫代碼,而是正在處理未知數。例如:
- 使用什么數據。
- 如何準備數據。
- 使用什么算法。
- 使用什么配置。
編寫代碼是容易的部分,因為很多人已經把基礎的算法整合成各種第三發放依賴包。因此不需要花哨的 IDE,用一個就可以了。就個人而言,我使用并推薦 Sublime Text 和 Pycharm,其實其他任何類似的文本編輯器也能正常工作。
一些開發人員喜歡使用筆記本,例如 Jupyter Notebook。如果你是非特別專業的開發人員的話我推薦你使用,除此之外我不推薦它們。
為了學習機器學習和機器學習開發,我建議編寫可以直接從命令行或 shell 腳本運行的腳本或代碼。
例如 Python 腳本可以使用各自的解釋器直接運行。
在 Linux 服務器上運行深度學習實驗也類似,直接使用命令行的模式執行即可,例如:
一旦您有了最終的模型(或一組預測),您就可以使用項目的標準開發工具將其集成到您的應用程序中。
也就是我們俗稱的做好的包嵌入到應用程序中。
總結
以上是生活随笔為你收集整理的轻松构建自己的Python开发环境,进入机器学习新世界的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 苹果设置播放html5视频,类似苹果官网
- 下一篇: Airpods Pro连接Macbook