谷歌最近宣布,Colab 與 KaggleHub 的整合將為用戶帶來更為便捷的體驗。通過全新的數(shù)據(jù)探索器,用戶可以直接在 Colab 筆記本中搜索 Kaggle 上的數(shù)據(jù)集、模型和競賽,無需離開編輯器,即可快速獲取所需資源。
Colab 數(shù)據(jù)探索器的推出,讓用戶能夠在左側(cè)工具欄中訪問這一功能。用戶可以利用內(nèi)置的過濾器,根據(jù)資源類型或相關(guān)性等條件來精細(xì)化搜索結(jié)果。這種新功能的目的是簡化 Kaggle 資源的獲取過程,降低了用戶在分析數(shù)據(jù)時的技術(shù)門檻。
在這一更新之前,用戶需要經(jīng)過一系列繁瑣的步驟才能將 Kaggle 數(shù)據(jù)引入 Colab。首先,他們需要創(chuàng)建一個 Kaggle 賬戶,生成 API 令牌,下載 kaggle.json 憑證文件,并將其上傳到 Colab 運行環(huán)境中。接著,用戶還需設(shè)置環(huán)境變量,并使用 Kaggle API 或命令行界面下載數(shù)據(jù)集。盡管這些步驟已經(jīng)有很好的文檔支持,但對于初學(xué)者來說,這一過程常常容易出錯,調(diào)試缺失的憑證或錯誤的路徑成了他們的主要障礙。
Colab 數(shù)據(jù)探索器的推出,雖然仍需用戶提供 Kaggle 憑證,但顯著簡化了訪問 Kaggle 資源的方式,減少了用戶在開始分析前所需編寫的代碼量。KaggleHub 作為集成層,提供了一個簡單的接口,允許用戶在 Kaggle 筆記本和其他 Python 環(huán)境(如本地 Python 和 Colab)中使用。它在需要時使用現(xiàn)有的 Kaggle API 憑證進(jìn)行身份驗證,并提供資源中心功能,如 model_download 和 dataset_download,這些功能能通過 Kaggle 標(biāo)識符返回當(dāng)前環(huán)境中的路徑或?qū)ο蟆?/p>
通過 Colab 數(shù)據(jù)探索器,當(dāng)用戶在面板中選擇一個數(shù)據(jù)集或模型時,Colab 將顯示一個 KaggleHub 代碼片段,用戶只需在筆記本中運行該片段,即可訪問所選資源。運行代碼后,數(shù)據(jù)將可在 Colab 運行時使用,用戶可以像操作本地文件或數(shù)據(jù)對象一樣,使用 pandas 讀取數(shù)據(jù),使用 PyTorch 或 TensorFlow 訓(xùn)練模型,或?qū)⑵淝度氲皆u估代碼中。
項目:https://kaggle.com/discussions/product-announcements/640546
劃重點:









