職位描述

職責描述:
-負責大規模ai計算集群基礎設施和產品在私有化場景下的設計與研發工作
-構建異構多芯計算集群,優化gpu資源調度、虛擬化混布等核心能力,有效提升多芯供應能力和集群資源效率
-基于標準kubernetes技術,負責云原生ai組件研發工作,包括訓練推理服務編排、gpu資源調度和混布、ai存儲、高性能網絡等
-基于ai計算集群基礎設施,設計和研發異構計算平臺和解決方案,支持開發、訓練、推理等多場景能力
-提升服務和產品的穩定性,優化服務性能和可擴展性
任職要求:
-計算機及相關專業,本科及以上學歷
-熟悉kubernetes工作原理,熟悉調度器、資源擴展機制、容器運行時、容器網絡等技術,有kubernetes開發和維護經驗
-對kubeflow、volcano、pytorch、gpu芯片架構有一定了解者優先
-具備良好的溝通能力和團隊協作精神,嚴謹的工作態度,注重工程質量,有獨立解決各種系統問題的能力
-善于學習新的知識,動手能力強,有強烈的責任心,喜歡鉆研技術
工作地點
地址:錦州
