集群管理工具和资源调度平台
-
OpenI-Octopus是一个集群管理工具和资源调度平台,它结合了一些在大规模生产环境中表现良好的成熟设计,主要为提升学术研究效率,复现学术研究成果而量身打造。
特点有基于Kubernetes开发资源调度平台,以镜像方式管理任务运行环境,一次配置随处可用;针对AI场景设计,AI场景的任务调度和任务启动有一定特殊性,如PS-Worker架构的分布式任务,需要至少满足两个角色的资源请求才能启动任务,否则即使启动任务也会造成资源浪费,而OpenI-Octopus针对类似场景做了很多设计和优化;插件式设计理念,以核心的业务流为基础,通过插件化的方式提供扩展性,不限制插件开发语言;易于部署,OpenI-Octopus支持helm方式的快速部署,同时支持服务的自定义部署;支持异构硬件,如GPU、NPU、FPGA等,由于采用OpenI-Octopus基于Kubernetes开发,可自定义不同异构硬件插件;支持多种深度学习框架,如 tensorflow、pytorch、paddlepaddle等,并通过镜像方式可方便的支持新增框架。适用场景:构建大规模AI计算平台;希望共享计算资源;希望在统一的环境下完成模型训练;希望使用集成的插件辅助模型训练,提升效率。
西南地区IT社群(QQ)
- 云南
- 【昆明网页设计交流吧】243627302
- 【昆明nodejs交流吧】 243626749
- 【VUE】838405306
- 【云南程序员总群】343606807
- 【昆明UI设计】104031254
- 【云南软件外包】15547313
- 贵州
- 【PHP/java源码/站长交流群】55692114
- 四川
- 【成都Java/JavaWeb交流】86669225
- 【vaScript+PHP+MySql】116270060
- 【UI设计/设计交流学习群】135794928
- 重庆
- 【诺基亚 JAVA游戏博物馆】 559479780
- 【PHP,Java,Python,C++接单】 442103442
- 西藏