集群管理工具和资源调度平台OpenI-Octopus
-
OpenI-Octopus是一个非常典型的集群管理工具和资源调度平台,它结合了一些在大规模生产环境中表现良好的成熟设计,主要为提升学术研究效率,复现学术研究成果而量身打造。
特点
1.OpenI-Octopus基于Kubernetes开发资源调度平台,以镜像方式管理任务运行环境,并且一次配置随处可用;2.是针对AI场景设计,但是对于AI场景的任务调度和任务启动具有一定特殊性,如PS-Worker架构的分布式任务,需要至少满足两个角色的资源请求才能启动任务,否则即使启动任务也会造成资源浪费,而OpenI-Octopus针对类似场景做了很多设计和优化;
3.插件式设计理念,以核心的业务流为基础,通过插件化的方式提供扩展性,不限制插件开发语言;
4.还有一个方便的点在于易于部署,OpenI-Octopus能够支持helm的方式进行快速部署,同时支持服务的自定义部署;
5.支持异构硬件,是因为采用了OpenI-Octopus基于Kubernetes的开发,所以能够自定义不同异构硬件插件;
6.支持多种深度学习框架,并且可以通过镜像方式可以非常方便的支持新增框架。
适用于构建大规模AI计算平台;希望共享计算资源;希望在统一的环境下完成模型训练;希望使用集成的插件辅助模型训练,提升效率。
西南地区IT社群(QQ)
- 云南
- 【昆明网页设计交流吧】243627302
- 【昆明nodejs交流吧】 243626749
- 【VUE】838405306
- 【云南程序员总群】343606807
- 【昆明UI设计】104031254
- 【云南软件外包】15547313
- 贵州
- 【PHP/java源码/站长交流群】55692114
- 四川
- 【成都Java/JavaWeb交流】86669225
- 【vaScript+PHP+MySql】116270060
- 【UI设计/设计交流学习群】135794928
- 重庆
- 【诺基亚 JAVA游戏博物馆】 559479780
- 【PHP,Java,Python,C++接单】 442103442
- 西藏