TRY高性能计算机具有TensorFlow 机器学习功能的解决方案
该解决方案是使用 TRY SR408、SuperStorage 系统和 IB 以太网交换机构建和验证的,这些交换机针对性能进行了优化,旨在提供最高水平的可靠性、质量和可扩展性。
anonical Distribution of Kubernetes (CDK) 是经过最广泛云测试的纯上游 Kubernetes。Canonical 还提供了一个由工具、库、服务、现代指标和监控工具组成的丰富生态系统,使 CDK 易于使用,因此您可以更快地进行创新。
Kubeflow 是一个开源项目,致力于在 Kubernetes 集群之上提供易于使用的机器学习 (ML) 资源。最突出的是Kubeflow 简化了 TensorFlow 的安装,并提供了在执行提交给它的 ML 作业时利用连接到底层主机的 GPU 的机制。
TensorFlow 是一个用于高性能数值计算的开源软件库。其灵活的架构允许跨各种平台(CPU、GPU、TPU)轻松部署计算,从台式机到服务器集群再到移动和边缘设备。
TRY SR408 + Canonical 机器学习
特性
- 经过多方检验的架构
- 认证组件
- 横向扩展 – 一个机架到多个机架
- 最环保的云服务器– 每台服务器节省数千元。
- 最低成本 – 最佳性能 / 瓦特 / $ / ft²
SKU 详情
|
机器学习 SKU |
数量 |
使用的组件 |
基础设施节点 |
TRY SR408 |
3 |
云节点 |
TRY SR212 |
6 |
云节点数据盘 |
U.2 NVMe 驱动器 (2 TB) |
12 (每个节点 2 x 6) |
SSD 2TB U.2 |
云节点 GPU |
NVIDIA Tesla V100 16GB GPU |
12 (每个节点 2 x 6) |
GPU-NVTV100-16 |
网络选项(带有 10、25 或 40GB 数据交换机)
参考配置包括两种类型的以太网交换机——一种用于整合管理/IPMI 流量,另一种用于网络数据流量。1GbE 管理交换机对所有三个网络选项都是通用的。数据交换机选项范围从 10Gbps、25Gbps 到 40Gbps 交换机。
|
具有 Cumulus OS 3 的10 GbE 数据网络 |
具有 SMIS 操作系统的 25 GbE 数据网络 |
带有 Cumulus OS 3 的40 GbE 数据网络 |
数量 |
管理交换机 |
SSE-G3648BR |
SSE-G3648BR |
SSE-G3648BR |
2 |
数据切换 |
SSE-X3648SR |
SSE-F3548SR |
SSE-C3632SR |
2 |
基础设施节点 NIC |
AOC-STGF-I2S-O |
AOC-S25G-M2S |
AOC-S40GI2Q |
6 个(每个节点 2 个 x3) |
云节点网卡 |
AOC-STGF-I2S-O |
AOC-S25G-M2S |
AOC-S40GI2Q |
12 (每个节点 2 个 x6) |
1 – 10 GbE 数据交换机和 40 GbE 数据交换机选项要求解决方案中的所有交换机都使用 Cumulus OS。数据和管理交换机的 Cumulus OS 许可证是通过 Supermicro 使用提供的 SKU 获得的。
2 – 25 GbE 数据交换机选项要求解决方案中的所有交换机都使用SMIS操作系统。管理交换机的 SMIS 操作系统是使用提供的 SKU 获得的。数据交换机的 SMIS OS 包含在交换机中。
3 – Cumulus Linux 是一个强大的开放网络操作系统,允许您自动化、定制和扩展: