Annapurna实验室:云端快速芯片设计
license优先调度增强了资源管理能力
关于Annapurna实验室
安纳普尔纳峰实验室成立于2011年,是一家无晶圆厂芯片初创企业, 专注于为快速增长的云基础设施带来创新. 成立四年后,安纳普尔纳峰实验室被亚马逊网络服务公司(AWS)收购。. 从此,安纳普尔纳 Labs已经加快了创新步伐,并开发了许多有利于云客户的产品, 包括AWS Nitro技术, Inferentia定制机器学习芯片, 以及AWS Graviton2处理器, 基于64位Arm Neoverse架构 专用云服务器.
他们面临的挑战
作为一家芯片设计公司, 上市时间和工程效率是最关键也是最昂贵的指标. 记住这一点, Annapurna实验室的团队为他们的前端选择了Altair Accelerator™作业调度程序 后端工作流. 该团队在许多专用的Amazon Elastic Compute 云 (EC2)实例上管理工作负载,他们偶尔可以通过手动添加新的按需实例来进行扩展. 然而,这个过程并不是自动化的 导致高接触, 效率低下, 忘记未使用的计算资源, 或者缩放不足,或者缩放过度. 作为加速器的一个功能, 快速扩展未使用的计算资源与Annapurna实验室开发,以增加结构和效率 扩展AWS计算资源, 缩短取得成果的时间, 并将开发模式改为持续集成.
Altair的许可证优先调度方法使Annapurna实验室能够增强其资源管理. 它不仅让我们更好地控制资源使用和成本, 我们极大地提高了生产效率和生产时间 持续集成开发流程.”
- Nafea Bshara, Annapurna实验室
我们的解决方案
除了在有需求时自动启动新实例之外, 快速扩展着眼于需求处理的速度,如果速度足够好就停止扩展. 这意味着需求可以在10分钟内得到满足. 的 许可证优先的调度方法允许Accelerator有效地区分等待许可证的工作负载和等待硬件的工作负载. 只有当工作负载正在等待硬件时,才有必要请求AWS实例. 所有 资源闲置一分钟后将被释放.
与Annapurna实验室合作添加了许多功能, 包括可配置的实例类型选择, Spot实例支持, 防止各种错误,如实例类型饱和, /tmp大小, 精细控制工种数量 可以在每个新实例上执行,也可以在许多其他实例上执行.
电子设计自动化(EDA)作业可能很短,实例的启动时间与这些作业的运行时相当. 了解工作负载速度和启动成本的能力使快速扩展能够避免超调. 亚马逊EC2优惠 最广泛和最深刻的例子选择, 建立在最新的计算, 存储, 以及为高性能和安全性而设计的网络技术. 快速伸缩允许作业资源请求映射到最合适的实例.
虽然AWS在某些情况下具有很高的弹性,但特定的实例类型可能不可用. 快速扩展了解在第一种备份实例类型不可用时如何选择备份实例类型. 在工作负载激增过去之后,空闲实例 终止. 这种灵活性很好地映射到AWS的保留、按需和现货实例概念
结果
安装了快速缩放系统后,Annapurna实验室的成本至少降低了50%. 另外, 快速扩展现在是Annapurna实验室芯片开发持续集成流程的一部分, 他们看到了更快的增量发展 和连续回归. 安纳普尔纳峰实验室通过对项目和用户的资源使用情况的详细查看,对成本和收益进行了更严格的控制.