您现在的位置是:系统运维 >>正文
AI和HPC推动对更高密度的数据中心、新的即服务产品的需求
系统运维6594人已围观
简介AI和HPC的电力和冷却需求需要专业知识和能力,运营和工程也需要具备专业知识。正如数据中心发现自己需要处理电力、空间和可持续发展等新问题一样,最新的尖端技术、AI和机器学习给所有这些问题带来了挑战。这 ...
AI和HPC的推动电力和冷却需求需要专业知识和能力 ,运营和工程也需要具备专业知识。对更度

正如数据中心发现自己需要处理电力 、高密空间和可持续发展等新问题一样 ,数据最新的中心尖端技术、AI和机器学习给所有这些问题带来了挑战。新的需求
这并不是即服说必须面对的这些问题是新的 ,而是推动AI的采用正在以前所未有的香港云服务器速度发生 。在一年左右的对更度时间内 ,托管提供商将需要进行调整,高密以应对企业对高密度数据中心的数据新的 、更大的中心需求。
那么 ,新的需求这实际上意味着什么呢?即服似乎不太可能有一大批客户投资数百万美元购买AI专用硬件 ,敲响托管提供商的推动大门,那么数据中心需要提供什么呢?
电力和冷却优先在基础设施方面,电力和冷却的建站模板可用性将是客户首先寻求的。但是,提供商是否需要能够支持整个数据大厅的NVIDIA H100规模的GPU,或者更有可能的是,具有4或8个GPU服务器和适当存储的单个机架就是所需的全部?
当然,亿华云对于相对简单的单一AI服务器部署 ,单机架解决方案可能需要支持50kW或更多。正如我们最近指出的 ,处理这种工作负载的技术已经在许多设施中到位 ,但它只是将AI部署到主机托管中的一个起点 。
对于提供商和客户来说,现在和未来的中期解决方案是AI即服务解决方案。
换句话说,托管客户大规模AI部署的服务器租用市场正开始推动需求,因为似乎每个人都有兴趣涉足其中。这意味着,拥有各自云的微软、谷歌、亚马逊甚至甲骨文都将看到客户希望使用其按需配置来测试、评估并潜在地部署云AI服务。
谁将推动这一需求?但进入提供AI云服务的不仅仅是顶级参与者 。在最近的Computex 2023大会上,英伟达特别强调了他们的云合作伙伴,除了四大之外。高防服务器
Cirrascale就是一个这样的例子 ,他们最初是作为HPC按需计算的提供商而成名的 。他们现在提供他们的AI创新云 ,该云利用支持基础设施为客户提供评估AI/ML系统的机会 。他们对AI托管的承诺反映在客户可供选择的方面 。
客户不仅可以选择使用前几代和当前几代NVIDIA AI硬件 ,该公司还可以托管他们的源码下载GraphCloud,利用Graphcore的BOW IPU;Cerebras的AI Model Studio在他们托管的Cerabras云上运行;以及SambaNova的数据流即服务和基础模型 。
这是四种领先的加速AI/ML技术 ,它们不是Google或AWS,这两家公司除了自己的内部设计外 ,还提供Nvida GPU 。Cirrascale也可能是这些相互竞争的技术的唯一来源,在某些情况下,还提供互补技术,甚至在他们的云中提供不同技术的公开定价模型。
Lambda Labs采取了一种略有不同的方法,他们提供五种不同级别的基于Nvidia的托管服务,以及为你的ML硬件和软件堆栈设计的全面托管服务。它们提供专为GPU计算工作负载设计的高密度电源和冷却 。此外,他们还可以在你的数据中心或其数据中心内部提供其设计的GPU群集。
NVIDIA强调的其他供应商包括Coreweave 、Paperspace和Vultr 。所有这些提供商的共同点是 ,它们都是专门的云服务提供商 ,拥有多个数据中心,并专注于支持AI/ML工作负载。有些公司的目光超越了他们的AI重点,提供了更标准化的云数据中心选项,例如全方位的存储、托管数据库、Kubernetes和裸机部署。
这让我们对主机代管的未来有了一些了解。随着新设施的建设和现有空间的翻新 ,为高密度计算开发必要的支持基础设施 ,无论是提供带有被动后门冷却的机架 ,还是配备用于部署液体冷却IT工作负载设备的完整数据大厅 ,或者介于两者之间的任何东西 ,都需要引起人们的注意。
它将成为行业的驱动力虽然并不是每个数据中心都需要配备设备来运行最密集的AI工作负载,但当前的趋势是 ,仅宝贵的数据中心位置的空间就非常宝贵 ,这意味着构建更高密度的机架解决方案是通向未来的唯一途径 。
这并不意味着每个数据中心都需要按照Colovore设施的方式来建设 ,Colovore设施提供每个机架35千瓦的标准密度,并谈到了构建超过200 kW机架的能力(这个数字似乎过高,除非你看看AI/ML工作负载专用硬件的电力需求)。但这确实意味着 ,尤其是在空间有限的地方,数据中心将需要标准化,以支持显著更高的电力和冷却需求。
对现有设施来说 ,幸运的是,冷却技术的进步并不需要对现有的冷却基础设施进行大规模的拆卸和更换。有足够广泛的冷却技术可以实现经济高效的按需升级 ,新的机架设计 、被动和液体冷却技术以及从机架扩展到整个数据中心的解决方案近在咫尺 。
作为这些技术的一个极好的例子,在2023年8月的第一周 ,Digital Realty宣布其在28个市场的代管设施将开始支持高达70kW的机架密度 。该公司正在使用所谓的空气辅助液体冷却技术来实现这一点,该技术通过在现有的代管设施中引入液体冷却后门热交换器来实现 。
对高密度托管的支持不是在未来,而是现在 。找到可伸缩性良好的解决方案将是许多提供商的目标。随着客户开始了解高性能计算和AI解决方案将为他们的业务带来的价值,推动这些变化的业务正在迅速增长 。
Tags:
转载:欢迎各位朋友分享到网络,但转载请说明文章出处“算法与编程”。http://www.bzli.cn/news/139b7899782.html
相关文章
2023年上半年CISA披露的670个ICS漏洞分析
系统运维据工业资产和网络监控公司 SynSaber 称,美国网络安全和基础设施安全局 (CISA) 在 2023 年上半年披露了 670 个影响工业控制系统 (ICS) 和其他运营技术 (OT) 产品的漏洞。 ...
【系统运维】
阅读更多调查报告:AI与云重塑IT格局,77%的IT领导者视网络安全为首要挑战
系统运维最近的一项研究表明,网络安全在未来两到三年内将成为IT团队面临的首要挑战,有77%的专业人士将其视为最为紧迫的问题。这一见解来自IT和物联网监控解决方案提供商Paessler的一项全球调查,汇集了来自 ...
【系统运维】
阅读更多如何防止数据中心遭受DDoS攻击?
系统运维一、开篇你是否还记得,某天登录常用的网站或 APP 时,却发现页面一直加载,死活打不开?又或者正玩着游戏,突然频繁掉线,团战关键时刻 “掉链子”,气得想摔手机?这背后很可能是数据中心遭受了 DDoS ...
【系统运维】
阅读更多
热门文章
最新文章
友情链接
- 戴尔数据泄露事件:测试实验室平台遭 World Leaks 黑客组织入侵
- 戴尔科技PowerScale在IDC行业追踪报告中年年保持销量冠军
- 从“v我50”到“疯狂星期四”:HTTPS如何用47天寿命的证书挡住中间人
- 解决WiFi已连接但无法上网的问题(探索WiFi连接问题背后的原因及有效解决方案)
- 2022年及以后的四个数据中心提示
- 花漾搜索答题教程(掌握花漾搜索的技巧,快速解答各类题目)
- 戴尔科技 VMware Tanzu 加快基础设施现代化进程满足您的业务需求
- 苹果6s搭载iOS10.3.1
- 数据中心在冷却、成本和二氧化碳减排方面均未达到目标
- 以Ghost还原教程——如何恢复丢失的数据?(通过简单操作,轻松解决数据丢失问题) 亿华云企业服务器香港物理机云服务器b2b信息平台网站建设源码库