OpenAI在AWS、甲骨文和微软投入了6000亿

OpenAI在AWS、甲骨文和微软投入了6000亿

OpenAI正在大肆花钱以确保其人工智能计算供应链的安全,作为其多云战略的一部分,它与亚马逊网络服务(AWS)签署了一项新协议。 该公司最近结束了与微软的独家云计算合作关系。此后,据报道,它已向微软返还2500亿美元,向甲骨文投入3000亿美元,现在又与亚马逊网络服务(AWS)签订了一项新的多年协议,投入380亿美元。

这笔380亿美元的AWS交易虽然是这三笔交易中金额最小的,但却是OpenAI多元化计划的一部分。 对于行业领导者来说,OpenAI的行动表明,高性能图形处理器(GPU)不再是按需供应的商品。如今,它已成为一种稀缺资源,需要大量的长期资本投入。 与AWS的协议使OpenAI能够使用数十万块英伟达GPU,包括新型号GB200和GB300,还能使用数千万个中央处理器(CPU)。

这一强大的基础设施不仅用于训练未来的模型,运行如今ChatGPT的大规模推理工作负载也需要它。正如OpenAI联合创始人兼首席执行官山姆·阿尔特曼所说:“扩展前沿人工智能需要大量、可靠的计算资源。” 这种大规模支出正促使超大规模云服务提供商做出竞争性回应。虽然AWS仍是行业内最大的云服务提供商,但微软和谷歌最近的云业务收入增长更快,这往往得益于它们吸引了新的人工智能客户。

这笔与AWS的交易是一次直白的尝试,旨在确保一项基础性人工智能工作负载,并证明其大规模人工智能处理能力,AWS称其能力包括运行超过50万个芯片的集群。 AWS提供的不只是标准服务器。它正在为OpenAI构建一个复杂的、专门设计的架构,使用EC2超级服务器连接GPU,以满足大规模训练所需的低延迟网络要求。 AWS首席执行官马特·加曼表示:“优化计算资源的广泛可用性和即时可得性,彰显了AWS在支持OpenAI庞大人工智能工作负载方面的独特优势。” 但“即时”是相对的。

OpenAI最新的云人工智能协议中的全部计算能力要到2026年底才能完全部署到位,且还有在2027年进一步扩展的选项。对于任何规划人工智能推广的高管来说,这一时间表带来了一丝现实考量:硬件供应链很复杂,且规划周期长达数年。 那么,企业领导者能从中学到什么呢? 首先,关于人工智能基础设施“自建还是外购”的争论几乎尘埃落定。

OpenAI正花费数千亿美元在租用的硬件基础上进行构建。几乎没有其他公司能够或应该效仿此举。这使得市场上的其他公司坚定地转向像亚马逊Bedrock、谷歌Vertex AI或IBM watsonx这样的托管平台,在这些平台上,超大规模云服务提供商承担了基础设施方面的风险。 其次,人工智能工作负载单一云服务采购的日子可能不多了。OpenAI转向多供应商模式是降低集中风险的典型案例。

对于首席信息官来说,将运行核心业务流程的计算工作依赖于单一供应商正变得越来越像一场赌博。 最后,人工智能预算已不再属于部门级信息技术范畴,而是进入了企业资本规划领域。这些不再是可变的运营费用。确保人工智能计算资源如今是一项长期财务承诺,就如同建设一座新工厂或数据中心一样。

联系方式
回顶部