刚刚,英伟达把 H100 送上轨道,宣布在太空跑起数据中心级 GPU。紧接着,谷歌 Project Suncatcher 官宣,要在近地轨道用 TPU 做分布式机器学习试验,并计划在 2027 年初发射原型星。
Project Suncatcher(捕光者计划)是一个基于太空的可扩展 AI 基础设施系统设计。谷歌 CEO Sundar Pichai 表示,太阳发出的能量比人类总电力生产量高出 100 万亿倍,Project Suncatcher 计划可以更好地利用太阳的能量来驱动 AI。
TPU 的太空版图
11 月 3 日,太空数据中心初创公司 Starcloud 的卫星 Starcloud-1 成功入轨,搭载了 NVIDIA 的 H100 GPU 并已进入运行状态。
在 NVIDIA 迈出第一步之后,谷歌正式发起 Project Suncatcher。该研究计划其核心为:在近地轨道部署一系列太阳能卫星(卫星星座),搭载其自研的 TPU(张量处理单元),并通过自由空间光通信(星际激光链路)构建分布式机器学习系统。
官方披露,在适当轨道上,太阳能电池板效率可达地面 8 倍,并且可几乎持续发电。
为验证系统可行,谷歌计划与 Planet Labs 合作,于 2027 年初发射两颗原型卫星。
谷歌也在论文《Towards a future space-based, highly scalable AI infrastructure system design》中分享了一些早期研究成果,包括卫星间的高带宽通信、轨道动力学以及辐射对计算的影响。
“
若将 AI 视为新一代基础设施,其算力与能源需求势必持续增长。太阳是最强大且可持续的能量源,因此未来的 AI 系统或将直接在太空中运行。研究团队提出一套基于太阳能卫星群的机器学习架构:卫星搭载谷歌 TPU,通过自由空间光通信互联,在轨形成高带宽、低延迟的计算网络。模拟显示,一个半径约 1 公里的 81 星编队可稳定运行,并通过机器学习模型精确控制轨道。Trillium TPU 经辐射测试可在 5 年任务周期内保持稳定,无永久性损伤。研究还指出,若发射成本降至 每千克约 200 美元,太空算力中心的建设将具备现实可行性。
在谷歌讨论能否在太空构建 AI 基础设施的同时,还面临三个关键挑战:
星间通信带宽:要与地面数据中心匹敌,星间激光链路需支持数 Tbps 级别带宽。为此,卫星必须非常密集地编队飞行(公里级甚至更近)才能实现链接预算。
热管理与可靠性:在真空中散热方式不同于地面,对芯片系统、结构设计、热通道的要求极高。谷歌强调在轨可靠性仍为重大难题。
经济可行性:目前发射成本仍高,谷歌估算若单千克发射成本下降至约 200 美元,则天基数据中心的整体成本可接近地面系统。
影响与展望
若太空计算成为现实,地面用于大规模机房的土地、电力、水冷系统需求可大幅降低,从而释放城市周边资源压力。
针对对地球观测、海洋监测、灾害预警等场景,近轨算力意味着更快响应和就地处理能力,有助于减少数据回传时延。
随着模型规模继续攀升,地面算力扩张可能遇到边际收益递减。太空或为下一个指数级增长的空间,可能催生基于卫星算力的云/边缘混合架构。
但是,未来仍有三大变量需要持续观察:
发射与维护成本曲线:当前火箭发射仍昂贵,卫星寿命、维修难度、轨道碎片风险也高。成本若难以下降,天基算力仍倾向“锦上添花”而非主流。
可持续运维 &安全监管:太空算力扩展需考虑碎片清理、太空环境保护、国际合规、数据安全及网络攻防新维度。
网络生态与地面融合能力:在轨算力若不能与地面数据中心、高速地面光缆网络、云服务无缝融合,其优势将受限。星间通信、地面回传、算力调度需形成完整体系。
下一个五到十年,或许我们会见证由数十颗、甚至数百颗太阳能驱动卫星组成的“云端”机房体系,在地球上方默默运行。AI 模型训练将不仅在地球机房、也可能在近地轨道、甚至更远的太空平台完成。
参考资料:
https://research.google/blog/exploring-a-space-based-scalable-ai-infrastructure-system-design/?utm_source=chatgpt.com
发表评论
登录
手机
验证码
手机/邮箱/用户名
密码
立即登录即可访问所有OFweek服务
还不是会员?免费注册
忘记密码其他方式
请输入评论内容...
请输入评论/评论长度6~500个字
暂无评论
暂无评论