免费USDT/USDC游戏推荐/注册送币链游大全/边玩边赚新选择最近很火的“超节点”到底是干啥的？

发布日期：2026-02-28　　浏览次数：

　　免费USDT游戏,免费USDC游戏,免费链游,USDT小游戏,USDC平台,注册送虚拟币/盘点2025年最新免费USDT/USDC小游戏和链游平台，支持中文注册，无需实名认证，注册送币，边玩边赚，适合加密新手与老玩家！在各大展会论坛上，超节点频繁亮相。行业大佬们也纷纷摇旗呐喊，认为它将是智算发展的重要趋势，迎来一波发展热潮。

　　大家都知道，GPU是重要的算力硬件，为AIGC大模型的训推提供了有力的支撑。

　　随着大模型参数规模的不断增长，对GPU集群的规模需求，也在不断增长。从千卡级到万卡级，再到十万卡级，将来甚至可能更大。

　　Scale Up，是向上扩展，也叫纵向扩展，增加单节点的资源数量。Scale Out，是向外扩展，也叫横向扩展，增加节点的数量。

　　每台服务器里，多塞几块GPU，这就是Scale Up。这时，一台服务器就是一个节点。

　　对于单台服务器来说，受限于空间、功耗和散热，能塞入的GPU数量是有限的，一般也就8卡、12卡。

　　塞入这么多块GPU，还要考虑服务器的内部通信能力是否能够支持。如果GPU互连存在瓶颈，那么就达不到Scale Up的预期效果。

　　以前，计算机内部主要基于PCIe协议，数据传输速率慢，时延高，根本无法满足要求。

　　2014年，英伟达为了解决这个问题，专门推出了自家私有的NVLINK总线协议。NVLINK允许GPU之间以点对点方式进行通信，速度远高于PCIe，时延也低得多。

　　NVLINK原本只用于机器内部通信。2022年，英伟达将NVSwitch芯片独立出来，变成了NVLink交换机，用于连接服务器之间的GPU设备。这意味着，节点已经不再仅限于1台服务器了，而是可以由多台服务器和网络设备共同组成。

　　这些设备处于同一个HBD（High Bandwidth Domain，超带宽域）。英伟达将这种以超大带宽互联16卡以上GPU-GPU的Scale Up系统，称为超节点。

　　说到这里，大家可能会提出疑问——为什么一定要搞超节点呢？如果Scale Up这条路线不好走，我们就走Scale Out路线，增加节点数，不也能做出大规模GPU集群吗？答案很简单。之所以要搞超节点这种加强版的Scale Up，是因为在性能、成本、组网、运维等方面，能带来巨大优势。Scale Out，考验的是节点之间的通信能力。目前，主要采用的通信网络技术，是Infiniband（IB）和RoCEv2。

　　这两个技术都是基于RDMA（远程直接内存访问）协议，拥有比传统以太网更高的速率、更低的时延，负载均衡能力也更强。

　　IB是英伟达的私有技术，起步早，性能强，价格贵。RoCEv2是开放标准，是传统以太网融合RDMA的产物，价格便宜。两者之间的差距，在不断缩小。

　　在带宽方面，IB和RoCEv2仅能提供Tbps级别的带宽。而Scale Up，能够实现数百个GPU间10Tbps带宽级别的互联。

　　在时延方面，IB和RoCEv2的时延时延高达10微秒。而Scale Up对网络时延的要求极为严苛，需要达到百纳秒（100纳秒=0.1微秒）级别。

　　在AI训练过程中，包括多种并行计算方式，例如TP（张量并行）、 EP（专家并行）、PP（流水线并行）和DP（数据并行）。

　　通常来说，PP和DP的通信量较小，一般交给Scale Out搞定。而TP和EP的通信量大，需要交给Scale Up（超节点内部）搞定。

　　超节点，作为Scale Up的当前最优解，通过内部高速总线互连，能够有效支撑并行计算任务，加速GPU之间的参数交换和数据同步，缩短大模型的训练周期。

　　超节点一般也都会支持内存语义能力，GPU之间可以直接读取对方的内存，这也是Scale Out不具备的。

　　站在组网和运维的角度来看，超节点也有明显优势。超节点的HBD（超带宽域）越大，Scale Up的GPU越多，Scale Out的组网就越简单，大幅降低组网复杂度。

　　超节点是一个高度集成的小型集群，内部总线已经连好。这也降低了网络部署的难度，缩短了部署周期。后期的运维，也会方便很多。

　　当然，超节点也不能无限大，也要考虑本身的成本因素。具体的规模，需要根据需求场景进行测算。

　　正因为超节点拥有显著的优势，所以，在英伟达提出这一概念后，立刻受到了业界的关注。也有很多厂商，加入到超节点的研究之中。当前，业界主流的超节点方案，主要包括如下几种：

　　除了英伟达之外，国内大厂华为，前段时间高调发布的AI核弹级技术——CloudMatrix 384超节点，也属于私有协议。CloudMatrix 384以384张昇腾算力卡组成一个超节点，在目前已商用的超节点中单体规模最大，可提供高达300 PFLOPs的密集BF16算力，接近达到英伟达GB200 NVL72系统的两倍。

　　私有协议往往意味着高昂的成本。对于AI这个热门方向来说，发展开放标准，有利于降低行业门槛，帮助实现技术平权。目前来看，超节点的开放标准还不止一个，但基本上都是以以太网技术（ETH）为基础。因为以太网技术最成熟、最开放，也拥有最多的参与企业。

　　从技术的角度来看，以太网具有最大交换芯片容量（单芯片51.2T已商用）、最高速Serdes技术（目前达到112Gbps），交换芯片时延也很低（200ns），完全可以满足Scale Up的性能要求。

　　在超节点开放标准中，其中比较有代表性的，是由开放数据中心委员会（ODCC）主导、中国信通院与腾讯牵头设计的

　　这个项目一共有30余家产学研机构共同参与。其中，既包括运营商（中国移动）、云厂商（腾讯等），也包括设备商（锐捷、中兴等）、算卡提供商（燧原科技、壁仞科技等）商，以及高速互连技术方案提供商（立讯技术等）。

　　ETH-X基于以太网技术构建大带宽、弹性可扩展的HBD，具备高算力密度、高互联带宽、高功率密度和高能效等特点。

　　值得注意的是，ETH-X不仅包括了Scale Up，也包括了Scale Out。典型的组网拓扑，如下图所示：

　　根据腾讯在2024开放数据中心大会提供的数据，基于ETH-X超节点，在训练场景下，LLama-70B稠密型模型在64K集群下的性能/成本进行对比，采用256卡的Scale Up，比8卡的Scale Up低了38%的训练成本。

　　在推理场景下，LLama-70B在FP4精度128卡实例推理性能/成本对比中，256卡的Scale Up比8卡的Scale Up增加了40.48%的推理收益。

　　目前，ETH-X超节点技术规范1.0已经发布。不久前（4月8日），ETH-X开放超节点项目在华勤技术东莞智能制造基地，举行了首台原型机的下线点亮仪式。

　　AI Rack整机柜是ETH-X超节点的具体实现方式。整机柜内Serdes速率目前最高支持112Gbps，未来支持到224Gbps。

　　整机柜内部可以实现多GPU间NOC（Network-on-Chip）级通信拓扑，通过统一内存编址与内存语义接口，支持跨GPU直接访问（Direct Access）与零拷贝传输（Direct Copy）。

　　根据实际测试的数据，跨卡数据访问时延能够降低12.7倍，动态重构8~512卡超节点的弹性组合单元。

　　ETH-X超节点AI Rack采用机柜铜连接方案。而Cable Tray，就是实现各个子系统硬件互通的高速铜缆方案，也是提供高速互连能力的重要连接器硬件。

　　英伟达的最新NVLINK方案，也用的Cable Cartridge方案。在短距传输场景，相对于光纤，机柜内采用铜连接，可以实现高可靠性和低成本（减少了光模块的使用），也有利于布线。目前看来，在Scale Up内部使用铜缆直连技术，已经是一个主流趋势。

　　好啦，以上就是关于超节点的全部介绍。大家都看懂了没？随着AI浪潮的继续发展，业界对超节点的需求会变得越来越强烈。更多的厂商，将会加入到相关的开放标准中。这将有力推动相关技术和标准的成熟，带来更加繁荣和多元的生态。超节点，未来可期！

　　特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

　　5.5亿元索赔“砍”至6400万元，实地探访东莞大面积停运纯电公交：生产企业已停产两年，司机称显示能跑近400公里实际只跑160公里

　　游客吐槽“杭州西湖景区停车费30元一小时”，官方回应：节假日差别化收费，倡导公交出行，日常收费10元一小时

　　男子打扫前租客房间发现遗留白色行李箱，打开后吓得手心直冒汗：10捆印着“建行”字样的纸钞，“少说有100万”，民警一查，180度大反转

　　7.4到6.84，人民币升值核爆！国内通胀、资产价格要全面起飞？

　　雷军直播介绍新一代SU7门把手：一旦发生碰撞，门锁自动切换机械解锁模式

标签：usdt超级节点

上一篇：孙宇晨免费USDT/USDC游戏推荐/注册送币链游大全/边玩
下一篇：免费USDT/USDC游戏推荐/注册送币链游大全/边玩边赚新

mianfei免费平台

免费USDT/USDC游戏推荐/注册送币链游大全/边玩边赚新选择最近很火的“超节点”到底是干啥的？

13988888888