Stack与M LAG

堆叠（iStack/CSS）与 M-LAG 代表了两种完全不同的设计哲学。堆叠追求的是“逻辑合一”带来的极简管理 ，而 M-LAG 追求的是“逻辑独立”带来的 极高可靠性 。

以下从控制平面和转发平面的可靠性深度对比两者：

控制平面是两者的核心差异点。

集群（iStack/CSS）：中心化控制
- 原理：多台设备通过堆叠线缆连接，选举一个 Master 运行控制平面。全网只有一个管理 IP，所有路由协议（OSPF/BGP）和生成树（STP）只在一个进程中运行。
- 劣势： 控制平面单点风险 。如果 Master 进程崩溃或由于软件 Bug 导致协议震荡，整个集群都会受到影响。此外，堆叠分裂（Split-brain）会导致 IP 和 MAC 冲突，虽然有 DAD 机制，但切换瞬间业务冲击较大。
- 软件升级 ：虽然支持不间断升级（ISSU），但在实际工程中极易失败，通常需要全网重启，风险极高。
M-LAG：分布式控制
- 原理：两台设备控制平面完全独立。它们通过 DFS Group 协议进行状态同步，但拥有各自的路由进程和管理 IP。
- 优势： 故障隔离（Fault Isolation） 。即使一台设备的控制平面崩溃，另一台设备依然能依靠自己的协议进程正常转发流量。软件 Bug 不会跨设备同步，单台设备的升级只需要关闭一个 M-LAG 成员口，对全网无感。
- 决策机制 ：通过 Peer-link 进行协商，不涉及 Master/Slave 选举，稳定性更高。

转发平面决定了数据在物理链路故障时的响应速度。

集群（iStack/CSS）：跨框链路聚合
- 原理：流量通过 Eth-Trunk 在物理机架间分布。由于逻辑上是一台设备，转发路径计算简单。
- 可靠性风险 ：在转发平面，堆叠最大的痛点是 “堆叠线缆带宽瓶颈” 。如果上行链路所在的成员交换机故障，所有流量必须通过堆叠线缆（Stack Port）跨框转发。如果堆叠带宽规划不足，会导致严重的丢包。
M-LAG：本地优先转发
- 原理：M-LAG 同样支持跨设备链路聚合，但它天然具备 “本地优先转发（Local Preference）” 机制。
- 可靠性优势 ：
- 流量不绕行 ：正常情况下，流量通过各自的单板转发。只有当本地上行端口全断时，才会通过 Peer-link 绕行。
- 故障收敛快 ：由于两端三层转发路径独立且均处于 Active 状态，当 Peer-link 断开时，M-LAG 能够通过 DAD 机制迅速关闭备选设备的业务口，收敛速度通常在 50ms 以内。

在 HCIE 的架构演进建议中：

如果你追求的是 管理的便捷性 （例如园区网接入层有上百台设备），堆叠是首选，因为它可以大幅减少管理 IP 的数量。
如果你追求的是 业务连续性（7x24 不间断）和高扩展性 ，M-LAG 是绝对的趋势。它解决了堆叠在升级和控制平面脆弱性方面的顽疾，是目前大型数据中心 Leaf 层接入的标准做法。