[译] 互联网流量工程概述与原理(一)引言和背景

翻译

原文链接

译者的话

原文是对 RFC 3272 在 20 多年后的补充,目前还是草案状态,不过内容挺多挺充实的,我认为值得学习。 鉴于现在机器翻译的水平已经挺高了,我偷懒主要采用 机翻 + 人工校正 的方式进行翻译。

主要目的是读一遍学习学习,对这个领域在更宏观和抽象的层次上有个更好的把握, 读的过程顺便翻译一下,以后再看的时候会更方便。 我会对我认为重要的部分加粗处理,并非完全呈现原文内容。

这不是什么正式的翻译,只是自己学习用,翻译出错是难免的。 此外,由于 TE 是个很大的话题,里面有很多我不了解的内容, 所以这篇译文也肯定存在很多被机器译错而我没发现的地方,我会在学习的过程中尽可能不断修正翻译。

1. 引言

本文档描述了互联网流量工程 (TE) 的原理。目的是阐明互联网 TE 的一般问题和原则, 并在适当的时候为预先计划的(离线)和动态的(在线)互联网 TE 功能和系统的开发提供建议、指南和选项。

尽管互联网TE在端到端应用时是最有效的,本文件的重点是特定域(如自治系统)内的TE。 然而,由于大部分互联网流量往往来自于一个自治系统,并在另一个自治系统中终止, 本文档也提供了一个与域间 TE 有关的概述。

本文档提供了用于描述和理解常见 互联网TE 概念的术语和分类法。

这项工作于 2002 年 5 月作为 [RFC3272] 首次发布。 该文档通过进行全面更新使文本与 互联网TE 的当前最佳实践保持一致,并包括对 IETF 中最新相关工作的引用, 从而废弃 [RFC3272]。 值得注意的是,本文档中大约五分之三的 RFC 是在 RFC 3272 发布之后发布的。 附录 A 提供了 RFC 3272 与本文档之间的变更的总结。

1.1 什么是互联网流量工程

互联网执行的最重要的功能之一是将流量在入口节点到出口节点之间进行路由和转发。 因此,互联网流量工程的最独特的功能之一是控制和优化这些路由和转发功能,以引导流量通过网络。

互联网流量工程被定义为互联网网络工程的一个方面,涉及到运营中的IP网络的性能评估性能优化问题。 流量工程包括将技术和科学原理应用于互联网流量的测量、描述、建模和控制[RFC2702], [AWD2]。

网络服务的终端用户所看到的网络性能才是最重要的。 终端用户所看到的特性是网络的突变性质(emergent properties),也就是作为一个整体来看的网络特性。 因此,服务提供商的核心目标是在考虑到经济因素的同时,提高网络的突变性质。 这是通过解决面向流量的性能要求,同时以可靠的方式无浪费地利用网络资源来实现的。 面向流量的性能指标包括时延、时延抖动、丢包和吞吐量。

互联网TE对网络事件(如链路或节点故障、报告或预测的拥塞、计划的维护、服务降级、流量矩阵的计划变化等)做出反应。 容量管理方面的响应时间间隔从几天到几年不等。路由控制功能的运行间隔从几毫秒到几天不等。 数据包级处理功能在非常精细的时间尺度上运行(毫秒级),对流量的实时统计行为做出反应。

因此,TE的优化方面可以从控制的角度来看,既可以是主动的也可以是被动的。 在主动的情况下,TE 控制系统采取预防措施,以防止预测到的不利的未来网络状态,例如,通过规划备份路径。 它也可以采取一些行动,以实现更理想的未来网络状态。 在被动情况下,控制系统对纠正问题和适应网络事件做出反应,如故障后路由。

互联网TE的另一个重要目标是促进可靠的网络运营[RFC2702]。 可靠的网络运营可以通过提供增强网络完整性的机制和接受强调网络生存能力的策略来促进。 这减少了服务对网络基础设施内发生的错误、故障和失效所引起的中断的脆弱性。

TE的优化方面可以通过容量管理流量管理来实现。 在本文档中,容量管理包括容量规划、路由控制和资源管理。 比较值得关注的的网络资源包括链接带宽、缓冲空间和计算资源等。 在本文档中,流量管理包括:

  1. 节点流量控制功能,如流量调节、队列管理和调度。
  2. 其他调节网络流量的功能,或在不同数据包之间或不同流量之间仲裁(arbitrate)对网络资源的访问。

互联网TE 的一个主要挑战是实现自动控制能力,以快速和低成本适应网络状态的重大变化,同时仍然保持网络的稳定性。 性能评估可以评估 TE 方法的有效性,这种评估的结果可以用来识别现有的问题,指导网络重新优化,并帮助预测未来的潜在问题。 然而,这个过程也可能是耗时的,而且可能不适合对网络中的短期变化采取行动。

性能评估可以通过许多不同的方式实现。最值得注意的技术包括分析方法、模拟和基于测量的经验方法。

流量工程有两种形式

  • 一种是作为后台程序,不断监测流量和网络状况,并优化资源的使用以提高性能。
  • 另一种是预先规划优化,使流量分配达到最优。

在后一种情况下,任何偏离最佳分布的情况(例如,由光纤切断引起)在修复后会恢复到原状态而无需进一步优化。 然而,这种形式的TE依赖于网络的计划状态是最优的这一概念。 因此,在这种模式下,TE有两个层次:一是TE规划任务,以实现最佳流量分布; 二是路由和转发任务,使流量与预先计划的分布保持一致。

一般来说,TE的概念和机制必须足够具体和明确,以满足已知的要求, 但同时也要具有灵活和可扩展,以适应无法预见的未来需求 (见 6.1节 )。

1.2 流量工程的组成

正如 1.1节 提到的,互联网流量工程提供IP网络的性能优化, 同时经济和可靠地利用网络资源。这种优化在控制/控制器层面和数据/转发平面得到支持。

任何 TE 解决方案所需的关键要素如下:

  1. 策略 Policy
  2. 路径引流 Path steering
  3. 资源管理 Resource management

TE的技术解决方案或多或少地依赖于这些要素。如果一个解决方案不包括所有这些要素,是否能真正被称为TE,仍有争议。 在本文档中,我们断言所有的TE解决方案必须包括所有这些元素的某些方面。 其他解决方案可以被归类为 “部分TE”,也属于本文档的范围。

策略允许根据除了基本的可达性信息以外的信息来选择路径(包括下一跳)。 路由策略的早期定义,例如[RFC1102]和[RFC1104],讨论了将路由策略应用于在聚合的层次上限制对网络资源的访问。 BGP是应用这种策略的常用机制的一个例子,见[RFC4271]和[RFC8955]。 在TE背景下,策略的决策在控制平面内或由管理平面内的控制器做出,管理着路径的选择。 在[RFC4655]和[RFC5394]中可以找到例子。 标准的TE解决方案可能涵盖分配 和/或 执行策略的机制,具体的策略定义由网络运营者确定。

路径引流是利用除了下一跳信息之外的更多的信息来转发数据包的能力。 路径引流的例子包括IPv4源路由[RFC0791]、RSVP-TE显式路由[RFC3209]、分段路由[RFC8402]和服务功能链[RFC7665]。 TE的路径引流可以通过控制面协议、数据面报头的编码或两者的组合来支持。 这包括由控制器使用面向网络的控制协议提供控制的情况。

资源管理提供资源感知的控制和转发。其中资源包括带宽、缓冲区和队列,所有这些都可以被管理来控制丢包和延迟。

  • 资源预留是资源管理的控制平面。它提供了全域范围内关于特定流量使用哪些网络资源的共识。 这种决定可能是在非常粗略或非常精细的水平上做出的。 请注意,这种共识存在于网络控制或控制器层面,而不是在数据层面。 它可能纯粹由会计/簿记(accounting/bookkeeping)组成,但它通常包括根据策略接纳、拒绝或重新分类流量的能力。 这种核算可以基于对资源需求的静态理解,以及使用动态机制来收集需求(如通过[RFC3209])和资源可用性(如通过[RFC4203])的任何组合。
  • 资源分配是资源管理的数据平面。它提供特定节点和链路资源到特定流的分配。 资源包括通常通过排队来支持的缓冲区、策略和速率调整机制。它还包括流(即流分类)与一组特定的已分配资源的匹配。 流分类的方法和资源管理的粒度是技术特定的,例如带有丢弃和重新标记的 Diffserv [RFC4594]、MPLS-TE [RFC3209] 和基于 GMPLS 的标签交换路径 [RFC3945], 以及基于控制器的解决方案 [RFC8453]。这种级别的资源控制虽然是可选的,但对于以下两种网络很重要: 一是那种希望支持拥塞管理策略,控制或调节流量以提供不同的服务水平和缓解拥塞问题的网络,二是那种希望控制特定流量延迟的网络。

1.3 范围

本文件的范围是域内的TE。也就是说,在互联网的一个特定自治系统内的TE。 本文讨论了与域内流量控制有关的概念,包括诸如路由控制、微观和宏观资源分配,以及由此产生的控制协调问题。

本文描述了已经使用的或正在开发的互联网技术的特点,讨论了这些技术的组合方式,并确定了它们有用的场景。

虽然本文的重点是域内流量工程,但在第7节中概述了与域间TE有关的高层次考虑。域间TE对于全球互联网基础设施的性能提升至关重要。

在可能的情况下,现有的IETF文档和其他来源的相关要求都被纳入参考。

1.4 术语

本节提供对 Internet TE 有用的术语。给出的定义适用于本文档。这些术语在其他地方可能有其他含义。

  • 忙时(Busy hour): 在一个特定的时间间隔内(通常是24小时),网络或子网络的流量负荷最大的一个小时。
  • 拥塞(Congestion): 网络资源的一种状态,在这个状态下,资源上发生的流量在一定时间间隔内超过其输出能力。
  • 拥塞避免(Congestion avoidance): 一种试图避免拥塞发生的拥塞管理方法。
  • 拥塞控制(Congestion control): 一种试图补救已经发生的拥塞问题的拥塞管理方法。
  • 基于约束的路由(Constraint-based routing): 一类路由协议,在做出路由决策时会考虑指定的流量属性、网络约束和策略约束。基于约束的路由适用于流量聚合和流。它是基于 QoS 的路由的概括。
  • 需求侧拥塞管理(Demand side congestion management): 一种拥塞管理方案,通过调节或调节提供的负载来解决拥塞问题。
  • 有效带宽(Effective bandwidth): 为了向流或聚合流提供 “可接受的服务质量”,可以分配给一条流或聚合流的最小带宽量。
  • 热点(Hot-spot): 处于拥塞状态的网元或子系统。
  • 域间流量(Inter-domain traffic): 源自一个自治系统并终止于另一个自治系统的流量。
  • 度量(Metric): 以标准计量单位定义的参数
  • 测量方法(Measurement methodology): 一种可重复的测量技术,用于得出一个或多个相关的指标。
  • 网络生存能力(Network survivability):在网络中发生给定数量的故障后,为现有服务提供规定级别的 QoS 的能力。
  • 网络负载(Offered load): 网络负载或提供的流量负载是衡量在网络上提出的流量与网络承载能力的关系。这个术语来源于排队理论,提供的负荷为1表示网络可以承载,但只是设法承载所有提交给它的流量。
  • 离线流量工程(Offline traffic engineering):存在于网络外部的流量工程系统。
  • 在线流量工程(Online traffic engineering):存在于网络中的流量工程系统,通常在运营网络元素上实施或作为运营网络元素的附属物。
  • 性能测量(Performance measures):为有关系统或子系统的性能提供定量或定性衡量的指标。
  • 性能指标(Performance metric):以标准测量单位定义的性能参数。
  • 供应(Provisioning):分配或配置网络资源以满足某些要求的过程。
  • 服务质量(Quality of Service, QoS): QoS([RFC3198])是指在网络中使用的机制,以根据服务水平协议中规定的参数,实现特定服务的流量交付的具体目标。 “质量"用服务可用性、延迟、抖动、吞吐量和丢包率进行描述。在网络资源层面,“服务质量"是指允许服务提供商对流量进行优先排序、控制带宽和网络延迟的一系列能力。
  • QoS 路由(QoS routing): 一类路由系统,根据流量的QoS要求,选择流量使用的路径。
  • 服务水平协议(SLA): 供应商和客户之间的合同,保证在一定成本下的特定水平的性能和可靠性。
  • 服务水平目标(SLO): 供应商和客户之间的服务水平协议的一个关键要素。SLO 是作为衡量服务提供商业绩的一种手段而达成的,并被概述为一种避免双方因误解而产生纠纷的方式。
  • 稳定性(Stability):一种运行状态,在这种状态下,网络不会以破坏性的方式从一种模式震荡到另一种模式。
  • 供应方拥塞管理(Supply-side congestion management):一个拥塞管理方案,提供额外的网络资源以解决现有和/或预期的拥塞问题。
  • 流量特征(Traffic characteristic):对某一条流或聚合流的时间行为的描述或属性的描述。
  • 流量工程系统(traffic engineering system): 一组对象、机制和协议的集合,共同用于完成交通工程目标。
  • 流量(Traffic flow): 两个端点之间的数据包流,可以用某种方式来描述。流量的一个常见分类是选择具有源和目的地址、源和目的端口以及协议的 “五元组” 的数据包。
  • 流量矩阵(Traffic matrix): 一组起点和终点的抽象节点之间的流量需求的表示。一个抽象节点可以由一个或多个网元组成。
  • 流量监控(Traffic monitoring): 观察网络中某一点的流量特征,并收集流量信息进行分析和进一步行动的过程。
  • 流量干线(Traffic trunk): 属于同一类别的交通流的集合,通过相同的路径转发。一个流量干线可以由一个入口和出口节点,以及一组确定其行为特征和网络要求的属性来描述。
  • 工作负载(Workload): 工作负载或流量工作负载是对网络中为满足流量需求而必须完成的工作量的评估。通俗地说,它是对 “网络有多忙"的回答。

2. 背景

互联网的目的是高效、迅速和经济地将IP数据包从入口节点传送到出口节点。 另外,在多业务(multiclass service)环境中(如具有Diffserv功能的网络–见第5.1.1.2节), 必须根据现行策略和服务模型适当地确定和配置网络的资源共享参数,以解决穿越网络的数据包之间相互干扰所产生的资源争夺问题。 因此,必须考虑解决属于同一服务类别的流量(类内争用解决)和属于不同类别的流量(类间争用解决)之间对网络资源的竞争。

2.1 互联网流量工程的背景

互联网流量工程的背景包括:

  1. 网络域背景,定义了需要考虑的范围,特别是出现TE问题的情况。网络域背景包括网络结构、策略、特征、约束、质量属性和优化准则。
  2. 问题背景,定义了TE所要解决的一般和具体问题。问题背景包括识别、相关特征的抽象、表示、形式化、对解空间的要求说明以及对可接受解的理想特征的说明。
  3. 解决方案背景,提议如何解决问题背景所确认的问题,包括分析、评估替代方案、规定和解决。
  4. 实施和操作背景,实例化解决方案。实施和操作背景包括计划、组织和执行。

互联网TE的背景和不同的问题场景将在下面的小节中讨论。

2.2 网络域

IP网络的规模从在给定位置内的小型路由器集群,扩展到遍布全球的数以千计的互联的路由器、交换机和其他组件。

在最基本的抽象层面上,IP网络可以表示为一个分布式的动态系统,包括:

  • 一组相互连接的资源,为IP流量提供传输服务,受某些约束条件的限制。
  • 一个需求系统,表示要通过网络传输的提供的负载。
  • 一个响应系统,包括网络进程、协议和相关机制,促进流量流经网络(参见[AWD2])。

网络元素和资源可能具有特定的特征,限制了处理流量需求的方式。 此外,网络资源可能配备有流量控制机制,管理需求服务的方式。流量控制机制可以用于:

  • 控制给定资源内的数据包处理活动。
  • 仲裁不同数据包对资源的访问争用。
  • 通过资源调节流量行为。

配置管理和配置系统可以允许外部或内部实体操作流量控制机制的设置,以便控制网络元素对内部和外部刺激的响应方式。

网络如何传输数据包的细节是由网络管理员的策略规定,并通过网络配置管理和基于策略的配置系统进行安装。 通常,网络提供的服务类型也取决于网络元素和协议的技术和特性、主流的服务和实用模型,以及网络管理员将策略转化为网络配置的能力。

互联网有两个关键的特征:

  • 提供实时服务
  • 操作环境非常动态

IP和IP/MPLS网络的动态特性在一定程度上归因于需求波动、各种网络协议和进程之间的相互作用、 基础设施的快速演变需求不断包含新技术和新网络元素,以及系统内部的瞬态和持久性故障。

数据包在通过网络时争夺使用网络资源。如果在某段时间内,数据包的到达速率超过了资源的输出能力,网络资源就被认为是拥塞的。 拥塞可能导致一些到达的数据包被延迟甚至丢失。

拥塞会增加传输时延、时延抖动,可能导致数据包丢失,减少网络服务的可预测性。 显然,拥塞非常不可取。以合理的成本对抗拥塞是互联网流量工程的主要目标之一。

在多个流之间有效共享网络资源的是互联网的基本操作前提。 网络运营中的一个基本挑战是在最小化拥塞可能性的同时增加资源利用率。

互联网必须在存在具有不同服务需求的不同流量类别的情况下运行。 这一要求在[RFC2475]中得到了阐明,该文档还提供了区分服务(Diffserv)的架构。 该文档描述了如何将数据包分组成行为聚合,以使每个聚合具有一组共同的行为特征或一组共同的传送要求。 特定数据包集合的传送要求可以明确或隐含地指定。最重要的两个流量传送要求是:

  • 容量限制可以统计表示为峰值速率、平均速率、突发大小或一些确定性的有效带宽概念。
  • QoS要求可以用以下方式表示:
    • 完整性限制,如丢包。
    • 时间限制,如每个数据包的传输时间限制(时延)和连续属于同一条流的数据包的传输时间限制(时延抖动)等。

2.3 问题

上一节所述的网络运营存在几个相关的问题。本节分析了与TE有关的问题背景。 与TE相关的网络特征的识别、抽象、表示和测量是其中的关键问题。

一个特殊的挑战是形式化流量工程试图解决的问题。例如:

  • 如何确定解空间的要求?
  • 如何指定解决方案的理想特征?
  • 如何实际解决问题?
  • 如何衡量和表征解决方案的有效性?

另一类问题是如何测量和估计相关的网络状态参数。有效的 TE 依赖于对提供的流量负载的良好估计以及对底层拓扑和相关资源约束的了解。 拓扑的网络范围视图也是离线规划所必需的。

还有一类问题是如何表征网络状态以及如何评估其性能。 性能评估问题有两个方面:一方面涉及网络系统级性能的评估;另一方面涉及资源级性能的评估,这限制了对单个网络资源性能分析的关注。

在本文档中,我们将网络的系统级别的特征称为“宏观状态”,将资源级别的特征称为“微观状态”。 系统级特征也被称为网络的涌现性质(Emergent properties)。 相应地,我们将处理系统级别网络性能优化的TE方案称为“宏观TE”,将在个别资源级别上进行优化的方案称为“微观TE”。 在特定的性能指标下,系统级性能可以通过使用适当的组合规则从资源级性能中推导出来。

另一个基本的问题类别涉及如何有效地优化网络性能。性能优化可能涉及将特定TE问题的解决方案转化为网络配置。 优化可能还涉及一定程度的资源管理控制、路由控制和容量扩增。

2.3.1 网络拥塞及其后果

拥塞是在IP网络中最重要的问题之一。 如果一个网络元素在一段时间内经历持续的过载,那么就说它处于拥塞状态。拥塞几乎总是会导致终端用户的服务质量降低。 拥塞控制方案可以包括需求端策略和供给端策略。需求端策略可以限制对拥塞资源的访问,或者动态调节需求以缓解过载情况。 供给端策略可以扩展或增加网络容量,以更好地容纳提供的流量。供给端策略还可以通过在基础设施上重新分配流量来重新分配网络资源。 流量重新分配和资源重新分配有助于增加网络的“有效容量”。

本文档重点介绍范围在网络范围内的拥塞管理方案,而不是依赖于终端系统的灵敏度和适应性的拥塞管理系统。 也就是说,本文档考虑的与拥塞管理相关的方面是由在网络上操作的控制实体提供的解决方案以及网络管理员和网络运营系统的行动。

2.4 解决方案

互联网TE的解决方案涉及分析、评估备选方案以及在备选行动方案之间进行选择。 一般来说,解决方案的背景是基于对网络的当前或未来状态的推断,并做出可能涉及替代行动集之间的偏好的决定。 更具体地说,解决方案的背景要求对流量工作负载进行合理的估计,对网络状态进行描述,推导出可能是隐式或显式的解决方案,并可能将一组控制动作实例化。 控制动作可能涉及对路由相关的参数的控制,对战术性容量获取(tactical capacity acquisition)的控制,以及对流量管理功能的控制。

下列工具可能可以应用于互联网TE 的解决方案:

  • 一组网络性能评估和性能优化的策略、目标和要求(可能依赖于上下文)。
  • 一组在线或离线的工具和机制,用于测量、特征建模、流量控制和对网络资源分配的控制,以及将流量映射到基础设施上的控制。
  • 一组运行环境、网络协议和TE系统自身的约束条件。
  • 一组用于抽象、表述和解决TE问题的定量和定性技术与方法。
  • 一组通过配置管理系统可以调节的管理控制参数。该系统本身可能包括配置控制子系统、配置存储库、配置核算子系统以及配置审计子系统。
  • 一组关于网络性能评估、性能优化和性能改进的指导方针。

通过测量或估计确定流量特征在TE解空间中非常有用。 流量估计可以从客户订阅信息、流量预测、流量模型和实际测量中获得。 测量可以在不同的层次上进行,例如在流聚合层次或流层次上进行。 在流层次或小型流聚合上进行测量可能会当流量进入和离开网络时在边缘节点进行。 对于大型流聚合的测量可以在网络的核心内进行。

为了进行性能研究并支持现有和未来网络的规划,可以进行路由分析, 以确定路由协议将为各种流量需求选择的路径,并确定流量在网络中路由时网络资源的利用率。 路由分析包括选择通过网络的路径,在多条可行的路线上分配流量,以及通过流量中继(如果存在这种结构)和底层网络基础设施对IP流量进行复用。 网络拓扑结构的模型对于进行路由分析是必要的。网络拓扑结构模型可以从以下方面提取:

  • 网络架构文件
  • 网络设计
  • 路由器配置文件中包含的信息
  • 路由数据库,例如内部网关协议(IGP)的链路状态数据库
  • 路由表
  • 发现和整理网络拓扑信息的自动工具

拓扑信息也可以从监测网络状态的服务器和执行配置功能的服务器中获得。

在IP网络中,路由可以在不同的抽象级别上进行管理控制,包括操作BGP属性和IGP度量。 对于面向路径的技术,例如MPLS,可以通过操纵相关的TE参数、资源参数和管理策略限制来进一步控制路由。 在MPLS的上下文中,明确路由的标签交换路径(LSP)的路径可以通过以下方式计算和建立:

  • 手动建立
  • 自动、在线建立,使用在标签交换路由器上实现的基于约束的路由过程
  • 自动、离线建立,使用在外部TE支持系统上实施的基于约束的路由实体

2.4.1 应对网络拥塞问题

最小化拥塞是互联网流量工程的一个重要方面。 本小节概述了已经使用或提议的对抗拥塞的一般方法。

可以根据以下标准对拥塞管理策略进行分类(有关拥塞控制方案的更详细分类,请参阅 [YARE95]):

  1. 基于响应时间尺度的拥塞管理
    • 长期(几周到几月):通过增加新设备、路由器和链路来扩大网络容量需要时间,而且成本相对较高。 容量规划需要考虑到这一点。网络容量的扩大是基于对未来流量发展和流量分布的估计或预测。 这些升级通常在几周或几个月内进行,甚至可能是几年。

    • 中等(几分钟到几天):一些控制政策属于中等时间尺度类别。例子包括:

      • 调整路由协议参数,使流量远离或流向网络的某些部分。
      • 在MPLS网络中设置或调整明确的路由LSP,使流量干线远离可能拥挤的资源或流向可能更有利的路线。
      • 重新配置网络的逻辑拓扑结构,使其与空间流量分布更密切相关,例如使用MPLS LSP或光信道轨迹(Optical channel trails)等底层的面向路径的技术。

      许多这些自适应方案都依赖于测量系统。测量系统监测流量分布、流量负载和网络资源利用率的变化, 然后向在线或离线的TE机制和工具提供反馈,以便它们能够在网络中触发控制行动。 TE机制和工具可以以分布式或集中式的方式实施。集中式方案可能对网络状态有全局可见性,并可能产生更多的最佳解决方案。 然而,集中式方案容易出现单点故障,其规模可能不如分布式方案。 此外,集中式方案所使用的信息可能是过时的,可能无法反映网络的实际状态。 本文件的目的不是在分布式方案和集中式方案之间提出建议:那是网络管理员必须根据他们的具体需要作出的选择。

    • 短期(几分钟或更短):这一类包括数据包级别的处理功能和事件,其记录的顺序是几个往返的时间。 它还包括路由器机制,如被动和主动缓冲区管理。所有这些机制都用于控制拥堵或向终端系统发出拥堵信号, 以便它们能够适应性地调节流量注入网络的速度。最流行的主动队列管理方案之一,特别是针对TCP流量,是随机早期检测(Random Early Detection, RED)。 在拥塞期间(但在队列被填满之前),RED方案根据一个概率算法选择到达的数据包进行“标记”,该算法考虑了平均队列大小。 一个不使用显式拥塞通知(explicit congestion notification, ECN)[FLOY94]的路由器可以简单地丢弃标记的数据包以缓解拥塞, 并隐含地通知接收方有关拥塞的情况。另一方面,如果路由器支持ECN,它可以设置数据包头部的ECN字段。 已经提出了几种RED的变体,以支持多业务环境中的不同丢包优先级[RFC2597]。 RED提供的拥塞避免不会比传统的Tail-Drop(TD)队列管理(仅在队列满时丢弃到达的数据包)更糟糕。 重要的是,RED减少了全局同步的可能性,其中重传突发在整个网络中同步,并改善了不同TCP会话之间的公平性。 然而,RED本身不能防止由于对RED无响应的源(例如UDP流量和一些行为不当的贪婪连接)造成的拥塞和不公平现象。 已经提出了其他方案,以在存在不响应流量的情况下改善性能和公平性。 其中一些方案(例如最长队列丢弃(Longest Queue Drop, LQD)和具有随机丢弃的动态软分区(RND)[SLDC98])被提出作为理论框架,通常不在现有的商业产品中提供。 在[RFC7567]中提供了关于使用主动队列管理(Active Queue Management, AQM)方案的建议。 (译者注:这一段很奇怪,突然开始大段详细介绍队列管理)

  2. 响应式与预防式的拥塞管理方案
    • 响应式(恢复式)拥塞管理策略是针对现有的拥塞问题做出反应的。上述所有长期和中期时间尺度的策略都可以被归类为响应式策略。 它们基于监测和识别网络中存在的拥塞问题,并采取相应的行动来缓解情况。响应式拥塞管理方案也可能是预防式的。
    • 预防式(预测性/避免性)策略则采取积极的措施,通过对未来的拥塞问题进行估计和预测(例如,流量矩阵预测)来预防拥塞。 其中一些长期和中期时间尺度的策略属于这个类别。预防性策略不一定会立即对现有的拥塞问题做出反应。 相反,它们会考虑流量需求和工作负载分配的预测,并可能采取行动来预防潜在的未来拥塞问题。 短期时间尺度的方案也可以用于拥塞避免,因为在队列实际溢出之前丢弃或标记数据包会促使相应的TCP源降速。 预防式拥塞管理方案也可能是响应式的。
  3. 供应侧与需求侧的拥塞管理方案
    • 供应侧拥塞管理策略增加了可用于流量的有效容量,以控制或减少拥塞。这可以通过增加容量或平衡网络上的流量分配来实现。 容量规划的目的是提供一个物理拓扑结构和相关的链路带宽,以符合或超过估计的流量工作量和流量分布, 但要符合流量预测和预算或其他限制。如果实际流量分布不符合容量规划得出的拓扑结构,那么可以通过使用 路由控制机制、应用面向路径的技术(如MPLS LSP和光通道跟踪)来修改逻辑拓扑结构, 或采用其他一些负载再分配机制,将流量映射到拓扑结构上。
    • 需求侧拥塞管理策略控制调节所提供的流量以缓解拥塞问题。 例如,前面描述的一些短时间尺度机制以及策略和速率整形机制试图以各种方式调节所提供的负载。

2.5 实施和操作

互联网TE的运营环境特征是多层次的持续变化。实施环境要求有效的计划、组织和执行。 计划方面可能涉及确定实现预期目标的先前行动集。 组织涉及安排和分配TE系统各个组件的责任,并协调活动以实现理想的TE目标。 执行涉及衡量和应用正确或完善的行动来达到和维持理想的TE目标。