2025年12月18日 IT频道最新文章 IT频道最新文章

6GANA:2023年网络管控大模型白皮书

网络管控需求与挑战

在服务、计算、资源和管理高度融合的背景下,业界提出了一系列新技术, 如服务计算、算力网络和通感算融合。其中,算力网络以网络为平台,连接多方、 异构的算力资源,将算力从局部资源转变为全局资源。相对应的,云网络着重于以云为平台,从网络视角出发,强调资源的协作和调度,形成统一、敏捷、弹性的网络功能供给体系。这种思路向下基于多域云化资源,包含边缘云和核心云, 支持资源的弹性分配和资源;向上提供网络云化服务,例如 5G 虚拟专网和切片, 实现云网络业务的统一交付。云网络是云和网络相互融合的产物,网络因云的出现而发生了变革,具备了云的特性,未来的网络有着演进成为云网络的趋势。随 着容器、微服务、DevOps 等云原生技术的引入,轻量级虚拟化技术逐渐普及, 云网络正朝着 Cloud Native 的方向发展。这种发展趋势致力于满足云原生服务中网络节点和服务间互通性、负载均衡的要求,以及不同云网络间的互联能力。同 时,它还向边缘延伸、更好地支撑物联网设备上云地需求,即万物上云。

随着云网络功能的细化和逻辑复杂化,其可靠性和稳定性变得尤为关键。在 云网络智能管控方面,确实面临着巨大挑战。近期的 Artificial Intelligence for IT Operations(AIOps)研究通过从多个数据源(例如服务器、传感器等)采集大量数据(例如运行日志、系统数据、业务数据等),进一步抽象出系统或业务的关键性能指标(KPI)(例如 CPU 利用率、业务办理成功率等),或者根据数据之间的内部联系建立拓扑图。然后,基于原始日志数据和提取的 KPI 数据,AIOps 能够判断当前系统是否出现故障,并在一定程度上定位故障的原因,例如服务级别和虚拟机级别的工作。除了构建智能模型的挑战,AIOps 的重点在于增强 人类的故障恢复处理能力,但它还不能自动化地完成故障自愈。

云网络具有虚拟化、多服务、多租户、弹性服务、集中控制等特点,管控系统的设计需要解决云网络中产生的新问题,并在此基础上进行管理决策。不同 于传统网络,设计面向 L4/L5 级云网络的智能管控系统需要克服如下挑战:

1)如何处理海量异构的高动态时空数据,保证系统的时效性?云网络流量巨大、配置复杂、设备资源异构,例如一个复杂的云网络业务链路动辄涉及数百个微服务,一旦出现故障,需要运维工程师尽快发现并解决问题。因此,云网络管控系统需要利用灵活的数据特征提取与精准关联特征挖掘,基于底层调用分析和容器资源监控建立网络关键指标的可靠关联关系,进行故障根因的快速定位, 克服云网络高动态环境下海量异构时空数据带来的处理和计算压力。

2)如何适配云网络功能的多层次性,提高多管控任务的通用性?云网络具有多层独立视图和多管控任务并发性,通过多层虚拟机/容器/微服务调用链等的 Overlay 技术构建专属网络平面,并进行灵活的按需调度,上下层之间以不同资源粒度交互关联。传统管控以单独一层的视角,并没有将故障传播过程当作整 体进行建模,且管控任务割裂。因此,有必要在数据采集、处理乃至管控任务方面统一规划、部署和移植,实现经验知识在具体管控任务之间有效传递。

3)如何适应云网络配置间的强依赖性,实现管控系统的适变性?SDN 和 NFV 技术赋予了云网络的弹性特性,SDN 配置的频繁改动以及业务需求的更换都 会带来网络模型的变化。云网络众多功能模块的关联多,共享环境中配置之间具有强依赖性,这意味着云网络的行为模式和业务特征是相当不可预测和复杂的。 管控系统需要具有跨域能力和全局视角,持续的模型更新和在线学习,能够适应动态扩缩容的云网络环境,这对管控系统提出可扩展性和可适变性要求。

4)如何实现意图操作精炼与管控策略建模,提高云网络的易用性?用户期望用接近自然语言描述对网络的意图,但通常是抽象的高层次策略,例如“专 线会议有马赛克,处理一下”,需要对意图进行转译解析,拆分成不同的网络任务执行,精炼(Refinement)为低层次策略,最后转化为网络应执行的一系列操作,极大的简化了用户对云网络运维的复杂度。涉及跨抽象层的策略建模,作为意图精炼和策略生成的参考信息,还需要保证与现有策略的一致性和兼容性。

5)如何保证自动化系统的稳定性,增强云网络策略下发的可靠性?自智网络应自动化地获取分析数据、学习知识、做出判断、管理资源、优化运行策略 等,但一条错误下发的策略会严重危害网络可靠性。为避免网络安全隐患甚至网络瘫痪,策略应在下发前进行严格验证。传统依靠手工判断策略可行性的方法冗杂、缓慢,已不适用,需要设计行而有效的策略验证方法,用以应对庞大且实时更新的云网络,从而实现网络自检测、自优化、自管理,即成为可靠的自智网络。

通信网络引入大模型的必要性

针对网络的复杂性、异构性和对可靠性的需求,Ryan W. Thomas 教授等人提出并定义了认知网络,旨在创造能够感知和理解网络环境,并做出相应决策的 智能网络。然而,Mestres 等人的观点指出,尽管追求网络自动化和智能化的概念已经存在很久,但由于网络作为分布式系统的本质特点,机器学习等技术在网络控制与管理方面面临一些挑战。在网络控制与管理中,存在一些固有的限制导致信息获取局限于特定局部范围。这种局部性会导致算法学习的复杂性增加,限制了在实践层面将相关技术应用到网络管理中。换句话说,尽管理论上我们期 望网络能够智能地感知、决策和行动,但实际应用中,由于信息获取的局部性, 使得智能算法在学习和适应方面变得更为复杂。这种情况导致了网络管理研究更多停留在理论层面,难以实现在实际网络环境中的高度智能化和自动化。这也可能意味着需要更多的创新来克服网络分布式特性对算法学习的限制,以更好地应用机器学习等技术来提升网络管理的智能化水平。

随着深度学习、深度强化学习(Deep Reinforcement Learning,DRL)方法应用到网络智能化领域,诸多任务均需要对网络相关的高维度数据进行有效表征。 2020 年 12 月,诺基亚贝尔实验室与德国慕尼黑大学的学者在 IEEE Network 发表 的论文指出,非常有必要通过学习获得网络状态通用、一致的抽象描述,以便为特定情境提供合适的策略。面对目前云网络智能管控的困境,迫切需要更为通用的网络表征学习方法,以从海量的网络数据中抽取隐含的关联特征和规则,建立表征模型并优化云网络资源管控任务,以维持网络的动态特性所需要的可靠且智能的管控机制。利用深度强化学习进行边缘节点能量管理时,中山大学陈旭教授团队考虑了节点拓扑、移动流量、基站休眠等网络环境状态,设计了基于卷积与时序神经网络的表征网络 GS-STN 以提取流量特征。车联网拓扑结构与资 源需求等随时间频繁变化,状态空间表征输入则包括节点拓扑、任务数据量等,并通过对计算、缓存和频谱资源建模,对动作空间进行表征。此外,信道增益和节点主频等,也可输入全连接深度神经网络进行表征学习。考虑到网络数据 具有不同类别的属性,研究者们已探索了很多多模态联合表征的方法,2019 年 SIGCOMM 发表重要工作 Decima ,使用图神经网络对任务调度环境进行了丰富有效的表征,输出三种向量:单节点表征捕捉从节点关键路径的汇总信息,单计算任务表征提取有向无环图信息,最后全局表征则将所有任务嵌入的信息合并成 整个集群级的摘要表示。

节点拓扑连接、计算资源、网络流量、业务属性等是网络智能管控的通用特征来源。网络管控任务以竖井型的方式孤立地进行训练与部署,多次重复进行上述通用特征提取,对网络资源与数据造成巨大浪费。诺基亚贝尔实验室的 Stephen S. Mwanje 学者团队[19]提出认知自主网络,利用自适应认知函数,从配置、性能、 故障、业务等多个数据源抽象网络状态,为切换控制、拥塞管理等管控任务提供 一致的表征。然而,云网络管控涉及任务众多,目前尚无基于时空表征学习对云 网络统一的智能管控方法。而且,云网络弹性资源高动态变化、叠加虚拟网络多层次关联,众多模块配置彼此强依赖性。传统“集成服务”的方式必然带来云网 络资源与管控效果上的挑战。为此,亟待基于时空表征学习对云网络管控理论进 行专项研究。在现有表征学习理论基础上,探索多模态数据特征互补、知识表征 共享以及多目标任务的超图构建等方式,发现数据、场景与任务策略相关的内在映射机理与规律,解决技术瓶颈背后的核心科学问题。

意图翻译技术正朝着标准化迈进。互联网工程任务组(IETF)的简化策略抽象(SUPA)小组在 2018 年以其 RFC8328 架构设立了基调,为未来与意图相关 的网络支持奠定了基础。同时,TMF 的分析网络过程(ANP)项目发布了 IG1253, 定义了意图并详细说明了使用资源描述框架模式(RDFS)将自然语言转换为形式化意图的翻译过程。3GPP 的 SA5 进一步贡献了 TS 28.312,为移动网络中基于意图的管理建立了框架。对于意图翻译来满足复杂网络需求,持续不断的完善是 必要的。意图策略多阶段翻译是一个关键的进展,根据策略连续体进行意图策略翻译,并结合外部知识图谱。ETSI GS ENI-033 在这一领域是一份重要文件,增 强了意图策略翻译,并描述了在整个过程中每个阶段的过程、输入、输出和相互 作用。ETSI GS ENI-034提供了有关策略本地冲突检测的附加信息。这份 GS 扩展 了 GS ENI 005 第 6.3.9.6.3 条款的工作,以提供额外的要求和程序,以确保新策略不会与同一管理域中当前部署的任何策略发生冲突。

报告共计:34页返回搜狐,查看更多

平台声明:该文观点仅代表作者本人,搜狐号系信息发布平台,搜狐仅提供信息存储空间服务。
阅读 ()