基于强化学习的云资源调度优化方法与实现文献综述

 2023-08-14 15:16:43
  1. 选题背景和意义:
  2. 背景

云,这是继个人计算机变革、互联网变革之后的第三次IT大潮。如果说蒸汽机和电力开启了人类历史上的两次工业革命,那么发展到今天、脱胎于互联网,但又被称作'革命性计算模型'的云计算,正在让我们的生活步入另一个阶段。随着信息技术的进步和大数据时代的到来,越来越多的人能够访问更广泛的信息资源。单个的物理机难以对大规模数据进行处理,而用户急需可扩展、可定制、高效可靠的计算模式来支撑其应用需求。因此,基于大量分布式虚拟环境,允许用户租赁满足其需求的资源,并动态运行广泛的应用程序的云计算发展了起来。目前云计算在军事和民用领域都有了较为广泛的应用,比如用户可上传本地资源到云端,并可在任何空间接入互联网下载云资源的存储云,采用相应的医疗技术手段通过云计算提供医疗救治、健康诊断的医疗云,另外还有教育云等等。

云计算的资源管理就是接受用户的资源请求,并把特定的资源分配给资源的请求者,云计算的资源非常多,云计算资源管理的有效性很大程度上取决于资源调度策略。对于数量庞大,分布性强,并且是动态变化的虚拟化资源,云计算采用何种资源调度策略进行组织和调度以达到高效的资源利用是很有研究意义的。今年来强化学习在组合优化领域的成功

  1. 意义

云计算的资源管理一直以来都是个非常重要的问题,高效的资源利用对云计算基础设施和下一代数据中心的开发提出了巨大挑战。 而当前资源利用效率低下是数据中心运营中能耗最大的原因之一。利用强化学习优化云资源调度算法皇后,获得高效的资源管理算法进行虚拟机资源调度,提高资源的利用率,提高云数据中心的运行效率,缩短批量任务执行时间,提高吞吐量迫在眉睫,显得尤为重要。

  1. 文献综述(或调研报告):

云计算作为一种新型的计算模式,已经在市场上得到了广泛的应用。它改变了传统网络计算的服务模式,通过互联网为用户提供动态的服务模型。用户根据这种模式能够随时随地地访问可配置的资源,如网络、存储、应用程序和服务。为了能够提供高质量的服务,云服务提供商需要在合理利用资源池的情况下管理不同用户请求之间的调度问题,将资源按需分配给用户。因此,研究资源调度对于云服务提供商和用户具有重要意义。随着市场需求空间的不断扩大,用户数量的持续增长,用户任务需求的多样性,以及随之而来的任务到达时间的随机性,再加上计算资源的分散性、异构性和不确定性,如何合理并灵活地按需分配资源来满足任务的不同请求,已成为资源调度中极具挑战性的问题。文献[1]中将在异构环境下实现任务响应时间最小化,资源利用率最大化,能耗最小化的自适应资源调度作为重要的研究内容,实现了一种自适应调度机制。文献[2]中,在CPU资源调度中使用了RNN和Q-learning算法进行CPU资源地分配。通过CPU资源各周期剩余的credit值以及所处的状态的序列数据进行分类当前客户域DomainU运行的任务类型,主要分为IO密集型任务和其他类型。其后,根据该分类结果可以确定IO密集型任务和其他类型任务的比例,进而使用均分方法进行Cap值上限的设定,以及通过使用Q-learning算法进行强化学习时间片长短的动作调整,保证在该状态下可以达到最快的任务完成时间。当时间片较长时,有利于CPU密集型任务的执行,因为可以减少上下文切换的次数,减少系统的开销。文献[3]中针对现有基于强化学习的云资源调度算法收敛速度慢的问题,在详细分析云作业执行流程后,采用了一种细粒度的云计算平台模型,设计了一种基于高斯过程回归和强化学习的云计算资源调度算法。算法将资源分配问题转换为在服务等级协议约束下的资源分配最小化问题,并通过高斯过程回归加速最优策略的生成。

强化学习[4]任务通常用马尔可夫决策过程(Markov Decision Process,简称MDP)来描述: 代理(agent)处于环境(environment)E 中,状态空间为S,其中每个状态(state)s属于S是代理感知到的环境的描述,代理能采取的动作(action)构成了动作空间A,若某个动作a属于A作用在当前状态 s上,那环境(environment)就会从当前状态以一定概率转移到另一个状态srsquo;,同时,环境会根据奖励(reward)函数R反馈给机器一个奖励r。一次转化的经历可以表示为一个四元组lt;s, a, r, srsquo;gt;。一系列的状态、行为、奖励和新的状态组成了一个MDP,强化学习通常有三种方法,即value-based、policy-based和model-based,以policy-based为例,代理要做的通常是在环境中不断尝试而学的一个“策略”(policy)pi;,根据这个策略,在状态s下就能知道要执行的动作 a=pi;(s)。策略的优劣取决于长期执行这一策略后得到的累积奖励,在强化学习任务中,学习的目标就是要找到能够使长期累积奖励最大化的策略[5]。文献[6]中将虚拟机资源调度问题描述为马尔可夫决策过程,提出了一种基于强化学习的云计算虚拟机资源调度问题的解决方案和策略。文献[7]中提出了一种新的云工作流调度方法,该方法利用马尔可夫决策过程,根据环境状态对工作流执行过程进行优化指导。在基于工作流的应用程序中,任务之间存在依赖关系,需要根据定义的优先级约束生成计划。这些约束构成了一个困难的计划问题,其中任务必须仅在其所有父任务完成后才安排执行。文献[8]中使用深度强化学习,让云服务提供商实现更高的能效比。文献[9]中将问题转化为马尔可夫决策过程来应对科学工作流的动态计算需求。文献[10]提出了一个在异构计算环境中实现高性能的应用程序调度的问题,并且设置了四个值得借鉴的算法评判指标。

[1]赵翌欢. 基于强化学习的自适应云资源调度的研究[D]. 北京交通大学 . 2019

[2]陈煌. 云计算环境中基于强化学习的CPU/IO资源调度研究[D].哈尔滨工业大学,2019.

[3]李棕,崔得龙.基于高斯过程回归和强化学习的云资源调度算法[J].电子设计工程,2017,25(11):5-8 13.

[4] Mozer, S., M C, and M. Hasselmo. Reinforcement Learning: An Introduction. IEEE Transactions on Neural Networks 16.1(2005):285-286.

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

课题毕业论文、文献综述、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。