UAV-Aided Computation Offloading in Mobile-Edge Computing Networks_ A Stackelberg Game Approach

Note

基于斯塔克伯格博弈方法，在无人机辅助的移动边缘计算网络中实现有效的计算任务卸载。

计算卸载是指将移动设备上的计算任务转移到网络中的其他计算能力更强的节点（如边缘服务器）上进行处理的过程。无人机在这里的作用可能是作为移动的边缘服务器，或者作为中继节点，帮助将计算任务从用户设备卸载到更远的服务器。

无人机（UAVs）被认为是为移动用户（MUs）提供额外计算能力和广泛覆盖的一种有前景的方法，特别是当 MUs 不在基础设施的通信范围内时。在本文中，研究了一个包括一个 UAV-MEC 服务器、一个 BS-MEC 服务器和多个 MUs 的 UAV 辅助移动边缘计算（MEC）网络，用于计算卸载，其中边缘服务提供商（ESP）管理两种服务器。考虑到 MUs 有大量计算任务需要执行，而 ESP 拥有空闲的计算资源。MUs 可以选择将他们的任务卸载到 ESP 以减轻压力和成本，ESP 可以通过出售计算资源来获得利润。

ESP 和 MUs 之间的互动被建模为斯塔克伯格博弈，双方都希望最大化自己的效用。使用逆向归纳法分析了所提出的博弈，并证明了游戏中可以实现唯一的纳什均衡。然后，提出了一种基于梯度的动态迭代搜索算法（GDISA） 来获得近似最优解。最后，通过广泛的模拟验证了 GDISA 的有效性，结果表明 GDISA 在不同场景下的表现优于其他基准方法。

Note

这里不用关心无人机的作用是什么，其实只需要知道 服务提供商 和 移动用户（MUs)，用户需要使用商家的服务来降低自己这边的计算任务压力，商家需要尽可能的售卖空闲计算资源以牟取利润。

Introduction

随着物联网（IoT）技术的发展，各种 IoT 设备可以相互协作，实现万物互联的目标[1]，[2]。与此同时，随着 IoT 设备的普及和技术的进步，IoT 已经为计算密集型功能开辟了许多应用领域，例如智能交通系统、智能医疗、在线互动游戏等[3]，[4]。然而，由于能耗和计算资源的限制，当前的 IoT 设备不可避免地无法支持这些计算密集型应用[5]，[6]。

为了提高设备的计算能力，移动云计算（MCC）已成为一种有前景的方式。计算任务被卸载到资源丰富的云数据中心执行，从而克服了设备的存储容量和计算资源的限制[7]，[8]。然而，对于某些延迟敏感的 IoT 服务来说，MCC 并不理想，因为云处理中的长传输距离导致了额外的传输成本和延迟。最近，移动边缘计算（MEC）已成为处理计算密集型任务的 5G 架构的关键组成部分[9]，[10]。通过设置 MEC 服务器，移动用户（MUs）的工作负载可以迁移到附近的边缘服务器，同时提高设备的服务质量（QoS）并显著降低能耗和延迟[11]，[12]。然而，MEC 可能不适用于某些基础设施有限的通信场景，例如紧急救援、军事演习、灾难响应等。在这些情况下，许多地面通信设施可能由于这些原因而损坏，因此无法提供通信和计算服务。

幸运的是，无人机（UAV）可以用来协助 MEC 进行通信和计算，这已成为应对这一挑战的关键技术之一[13]。因此，本文引入了一个 UAV 辅助的 MEC 系统，在这个系统中，多个 MUs 位于基站的覆盖区域内，每个基站都配备了一个边缘服务器（例如，BS-MEC 服务器）。MUs 可以本地执行他们的任务，或者将它们卸载到 BS-MEC 服务器。假设由于某些原因（如自然灾害或军事攻击）一个基站失败。在这种情况下，受损的 BS-MEC 服务器可能长时间无法提供服务，因此一些受影响的 MUs 将继续在目标区域搜索蜂窝信号。这不可避免地增加了未受损 BS-MEC 服务器的压力。因此，本文引入了一个飞行的 UAV（即，UAV-MEC 服务器），它具有通信和计算能力，以为这些受影响的 MUs 提供服务，并分担未受损 BS-MEC 服务器的压力，直到部署新的 BS-MEC 服务器为止。此外，引入了边缘服务提供商（ESP）来管理 BS-MEC 和 UAV-MEC 服务器。

目前，一些研究已经研究了 UAV 辅助 MEC 系统中的计算卸载。他们的目标大多是改善系统的 QoS（例如，成本、延迟、能耗等）。然而，任务卸载的过程将不可避免地消耗一些通信和计算资源。从经济角度来看，考虑到 ESP 是自私和理性的，如果没有补偿，它将不会参与任务卸载过程。因此，迫切需要开发激励机制来激励 ESP 参与任务卸载过程[14]，[15]。幸运的是，博弈论可以用来模拟自私和独立参与者之间的互动过程，以便所有参与游戏的参与者都能获得最大奖励。特别是，可以通过斯塔克伯格博弈来研究个体理性参与者之间的竞争和合作，其中参与者被分为领导者和追随者。然而，据我们所知，UAV 辅助 MEC 系统中斯塔克伯格博弈的设计尚未得到很好的研究。本文考虑了 MUs 有一些任务需要执行，ESP 拥有空闲的计算资源。MUs 可以选择将任务卸载到 ESP 以减轻他们的压力和成本，而 ESP 可以通过出售闲置计算资源来获得利润。特别是，ESP 和 MUs 之间的互动过程通过斯塔克伯格博弈进行建模，其中 ESP 是领导者，MUs 是追随者。然后，本文提出了一种基于梯度的算法来获得近似最优解，以最大化 ESP 和 MUs 的效用。主要贡献如下：
1）我们研究了一个重要的计算卸载问题，即在 UAV 辅助的移动边缘网络场景中，有一个 UAV-MEC 服务器，一个 BS-MEC 服务器和多个 MUs，其中 ESP 管理两种服务器。
2）我们使用斯塔克伯格博弈来建模 ESP 和 MUs 之间的互动过程，其中 ESP 是领导者，MUs 是追随者。优化目标是最大化 ESP 和 MUs 的效用。
3）我们使用逆向归纳法分析所提出的斯塔克伯格博弈，并证明了 ESP 和 MUs 之间存在唯一的纳什均衡。接下来，设计了一种基于梯度的动态迭代搜索算法（GDISA）来获得近似最优解。
4）通过广泛的模拟评估了所提出的模型和算法的有效性。

本文的其余部分如下介绍。第 II 节回顾了相关工作，第 III 节介绍了系统模型。然后，在第 IV 节中描述和分析了所提出的博弈问题。第 V 节提出了所提出的算法。第 VI 节评估和分析了 GDISA 的性能。在第 VIII 节中，本文得出结论。

Note

现在可以知道无人机 UAV 起到的作用，原本地面上的是 BS-MEC 服务器，如果某个 BS-MEC 服务器因为军事或者自然原因损坏，那么可以启动无人机作为一个临时的服务器，知道损坏的 BS-MEC 修好。
不过这些不是很关键，关键的是需要一个策略，一方面在激发 ESP 提供服务的时候保证其获利；另一方面尽可能的降低 MUs 购买计算资源的成本。这里使用的就是 stackelberg 博弈解决问题，并且使用基于梯度的动态迭代搜索算法获取近似解。

Relate Works

相关工作

A. 移动边缘计算中的计算卸载

最近，移动边缘计算（MEC）中的计算卸载研究受到了广泛的关注，包括学术界和工业界。它们中的大多数目标是减少延迟[16]，[17]，[18]，减少能耗[19]，[20]，或平衡能耗和延迟之间的权衡[21]，[22]。Feng 等人[17]提出了一种基于车辆边缘计算的反向卸载框架，通过充分利用车辆计算资源进一步降低系统延迟。Chen 等人[19]构建了一个节能资源分配方案，同时考虑了延迟、信道质量和传输功率的约束，旨在最小化任务卸载的能耗。Zhou 等人[22]考虑了基于边缘计算的智能电网中的优化问题，目标是最小化任务成本，即时间和能耗消耗的加权和。

B. 无人机辅助的边缘计算

无人机已经在不同领域得到广泛应用，特别是协助地面通信和计算。实际上，通过使用无人机作为空中基站，这是增强现有通信系统覆盖范围和工作效率的有前途的方法[23]。Vamvakas 等人[24]引入了一个框架，其中无人机被用作基站，以补充宏基站，并为 MUs 提供高效且无干扰的通信。Zhang 等人[25]研究了无人机的比特分配、时间分配、功率分配和轨迹设计，目标是最小化无人机的总能耗。Liu 等人[26]通过联合优化无人机的 CPU 频率、负载卸载、传输功率和轨迹，最小化了无人机的能耗。一些研究考虑了由无人机支持的 MEC 系统。Yu 等人[27]联合优化了无人机的位置、通信和计算资源分配，以最小化 MUs 的服务延迟加权和和无人机的能耗。Han 等人[28]开发了一个由无人机辅助的 MEC 系统，其中无人机从 MUs 收集数据，然后将其传输到基于 MEC 的接入点进行计算。Liu 等人[29]提出了一个基于无人机的协作 MEC 网络架构，其中无人机可以相互协助执行计算任务，并开发了一个优化问题，以实现最佳的计算资源分配和计算卸载策略。通常，卸载任务的时间限制和能耗将成为 UAV 辅助 MEC 系统中的一个挑战性问题。Zhou 等人[30]研究了在 UAV 辅助 MEC 无线电源系统中的计算速率最大化问题，考虑了能量收集的因果性和无人机速度约束。Zhang 等人[31]考虑了 MUs 和无人机的平均加权能耗，并研究了资源分配、计算卸载和飞行轨迹调度的联合优化问题。为了最小化卸载任务的延迟，Cao 等人[32]研究了联合无人机轨迹调度和计算卸载问题。

C. 博弈论

几种基于经济理论的方法已经被应用于激励各方参与计算卸载过程[33]。特别是，由于参与者需要被鼓励相互合作以实现他们的目标，我们可以使用博弈论来分析自私和独立实体之间的互动[34]。Zhang 等人[35]开发了一种基于博弈论的解决方案，以最小化 UAV 辅助 MEC 系统中能耗和延迟的加权成本。Messous 等人[36]考虑了将无人机的任务卸载到远程边缘服务器，然后提出了一个非合作博弈来解决能耗、延迟和成本之间的最佳权衡。Zhao 等人[37]提出了一个无人机辅助车辆计算卸载优化框架，并将卸载决策问题表述为多人顺序博弈，以最小化系统成本。此外，可以通过使用斯塔克伯格博弈来研究理性参与者之间的合作和冲突。Zeng 等人[38]提出了一个志愿者辅助车辆边缘计算模型和基于斯塔克伯格博弈的方法，以最大化志愿者车辆的奖励。Chang 和 Wei[39]提出了一种基于斯塔克伯格博弈的方法来研究边缘服务器的效用最大化问题和云的最优定价。为了最大化云服务器和边缘服务器的效用，我们之前的工作[40]提出了一种基于斯塔克伯格博弈的计算卸载方法在云边缘网络中。与现有研究相比，在我们的场景中，我们考虑 MUs 有一些计算任务需要卸载到 ESP，其中 ESP 管理 UAV-MEC 服务器和 BS-MEC 服务器。我们使用斯塔克伯格博弈来建模 ESP 和 MUs 之间的互动过程，目标是最大化 ESP 和 MUs 的效用，其中 ESP 是领导者，MUs 是追随者。此外，还考虑了计算任务的执行时间限制和无人机的能耗。

System Model

系统模型

本文考虑了一个用于计算卸载的 UAV 辅助 MEC 网络。图 1 显示了系统模型，其中包括一个 UAV-MEC 服务器、一个 BS-MEC 服务器和 N 个 MUs，UAV-MEC 和 BS-MEC 服务器由 ESP 管理。每个 MU 需要执行延迟敏感和计算密集型任务，这些资源受限的 MU 可以选择将计算任务卸载到 ESP 以减轻他们的负担。然后，ESP 将收取相应的费用以确保自己的利益。Hi ≜ {Li, Bi, tmax i }用于表示由 MU i ∈ {1, 2, …, N}生成的任务，其中 Li 表示任务 Hi 的大小，Bi 表示完成 Hi 所需的总 CPU 周期数，tmax i 表示 Hi 的时间约束。 类似于[41]，不同类型的应用程序可能需要不同数量的 CPU 周期来计算。因此，我们引入了一个复杂性因子 ai 来衡量计算 MU i 任务的每比特所需的 CPU 周期数。卸载的计算任务部分可以表示为 hi = {li, bi, tmax i }，其中 li 是卸载到 ESP 的部分任务的大小，bi 是卸载部分任务所需的 CPU 周期数。 同样，tmax i 表示卸载部分任务的时间约束。因此，基于复杂性因子 ai，我们可以得到 bi = ai · li，其中 li ∈ [0, Li]且 bi ∈ [0, Bi]。为了便于阅读，使用的符号及其相应解释列在表 I 中。

A. 通信模型

在该场景中，如果 MU i 决定将其任务卸载到 BS-MEC 服务器，传输速率表示为 RB i ，如果 MU i 决定将其任务卸载到 UAV-MEC 服务器，传输速率表示为 RU i 。因此，RB i 可以定义为：

其中WB是MU i和BS-MEC服务器之间的信道带宽，Pi是MU i的传输功率；N0是背景噪声功率；GB i = μ0(gB i )τ是MU i和BS-MEC服务器之间的信道增益，其中μ0是衰落分量，τ是信道路径损耗指数，gB i 是MU i和BS-MEC服务器之间的距离。相应地，RU i 可以定义为：

其中WU是MU i和UAV-MEC服务器之间的信道带宽，是 MU i 和 UAV-MEC 服务器之间的信道增益，gU i 是 MU i 和 UAV-MEC 服务器之间的距离。

B. 计算模型

ESP 将为 BS-MEC 服务器或 UAV-MEC 服务器分配计算任务。对于每个卸载的任务 hi，我们使用xi，xi ∈ [0, 1]来表示分配给 BS-MEC 服务器的比例，因此 1 − xi 表示分配给 UAV-MEC 服务器的比例。 xi = 0 意味着卸载的任务 hi 不在 BS-MEC 服务器上计算，xi = 1 意味着卸载的任务 hi 全部在 BS-MEC 服务器上计算。在本文中，我们假设每个卸载任务 hi 的比例分配由 ESP 决定，因此我们不考虑 xi 的具体值，并将其视为一个常数。

计算卸载到 BS-MEC 服务器：基于上述任务模型，根据传输速率 RB i，可以从 MU i 传输任务 hi 到 BS-MEC 服务器的时间获得为：

BS-MEC服务器分配给MU i的计算资源定义为f B i 。然后，在BS-MEC服务器上的计算时间是卸载任务的计算量除以BS-MEC服务器的计算频率，表示为：

根据[42]，发送计算结果到MUs的时间被忽略，因此当hi卸载到BS-MEC服务器时的总执行时间可以表示为：

为了计算MU i的能耗，假设MU i使用恒定的传输功率Pi发送数据，因此MU i卸载其计算任务的能耗可以计算为：
计算卸载到 UAV-MEC 服务器：类似地，基于传输速率 RU i，可以从 MU i 传输 hi 到 UAV-MEC 服务器的时间获得为：

假设分配给MU i的UAV-MEC服务器的计算资源为fU i 。然后，在UAV-MEC服务器上的计算时间是卸载任务的计算量除以UAV-MEC服务器的计算频率，表示为：

然后，当hi卸载到UAV-MEC服务器时的总执行时间很容易表示为：

同样，MU i卸载其计算任务的能耗可以计算为：

C. MU 的模型

对于每个 MU，我们使用对数效用函数来表示其卸载计算任务的满足函数，这可以很好地反映 MU 和满足之间的关系[43]，并且可以表示为：

其中 ω 表示 MU 的满足因子，li 表示卸载到 ESP 的计算任务的大小。此外，我们还考虑了MUs 之间的相互影响。如[45]所示，MUs 的效用函数是基于社会外部性模型建立的。值得注意的是，每个 MU 的效用不仅与其内在愿望有关，还受到其他 MUs 的影响。具体来说，我们使用矩阵 SR 来表示 MUs 之间的影响，MUs 的矩阵描述如下：

在矩阵 SR 中，对于任意两个 MUs，社会关系度表示为 ri,j，i, j ∈ {1, 2, …, N}，其中 ri,j ∈ [0, 1]。ri,j 的值越大，表示 MU i 和 j 在社会网络中的关系越密切。 ri,j = 1 意味着两个 MUs i 和 j 具有紧密的社会关系。而 ri,j = 0 意味着两个 MUs i 和 j 没有关系。此外，认为 MU i 和 MU j 之间的影响是相同的，称为 ri,j = rj,i，矩阵假定为固定。因此，对于 MU i，其他 MU 对其的总影响表示为：

其中σ是社会外部性强度，Fj是MU j（j ≠ i）的满足函数。当然，MUs在卸载计算任务时需要向ESP支付一些费用，ESP收取统一费用。因此，MU i向ESP的支付计算为：

其中 di 表示 MU i 向 ESP 的单位支付。MU i 的效用函数定义为由于计算卸载而增加的效用。因此，MU i 的效用函数表示为：

其中 Fi 表示 MU i 的满足函数，Mi 表示其他 MU 对 MU i 的社会关系影响，EU i 和 EB i 表示 MU i 将其任务卸载到 UAV-MEC 服务器或 BS-MEC 服务器的能耗，CE i 代表 MU i 向 ESP 的支付。

D. ESP 的模型

在本节中，将展示 ESP 的效用。在我们的场景中，ESP 由一个 BS-MEC 服务器和一个 UAV-MEC 服务器组成。MUs 将其计算任务卸载到 ESP 进行计算，ESP 执行卸载的任务，这不可避免地会产生成本。在BS-MEC服务器上执行的计算任务的能耗计算为：

其中qi是当计算任务在BS-MEC服务器上完成时每CPU周期的能耗。无人机-MEC服务器处理计算任务的能耗表示为：

其中si是当计算任务在UAV-MEC服务器上完成时每CPU周期的能耗。ESP的成本可以建模为两个服务器的能耗，因此，我们可以获取ESP的成本函数为：

根据（13），MU i向ESP的支付是lidi；因此，ESP向所有MUs收取的总费用表示为：

然后，ESP 的效用是其收入减去成本，而收入是来自 MUs 的支付，成本包括 UAV-MEC 和 BS-MEC 服务器的能耗。因此，ESP 的效用表示为：

Problem Formulation And Analysis

本节首先介绍优化问题，然后分析问题以及寻找纳什均衡的存在性。

问题表述与分析

本节首先介绍优化问题，然后分析问题以及寻找纳什均衡的存在性。

A. 问题表述

斯塔克伯格博弈将参与者分为领导者和追随者，追随者根据领导者执行的策略选择最优响应。领导者的最优策略与追随者的最优响应相结合，形成斯塔克伯格均衡。因此，斯塔克伯格博弈可以用来模拟 ESP 和 MUs 之间的互动。

图 2 显示了 ESP 和 MUs 之间的斯塔克伯格博弈。ESP 作为领导者给出其出价策略 di，MU i 作为追随者决定卸载的任务 hi 的大小，并用 li 表示其卸载策略。因此，支付配置和计算任务卸载配置分别表示为 d = (d1, d2, …, dN)和 l = (l1, l2, …, lN)。我们的目标是最大化 ESP 和 MUs 的效用。然后，斯塔克伯格博弈表示为：

斯塔克伯格博弈表

玩家	ESP（领导者）	MU i（追随者）
策略	出价策略 di	卸载策略 li
效益	UE	Ui

ESP 的优化问题表示为：
问题 1： 最大化 UE
$最大化$
受限于：
$（总共的能耗少于阈值）$
$（定价必须在指定范围内）$
$$ tBi \leq t{\text{max}}^i （BS-MEC 耗时必须少于上限）tUi \leq t{\text{max}}^i （UAC-MEC 耗时必须少于上限）$$
其中（22）确保 UAV-MEC 服务器的能耗小于 UAV-MEC 服务器用于执行计算任务的能量约束 ϵ，（23）显示 ESP 的出价策略在指定范围内，其中 dmax i 和 dmin i 分别是最大和最小出价策略，（24）和（25）是任务执行时间的延迟约束。

此外，MU i 的优化问题表示为：
问题 2： 最大化 Ui
$最大化$
受限于：
$（卸载的任务量不能超过原任务大小）$ $$ tBi \leq t{\text{max}}^i （同上，耗时不能超过上限）tUi \leq t{\text{max}}^i （同上，耗时不能超过上限）$$其中（27）显示卸载任务 hi 的大小应小于任务 Hi 的大小，（28）是任务执行时间的延迟约束。

B. 博弈问题分析

我们使用逆向归纳法来分析所提出的问题。在第一阶段，确定了每个 MU 的最优卸载决策。在第二阶段，根据所有 MUs 的决策，我们确定 ESP 的最优出价策略。首先，证明了所提出博弈问题的纳什均衡的存在性。

定义 1： 在 MUs 之间存在唯一的纳什均衡策略，其中。在这一点上，存在一个效用函数$Ui(li, l-i) ≥ Ui(li, l*-i) $，其中$ l_i$是其他 MUs 的最佳策略。当游戏处于 NE 时，没有人可以通过单方面改变其策略来增加其效用。
定理 1： 在考虑固定数量 MUs 的动态策略下，对于每个 MU，其效用函数满足（14）。然后，对于 MUs 存在一个唯一的纳什均衡点。

证明： 对于 MU i，效用函数是 Ui，其公式如（29）所示，xi 是一个常数。然后，（29）的一阶导数可以计算为：

接下来，（29）的二阶导数可以计算为：

由于ω > 0且(1 + li)^2 > 0，效用函数的二阶导数是负的。可以观察到MU i的效用函数是一个严格凹函数，这证明了纳什均衡的存在。 因此，定理1得证。一阶导数（30）设为0，我们可以得到：

其中

因此，我们可以得到$li $是关于其卸载计算任务大小的最佳策略。然后，设置$ li=0 $和$ li=Li $，我们可以得到的出价阈值为：$ $ d{\text{min}} i = \frac{\omega Mi}{1 + Li} - \frac{Zi}{Li}d*{\text{max}} i = \frac{\omega Mi}{Zi} - 1 $$
通常，如果 ESP 的出价太高，MUs 将不会将他们的计算任务卸载到 ESP，如果 ESP 的出价太低，MUs 将卸载所有计算任务。

Tip

这里初次看可能会比较费解，其实关键之处就是知道用户的效用函数对的二阶偏导一直是负值就可以了。一方面，这证明了效用函数存在纳什均衡；另一方面，说明一阶偏导是单调递减的，那么一阶导数为 0 的时候就是取极大值也是最大值的时候。
因此，将一阶偏导置为 0，就能得出一个，那么也可以得出当卸载任务量为 $l_i^ $时，可以得到最大效用。$ l_i^ $也就是此时的最佳卸载策略。然后是这样，每个用户全部的任务量是，如果价格足够低，那用户肯定是直接把全部的任务都给服务器，此时的最佳策略当然就是$ l_i^= Li $；如果价格实在太高，那么用户什么任务也不会卸载的，此时的最佳策略当然就是$ l_i^=0$。 那么分别带入一阶导数为 0 的式子，就可以知道最低定价和最高定价了。
这里的公式只是语言的另一种形象化表达

因此，ESP 的最佳策略应该在 dmin i 和 dmax i 之间，MU i 的最优策略满足：

$（为全部的任务量）$

此外，根据（38），当 dmin i < di < dmax i 时，我们可以得到以下两个方程：

一阶导数小于 0，这意味着 ESP 提供的出价越高，MU 卸载的计算任务的大小就越小。 此外，二阶导数恒为正。因此，它是一个严格凹函数，在给定的 di 范围内，导出的策略 l*i 是最优和唯一的。

定义 2： 如果$UE(di, li) > UE(di, l*i)$，则存在 MUs 和 ESP 之间的唯一斯塔克伯格均衡。
定理 2： 考虑 ESP 的动态出价策略和固定数量的 MUs，对于 ESP，其效用函数满足（19）。然后，存在 MUs 和 ESP 之间的唯一纳什均衡。

证明： 将 xi 视为常数，并将获得的最佳策略 li 代入 UE，UE(di, li)可以得到。ESP 的效用函数表示为（41）：

因此对 di ( 这里的 di 单指某一个用户 ) 的一阶偏导数计算为（42）：

Tip

这里注意，上面的 UE 是指 ESP 对全部用户的总收益，下面的这个" $对$ "计算的是针对某一位用户的收益。因为 ESP 可以对不同用户采取不同的收费策略

之后对 di 的二阶导数制定为：

因为(Zi+di)^3 > 0且> 0，很明显 ESP 效用函数的二阶导数是负的。可以观察到 ESP 的效用函数 UE(di, l*i)是一个严格凹函数，这证明了纳什均衡的存在。

因此，定理 2 得证。根据上述定理，证明了斯塔克伯格-纳什均衡在第一阶段和第二阶段都存在且唯一。同样，将（42）的一阶导数设为 0，我们可以得到方程：

根据最佳策略 di 应在 dmin i 和 dmax i 之间的事实，因此 ESP 的最优策略如下所示：

Note

这一部分的原理同上，就是证明出商家 ESP 的收益函数也是一个严格凹函数（二阶导数始终保持负值），那么也就说明 ESP 的效益函数存在纳什均衡。和上面一样，一阶导数为 0 时能够取得最大收益，此时能够得到最佳定价。

Gradient-Based Dynamic Iterative Search Algorithm

V. 基于梯度的动态迭代搜索算法

本节提出了 GDISA 来获得唯一的纳什和斯塔克伯格均衡。

算法 1 展示了 GDISA 的细节。首先，我们设置了迭代次数 m = 0 和 n = 0 的初始值。然后，ESP 在 dmin i 和 dmax i 之间设置了初始出价策略 d(0)，这些可以通过（36）和（37）计算得出，所有 MUs 设置了初始卸载策略 l(0)在 0 和 Li 之间。

在收到初始 d(0)和 l(0)后，ESP 根据 d(m + 1) = d(m) + θ∇UE(d(m), l*(d(m)))计算其新的出价策略，**其中 ∇UE(d(m), l*(d(m)))是基于（42）和（45）的梯度([∂UE(m)]/[∂di(m)]), θ 是步长**。此时，每个 MU i 根据 l(n + 1) = l(n) + θ∇Ui(l(n), l*(l(n)))计算其新的卸载策略，**其中 ∇Ui(l(n), l*(l(n)))是基于（32）和（38）的梯度([∂Ui(n)]/[∂li(n)]), θ 是步长。** 然后，设置 n+1 = n 和 m+1 = m，ESP 和 MUs 将继续迭代寻找更好的策略以最大化他们的效用。

直到([∥ln+1 − ln∥1]/[∥ln∥1]) ≤ ξ，MUs 将停止重复，迭代结束，其中 ξ 是精度阈值，∥y∥1 表示 y 的一阶范数。同样，ESP 将在([∥dm+1 − dm∥1]/[∥dm∥1]) ≤ ξ 时停止重复。此时，可以获得 ESP 和 MUs 策略的近似最优解，分别表示为 d和 l。因此，获得了 ESP 和 MUs 的最优效用。

算法 1 GDISA
输入：MUs N，任务 Hi，以及其他参数；
输出：最佳出价策略 d*，最佳卸载策略 l*，Ui，UE；
1: 初始化：m = 0, n = 0, 精度阈值 ξ，步长 θ；
2: 设置 d(m) = (d1(m), d2(m), …, dN(m))，其中 dmin i < di(m) < dmax i；
3: ESP 使用梯度上升搜索算法找到最佳出价集，其中 d(m + 1) = d(m) + θ∇UE(d(m), l*(d(m)))；
4: 设置 l(n) = (l1(n), l2(n), …, lN(n))，其中 0 < li(n) < Li；
5: 每个 MU i 使用梯度上升搜索算法找到最佳卸载集，其中 l(n + 1) = l(n) + θ∇Ui(l(n), l*(l(n)))；
6: while≥ ξ do
7: 对于每次迭代 m
8: 重复步骤（2）和步骤（3）；
9: while≥ ξ do
10: 对于每次迭代 n
11: 重复步骤（4）和步骤（5）；
12: n ← n + 1；
13: end while
14: m ← m + 1；
15: end while
16: 获得最优 d和 l；
17: 根据方程（19）计算 UE，根据方程（14）计算 Ui；
18: 返回 Ui，UE

Note

这里就是普通的梯度下降算法，初始的(l1,l2,l3,…)还有(d1,d2,d3,…)都是随机的

SIMULATION RESULTS

VI. 模拟结果

本节进行模拟以评估 GDISA 的收敛性能和有效性。特别是，将 GDISA 与其他基准方法进行比较，并研究了一些参数对 ESP 和 MUs 效用的影响。

A. 参数设置

在模拟中，多个 MUs 随机分布在 ESP 的覆盖范围内。MUs 的数量设置在[5, 30]的范围内。MUs 生成的任务大小在 10M 到 20M 之间，任务的容忍延迟在[0.05 秒，3 秒]的范围内。我们设置了 BS-MEC 和 UAV-MEC 服务器的单位能耗在[0.2, 1.7]（焦耳/兆次循环）的范围内。满意度因子度为 5，复杂度因子在[0.1, 5]的范围内。BS-MEC 服务器的计算频率为 50 GHz，UAV-MEC 服务器的计算频率为 10 GHz。表 II 给出了使用的主参数。此外，我们提供了以下四种基准方法进行性能比较：

随机（RANDOM）：ESP 的出价和 MUs 的卸载策略都是随机生成的。
全部卸载（FO）：所有 MUs 的任务都卸载到 ESP，然后 ESP 根据我们提出的 GDISA 确定其最优策略。
无 UAV-MEC 服务器（NU）：类似于[44]，系统中没有 UAV-MEC 服务器，只有一个 BS-MEC 服务器为 MUs 提供计算服务。
ESP 和 MU 之间的非合作博弈（NG）：NG 没有考虑其他 MUs 的影响，因此只有 MUs 之间的竞争，每个 MU 独立与 ESP 互动以找到自己的最优决策，而不考虑其他 MUs 的政策。这是一个非合作博弈，每个 MU 与 ESP 之间[45]。

B. 收敛性能

图 3 显示了所有 MUs 和 ESP 效用的迭代过程。最初设置 MUs 的数量为 5。如图 3 所示，ESP 和 MUs 的效用逐渐增加，并最终收敛和稳定。此外，ESP 的效用在开始时相对较高，随着迭代次数的增加而迅速增加。大约 100 次迭代后，它稳定并接近最优解。可以发现，MUs 的平均效用也从比较高的值开始。然而，与 ESP 的效用相比，MUs 的平均效用没有很快达到稳定状态。这是由于 MUs 之间的非合作关系，它们相互竞争以最大化自己的效用。最终，获得了 ESP 和 MUs 的效用以及相应的最优解。

C. 参数影响

这部分评估了 BS-MEC 服务器和 UAV-MEC 服务器单位能耗对 ESP 效用的影响。如图 4 所示，我们将两个服务器的单位能耗设置在[0.2, 1.7]的范围内。随着单位能耗的增加，ESP 的效用减少，它们之间的关系是线性且成反比的。这是因为单位能耗的增加，相应地，ESP 执行计算任务的成本变得更高，这不可避免地降低了 ESP 的效用。此外，当单位能耗保持不变且 MUs 数量增加时，ESP 的效用增加。主要原因是随着 MUs 数量的增加，更多的 MUs 参与任务卸载过程，ESP 可以通过出售更多的计算资源来增加其效用。根据我们的模型，ESP 可以通过参与计算卸载来增加其效用。此外，由于单位能耗与决策和 MUs 的效用无关，我们不评估其对 MUs 效用的影响。

D. 性能比较

这部分比较了 GDISA 与其他四种基准方法在不同场景下的性能。首先，我们比较了在不同 MUs 数量下 ESP 和 MUs 的效用。图 5 和图 6 分别展示了在不同 MUs 数量下 GDISA 与其他基准方法的性能比较。图 5 显示了 MUs 平均效用的性能比较，图 6 显示了 ESP 效用的性能比较。

可以看到，在不同 MUs 数量下，GDISA 的表现最佳。此外，其他三种方法随着 MUs 数量的逐渐增加，表现出与 GDISA 相同的趋势。具体来说，我们可以观察到 NU 的效用最低。这是因为如果 ESP 只包括 BS-MEC 服务器，它将承受更大的计算压力，无法进行许多 MUs 的任务。MUs 无法通过计算卸载来增加他们的效用，ESP 也无法通过出售更多的计算资源来提高其效用。因此，在 NU 情况下，MUs 和 ESP 的效用都较低。此外，MUs 和 ESP 的效用在 FO 情况下相对较高，接近 GDISA。这表明当所有 MUs 的计算任务都卸载时，MUs 和 ESP 的效用接近他们的最优效用。相应地，在随机情况下，ESP 和 MUs 的效用高于 NU 且低于 FO。

由于 NG 没有考虑其他 MUs 的影响，其在 MUs 平均效用方面的性能显著低于我们提出的 GDISA。这表明 MUs 之间的社会关系在卸载决策中起着至关重要的作用，每个 MU 独立获取最优策略无法带来更好的整体平均效用。与 MUs 的平均效用相比，NG 在 ESP 效用方面表现更好。在 NG 情况下，ESP 仍然可以通过出售计算资源获得相对较高的效用。总的来说，可以发现 UAV-MEC 服务器和 MUs 的社会关系对不同方法的性能有重要影响。

图 7 显示了在不同单位能耗 qi 下 ESP 效用的比较。同样，对于 ESP，GDISA 具有最高的效用。在其他四种基准方案中，NG 的效用更高，NU 的效用更低。此外，随着单位能耗 qi 的增加，ESP 的效用减少，这已经在图 4 中详细描述。

总之，我们证明了 GDISA 不仅可以提高 MUs 和 ESP 的效用，而且可以获得唯一的均衡。因此，GDISA 在不同场景中被证明是有效的。

VII. 讨论和未来工作

本节讨论了潜在的和有吸引力的未来工作。

A. 无人机辅助和基于区块链的计算卸载

区块链已经吸引了广泛的关注，并在各种应用领域中得到广泛应用，特别是在与边缘计算结合时。由于我们提出的无人机辅助计算卸载中没有考虑安全交易问题，将区块链与我们提出的模型结合起来是有效的。在区块链赋能和无人机辅助的计算卸载中，MUs 在向 ESP 支付相应费用后，可以将他们的计算任务卸载到 BS-MEC 服务器或 UAV-MEC 服务器，所有交易数据都记录在区块链上，以建立信任和保护隐私。我们可以引入智能合约技术，这是一种可靠的市场监督解决方案，因为它部署在区块链上，无法被篡改。通过区块链的去中心化、安全性和可追溯性，智能合约使 MUs 能够保持信息透明度并与 ESP 建立信任，从而确保 MUs 支付的可靠性，并禁止恶意支付和其他非法行为。在未来，我们将考虑使用区块链赋能和无人机辅助的计算卸载中的智能合约来解决优化问题。

B. 无人机辅助和基于深度强化学习的计算卸载

最近，各种人工智能（AI）方法，如深度强化学习（DRL），已被用于解决 MEC 中的优化问题。一方面，通过结合 DRL，计算从远程云推向网络边缘，以实现各种实时和可靠的智能服务。另一方面，DRL 也有潜力解决各种网络优化问题（例如，卸载决策和资源分配）。

我们目前的研究重点是提高静态系统的性能，而没有考虑动态时变环境。为了解决时变系统中的复杂优化问题，DRL 方法更适合获得最佳决策策略并最大化长期奖励。在未来的工作中，我们将考虑使用 DRL 来解决动态时变环境中的优化问题。

VIII. 结论

本文研究了一个由一个 UAV-MEC 服务器、一个 BS-MEC 服务器和多个 MUs 组成的无人机辅助 MEC 网络。为了最大化 ESP 和 MUs 的效用，ESP 和 MUs 之间的互动被建模为斯塔克伯格博弈，使用逆向归纳法分析了我们提出的博弈问题。证明了所提出的博弈可以达到唯一的纳什均衡，然后提出了 GDISA 来获得近似最优解。模拟结果表明，GDISA 可以有效地激发 ESP 和 MUs 之间的合作，并且在不同场景下的表现优于其他基线方法。