KAN

现在我们有了 KAN 的原型，其计算图完全由方程式(2.1)指定，并在下图(b)中进行了说明

对于一个光滑 $f : [0, 1]^{n} \to R$ ，如下所示(定义为公式2.1)

$f (x) = f (x_{1}, \dots, x_{n}) = \sum_{q = 1}^{2 n + 1} Φ_{q} (\sum_{p = 1}^{n} ϕ_{q, p} (x_{p}))$

由于论文中没有细致指出每一个变量的含义，但考虑到本文追求的详尽、细致的缘故，故我补充解释一下，其中各个变量的含义
其中， $x_{p}$ 即代表向量 $x$ 的第 $p$ 个元素，故 $p$ 的范围是从 $1$ 到 $n$ ( $n$ 是输入向量的维度)
$q$ 这个索引用于遍历外部函数 $Φ$ 的每个组成部分
故有一元函数 $ϕ_{q, p}$ (或称单变量函数)处理输入向量 $𝑥$ 的第 $p$ 个分量，并为第 $q$ 个外部函数的求和贡献一个项

定理指出，你可以用 2n+1 个这样的外部函数——每个外部函数 $Φ_{q}$ 是一个一元函数(它作用于由内部一元函数 $ϕ_{q, p}$ 的输出组成的求和)，来表示任何多变量函数 $f$
总之，每个函数都可以用一元函数和求和来表示(since every other function can be written using univariate functions and sum)，看似前途一片光明，因为学习高维函数可以因此归结为学习多项式数量的一维函数(learning a high-dimensional function boils down to learning a polynomial number of 1D functions)
然而，这些一维函数可能是非光滑甚至是分形的，因此在实践中可能无法学习(However, these 1D functions can be non-smooth and even fractal, so they may not be learnable in practice)

在MLPs中，一旦我们定义了一个层(由线性变换和非线性组成)，便可以堆叠更多层使网络更深

类似的，要构建深层KANs，首先要回答：“什么是KAN层？” 原来，具有输入维度和输出维度的KAN层可以被定义为一维函数矩阵(定义为公式2.2)

Φ = ϕ_{q, p}, p = 1, 2, \dots, n_{i n}, q = 1, 2 \dots, n_{o u t},

其中函数ϕq,p𝜙𝑞,𝑝具有可训练参数

其中 $n_{i}$ 是计算图中第 $i$ 层节点的数量(比如当从0开始计数的话，上图第1层总计5个节点)
且用 $(l, i)$ 表示第 $𝑙$ 层的第 $i$ 个神经元(比如上图 $x_{1, 2}$ 表示第1层第2个神经元)
并用 $x_{l, i}$ 表示 $(l, i)$ -神经元的激活值
在第 $l$ 层和第 $l + 1$ 层之间，有 $n_{l} n_{l + 1}$ 激活函数(从第1层到第2层， $l = 1$ ，则总计有5×1个激活函数)
连接 $(l, i)$ 和 $(l + 1, j)$ 的激活函数用下述公式表示(比如 $ϕ_{1, 1, 1} 、 ϕ_{1, 2, 1} 、 ϕ_{1, 3, 1} 、 ϕ_{1, 4, 1} 、 ϕ_{1, 5, 1}$ )
$ϕ_{l, j, i}, l = 0, \dots, L - 1, i = 1, \dots, n_{l}, j = 1, \dots, n_{l + 1}$
$ϕ_{l, j, i}$ 的预激活简单地是 $x_{l, i}$ ，即 $x_{1, 1} 、 x 1, 2 、 x 1, 3 、 x 1, 4 、 x 1, 5$
$ϕ_{l, j, i}$ 的后激活用 ${\tilde{x}}_{l, j, i} \equiv ϕ_{l, j, i} (x_{l, i})$ 表示， ${\tilde{x}}_{1, 1, 1} 、 {\tilde{x}}_{1, 2, 1} 、 {\tilde{x}}_{1, 3, 1} 、 {\tilde{x}}_{1, 4, 1} 、 {\tilde{x}}_{1, 5, 1}$
第 $(l + 1, j)$ 神经元即 $x_{2, 1}$ 的激活值简单地是所有传入后激活的总和(定义为公式2.5)
$x_{l + 1}, j = \sum_{l_{i} = 1}^{n} {\tilde{x}}_{l, j, i} = \sum_{l_{i = 1}}^{n} ϕ_{l, j, i} (x_{l, i}), j = 1, \dots, n_{l + 1}$
以矩阵形式表示，这可以写成(定义成公式2.6，注意，一列一列的竖着看)

x_{l + 1} = \underset{Φ_{l}}{\underset{⏟}{(\begin{matrix} ϕ_{l, 1, 1} (\cdot) & ϕ_{l, 1, 2} & \dots & ϕ_{l, 1, n_{l}} \\ ϕ_{l, 2, 1} (\cdot) & ϕ_{l, 2, 2} & \dots & ϕ_{l, 2, n_{l}} \\ ⋮ & ⋮ & ⋮ \\ ϕ_{l, n_{l + 1}, 1} (\cdot) & ϕ_{l, n_{l + 1}, 2} & \dots & ϕ_{l, n_{l + 1}, n_{l}} \end{matrix})}} \cdot x_{l}

其中， $Φ_{l}$ 是对应于第 $l$ 层的函数矩阵(B-spline函数矩阵)， $x$ 为输入矩阵

一般的KAN网络是由 L𝐿层组成的：给定一个输入向量 $x_{0} \in R^{n_{0}}$ ，KAN的输出是(定义为公式2.7)
$K A N (x) = (Φ_{L - 1} \circ Φ_{L - 2} \circ \dots \circ Φ_{1} \circ Φ_{0}) x$

最简的KAN则可以写为： $f (x) = Φ_{o u t} \circ Φ_{i n} \circ x$
还可以重写上述方程，使其更类似于方程2.1，假设输出维度 $n$ 为1，并定义 $f (x) \equiv K A N (x)$
$f (x) = \sum_{i_{L - 1} = 1}^{n_{L - 1}} ϕ_{L - 1, i_{L}, i_{L - 1}} (\sum_{i_{L - 2} = 1}^{n_{L - 2}} \dots (\sum_{i_{2} = 1}^{n_{2}} ϕ_{2, i_{3}, i_{2}} (\sum_{i_{1} = 1}^{n_{1}} ϕ_{1, i_{2}, i_{1}} (\sum_{i_{0} = 1}^{n_{0}} ϕ_{0, i_{1}, i_{0}} (x_{i 0})))) \dots)$

类似的，MLP也可以扩展到比较深、宽，比如写成仿射变换 W和非线性 σ的交错

$M L P (x) = (W_{L - 1} \circ σ \circ W_{L - 2} \circ σ \circ \dots \circ W_{1} \circ σ \circ W_{0}) x$

很明显，MLPs将线性变换和非线性分开处理，分别表示为 W和 σ，而KANs将它们全部合
并在 $Φ$ 中。如下图(c)和(d)所示，便是一个一个三层MLP和一个三层KAN

总结一下

因此，KANs根本没有线性权重矩阵：相反，每个权重参数都被可学习的一维函数取代，参数化为样条函数
且KANs的节点只是简单地对传入信号求和，而不施加任何非线性