Quaternion Knowledge Graph Embeddings —— 基于四元数的知识图谱嵌入
论文概览
在本篇论文中,作者将基于复数的知识图谱嵌入拓展到超复数空间——四元数,每个四元数\(Q\)由一个实数\(r\)和三个虚数单位\(\textbf{i}\),\(\textbf{j}\),\(\textbf{k}\)组成,即\(Q=a+b\textbf{i}+c\textbf{j}+d\textbf{k}\),提出了QuatE模型,该模型通过基于四元数空间的头尾实体之间的关系旋转来建模。
四元数运算
本文中提到了四种关于四元数的运算,分别是共轭、范数、内积和Hamilton积。
共轭。一个四元组Q的共轭被定义为\(\bar{Q}=a-b\textbf{i}-c\textbf{j}-d\textbf{k}\)
范数,这里引入范数是为了下面将关系四元数归一化为单位四元数。\(\left| Q \right|=\sqrt{a^2+b^2+c^2+d^2}\)
内积。四元数\(Q_1 = a_1 + b_1\textbf{i} + c_1\textbf{j} + d_1\textbf{k}\)和\(Q_2 = a_2 + b_2\textbf{i} + c_2\textbf{j} + d_2\textbf{k}\)之间的内积为对应元素相乘再求和。
\[Q_1 \cdot Q_2 = \left< a_1,a_2 \right> + \left< b_1,b_2 \right> + \left< c_1,c_2 \right> + \left< d_1,d_2 \right>
\]
Hamilton积。Hamilton积遵循分配率,但不遵循交换律。
\[Q_1 \otimes Q_2 = (a_1a_2 – b_1b_2 – c_1c_2 – d_1d_2) + (a_1b_2 + b_1a_2 + c_1d_2 – d_1c_2)\textbf{i} + (a_1c_2 – b_1d_2 + c_1a_2 + d_1b_2)\textbf{j} + (a_1d_2 + b_1c_2 – c_1b_2 + d_1a_2)\textbf{k}
\]
模型框架
QuatE模型可大致分为两个步骤,(1) 使用单位关系四元数旋转头部四元数;(2) 在旋转后的头部四元数和尾部四元数之间取四元数内积,对每个三元组进行评分。
关系四元数单位化
第一步,将关系四元数\(W_r\)除以其模长\(\left| W_r \right|\)得到单位四元组\(W_{r}^{\vartriangleleft}\),除以范数是为了消除缩放效应,简单来说就是防止头实体通过关系旋转后范数的大小发生变化;
旋转头实体
第二步,通过头实体\(Q_h\)与单位关系四元数\(W_{r}^{\vartriangleleft}\)的Hamilton积旋转头实体得到\(W_{h}^{‘}\);
其中,\(\circ\)表示基于元素的乘积,这里跟RotatE一样,假设嵌入维数为k,k维表示用k个四元数表示一个嵌入,基于元素的乘积是指在每一维上单独进行旋转
计算得分函数
第三步,将\(W_{h}^{‘}\)与尾实体\(Q_t\)作内积,作为链接预测任务中的得分函数,得分函数的值越大,说明\(W_{h}^{‘}\)与尾实体\(Q_t\)越接近。
损失函数
本文将链接预测任务当作是分类任务,即分辨三元组的真假,因此损失函数为正则化后的logistic损失。
建模不同类型的关系
QuatE扩展自ComplEx模型,对对称、非对称和反转关系进行了建模。
建模对称关系
对称关系,即\(r(x, y) \Rightarrow r(y, x)\),论文中提到将关系四元数的虚数部分设为0,就可以证明QuatE可以对对称关系建模,但论文中并没有给出证明,一句话带过了。
下面我们来简单证明一下,设\(W_{r}^{\vartriangleleft}\)的虚数部分全为0:
\(r(x, y)\)
\[Q_h \otimes W_{r}^{\vartriangleleft} \cdot Q_t = [a_h \circ p + (a_h \circ q)\textbf{i} + (a_h \circ u)\textbf{j} + (a_h \circ v)\textbf{k}] \cdot (a_t + b_t\textbf{i} + c_t\textbf{j} + d_t\textbf{k}) = \left< a_h, p, a_t \right> + \left< a_h, p, b_t \right> + \left< a_h, p, c_t \right> + \left< a_h, p, d_t \right>
\]
\(r(y, x)\)
\[Q_t \otimes W_{r}^{\vartriangleleft} \cdot Q_h = [a_t \circ p + (a_t \circ q)\textbf{i} + (a_t \circ u)\textbf{j} + (a_t \circ v)\textbf{k}] \cdot (a_h + b_h\textbf{i} + c_h\textbf{j} + d_h\textbf{k}) = \left< a_t, p, a_h \right> + \left< a_t, p, b_h \right> + \left< a_t, p, c_h \right> + \left< a_t, p, d_h \right>
\]
对比上面两个公式,显然结果是一样的,即\(Q_h \otimes W_{r}^{\vartriangleleft} \cdot Q_t = Q_t \otimes W_{r}^{\vartriangleleft} \cdot Q_h\)。
建模非对称关系
非对称关系,即\(r(x, y) \Rightarrow \urcorner r(y, x)\)。为了建模非对称关系,我们需要证明虚数部分非0时,\(Q_h \otimes W_{r}^{\vartriangleleft} \cdot Q_t \neq Q_t \otimes W_{r}^{\vartriangleleft} \cdot Q_h\)
\(r(x, y)\)
\(r(y, x)\)
这两个公式部分项的符号是不一样的,因此\(Q_h \otimes W_{r}^{\vartriangleleft} \cdot Q_t \neq Q_t \otimes W_{r}^{\vartriangleleft} \cdot Q_h\)。
建模反转关系
反转关系,即\(r_1(x, y) \Rightarrow \urcorner r_2(y, x)\)。本文利用四元数的共轭来实现反转关系的建模,证明\(Q_h \otimes W_{r}^{\vartriangleleft} \cdot Q_t = Q_t \otimes \bar{W_{r}^{\vartriangleleft}} \cdot Q_h\)。
显然,\(Q_h \otimes W_{r}^{\vartriangleleft} \cdot Q_t = Q_t \otimes \bar{W_{r}^{\vartriangleleft}} \cdot Q_h\)。
实验
数据集
WN18, FB15K, WN18RR和FB15K-237
评价指标
MR、MRR和Hits@N
基线
对于基于翻译的模型,选用TransE、TorusE和RotatE作为基线;对于基于语义匹配的模型,选用DisMult、HolE、ComplEx、SimplE、ConvE、R-GCN和KNGE作为基线。
链接预测结果
在WN18和FB15K数据集上链接预测的结果:
在WN18RR和FB15K-237数据集上链接预测的结果:
\(QuatE^1\)没有类型限制,\(QuatE^2\)带有N3正则化和相互学习,\(QuatE^3\)有类型限制,对于类型限制和相互学习,文中并没有给出相应的解释,这里我也没太弄懂。
从模型的效果上看,\(QuatE^2\)在FB15K和FB15K-237上提升很大,证明了N3正则化和相互学习的有效性
对照实验
共设置了三个对照实验,对照实验一去掉了关系四元数的归一化,对照实验二是在在头尾实体之间做Hamilton积,对照实验三为尾实体增加额外的关系旋转。
从效果上来看,对照组一和对照组二的模型性能变得更差了,对照组三模型性能没有明显改善,而且增加了额外的关系旋转,模型参数效率降低了。
参数数量比较
相比于RotatE模型,QuatE模型在WN18RR和FB15K-237上参数效率提升很大
总结
本文引入了更具表现力的四元数表征去建模实体和关系;用Hamilton乘积去捕获潜在的相互依赖关系(所有组件之间),实体和关系之间的交互更频繁;对对称、非对称和反转三种常见关系类型进行了建模;相比于RotatE模型,QuatE兼顾了性能和参数效率之间的平衡。
最新评论