显式 + 隐式特征交叉融合模型

张开发
2026/6/9 22:14:07 15 分钟阅读
显式 + 隐式特征交叉融合模型
WideDeepwide部分是一个广义的线性模型。y是预测值x[x1,x2,....,xd]是特征向量w[w1,w2,.....,wd]为模型参数b为偏差。特征集包括原始输入特征和转换后的特征。 Wide部分的作用是让模型具有较强的“记忆能力”。DCN模型DCN 显式交叉Cross 隐式非线性Deep1DCN分成4部分。最底下是“Embedding and stacking layer”中间部分是“Cross network”和“Deep network”最上面是“Combination output layer”。2DCN模型的显著优缺点是优点提供了显式的高阶交叉特征 Cross Network优点使用了残差的方式保证交叉特征的有效学习优点特征交叉通过模型自动学习来实现免去了人工特征工程。缺点1: 隐式特征交叉解释性不足。缺点2: 低效率的特征交叉学习并不是所有的特征组合都是有效的。3残差连接的具体公式CrossNet从上述公式中是输入可以看作常数可以看作是函数F那么我们换一种写法上面的写法是不是比较熟悉他就类似于残差连接的公式。4DCN模型结构如下图所示主要的模块为Embedding and Stacking Layer输入特征的处理包括embedding处理和concat操作Cross Network特征交叉网络对特征进行显式的有限阶的高阶交叉Deep NetworkDNN层网络对特征进行隐式的高阶交叉Combination Layer结合特征交叉层和DNN层的隐层输出并输入到预测层。辅助学习参考https://zhuanlan.zhihu.com/p/27296033305DCN-V2模型DCN-V2模型结构有串行Stacked与并行Parallel/MoE两种实际落地时并行结构MoE 版在工业界更为常见尤其适合大规模推荐与广告排序场景。(1) DCN-V2 真正的核心改进原版 DCN 的 Cross Net 有个致命问题表达能力太弱交叉方式太受限。原版 DCN 每层参数是向量 w​这本质是低秩、线性、受限的交叉。DCN-V2 只改了一件关键事把向量 w 换成了矩阵 W,或矩阵乘法形式带来三个真正的提升1.交叉不再是简单线性加权变成更灵活的双线性交互2.特征之间的交互权重不再共享表达能力大幅提升3.仍然保持显式高阶交叉没有变成黑盒 MLP2对参数矩阵W进行低秩分解3使用MOE结构当使用矩阵分解的思想降低其参数量后激发了作者使用MOE进一步增强特征提取能力。MOE通常由两个部分组成Expert专家Gate门控网络。DCN-V2利用多个专家分别在不同子空间中学习特征交叉并使用依赖于输入x的门控机制 自适应 地组合学习到交叉特性。Expert(专家)部分在每一层的特征交叉中由k个转化每个专家都会经过一个小网络即组成其各自的维度可见上图的维度变化在专家网络计算时作者没有立即从维度投影回 d d,而是进一步在投影空间中应用非线性变换 来 优化表示非线性变换即为非线性激活函数常使用tanh(),所以在计算之间都有一个tanh() 函数。参考https://zhuanlan.zhihu.com/p/1922700531165558733Gate(门控网络)部分不用把门控网络想的非常高大上实际就是用来生成每个专家的权重常使用的Linear 线性网络。

更多文章