word2vec详解-优化

更新时间：2025-01-24 01:38:16

word2vec优化详解

优化1：负采样

word2vec的跳字模型和连续词袋模型在最后一步使用了softmax，导致输出结果为多分类，分类数量与词库大小一致，消耗计算资源。改进方法将两个单词看作二分类任务，引入负采样以添加额外样本，训练模型。

负采样示例：原本模型仅输入词周围词，输出总是“是”，无法训练。负采样通过人为添加其他样本，确保训练意义。负采样步骤包括确定词频率，将线段划分，采样出k个负例。

优化2：二次采样

文本中高频词信息较少，低频词信息丰富。二次采样在训练词嵌入模型时，根据词频率丢弃词，优化模型效果。具体实现为计算词频率与预设常数的比值，频率高于比值的词被丢弃。

二次采样优点：加速训练，提高词向量质量。

优化3：GloVe

word2vec存在缺点，GloVe在2014年提出，是一种全局向量的词嵌入方法，改进词向量学习。GloVe基于语料库的全局特征，利用共现频次矩阵和回归形式优化，优化目标为对数线性函数。

GloVe通过条件概率比值直观表达词间关系，学习出有意义的词向量空间。比值关系基于词向量在向量空间中的相似度，用于拟合词语关系，优化词向量在分析任务中的表现。

GloVe通过计算条件概率比值，用指数函数拟合，最终得到损失函数。损失函数通过计算wi与wk的点积关系，基于词向量空间线性关系，优化模型参数。权重函数的选择有助于全局统计信息的集成，增强模型泛化能力。