word2vec详解-优化
word2vec优化详解
优化1:负采样
word2vec的跳字模型和连续词袋模型在最后一步使用了softmax,导致输出结果为多分类,分类数量与词库大小一致,消耗计算资源。改进方法将两个单词看作二分类任务,引入负采样以添加额外样本,训练模型。
负采样示例:原本模型仅输入词周围词,输出总是“是”,无法训练。负采样通过人为添加其他样本,确保训练意义。负采样步骤包括确定词频率,将线段划分,采样出k个负例。
优化2:二次采样
文本中高频词信息较少,低频词信息丰富。二次采样在训练词嵌入模型时,根据词频率丢弃词,优化模型效果。具体实现为计算词频率与预设常数的比值,频率高于比值的词被丢弃。
二次采样优点:加速训练,提高词向量质量。
优化3:GloVe
word2vec存在缺点,GloVe在2014年提出,是一种全局向量的词嵌入方法,改进词向量学习。GloVe基于语料库的全局特征,利用共现频次矩阵和回归形式优化,优化目标为对数线性函数。
GloVe通过条件概率比值直观表达词间关系,学习出有意义的词向量空间。比值关系基于词向量在向量空间中的相似度,用于拟合词语关系,优化词向量在分析任务中的表现。
GloVe通过计算条件概率比值,用指数函数拟合,最终得到损失函数。损失函数通过计算wi与wk的点积关系,基于词向量空间线性关系,优化模型参数。权重函数的选择有助于全局统计信息的集成,增强模型泛化能力。
多重随机标签