启嘟渡科技商贸有限公司
SEARCH

与我们合作

我们专注提供互联网一站式服务,助力企业品牌宣传多平台多途径导流量。
主营业务:网站建设、移动端微信小程序开发、营销推广、基础网络、品牌形象策划等

您也可通过下列途径与我们取得联系:

微 信: wxyunyingzhe

手 机: 15624122141

邮 箱:

word2vec详解-优化

更新时间:2025-01-24 01:38:16

word2vec优化详解

优化1:负采样

word2vec的跳字模型和连续词袋模型在最后一步使用了softmax,导致输出结果为多分类,分类数量与词库大小一致,消耗计算资源。改进方法将两个单词看作二分类任务,引入负采样以添加额外样本,训练模型。

负采样示例:原本模型仅输入词周围词,输出总是“是”,无法训练。负采样通过人为添加其他样本,确保训练意义。负采样步骤包括确定词频率,将线段划分,采样出k个负例。

优化2:二次采样

文本中高频词信息较少,低频词信息丰富。二次采样在训练词嵌入模型时,根据词频率丢弃词,优化模型效果。具体实现为计算词频率与预设常数的比值,频率高于比值的词被丢弃。

二次采样优点:加速训练,提高词向量质量。

优化3:GloVe

word2vec存在缺点,GloVe在2014年提出,是一种全局向量的词嵌入方法,改进词向量学习。GloVe基于语料库的全局特征,利用共现频次矩阵和回归形式优化,优化目标为对数线性函数。

GloVe通过条件概率比值直观表达词间关系,学习出有意义的词向量空间。比值关系基于词向量在向量空间中的相似度,用于拟合词语关系,优化词向量在分析任务中的表现。

GloVe通过计算条件概率比值,用指数函数拟合,最终得到损失函数。损失函数通过计算wi与wk的点积关系,基于词向量空间线性关系,优化模型参数。权重函数的选择有助于全局统计信息的集成,增强模型泛化能力。

多重随机标签

猜你喜欢文章

QQ客服 电话咨询