Word2vec - 维基百科，自由的百科全书

此條目可能需要清理，以符合维基百科质量标准。 (2017年5月4日)
请尽量协助改善这篇条目，详情请参见讨论页。

机器学习与数据挖掘

范式监督学习無監督學習線上機器學習元学习（英语：Meta-learning (computer science)）半监督学习自监督学习强化学习基于规则的机器学习（英语：Rule-based machine learning）量子機器學習
问题统计分类生成模型迴歸分析聚类分析降维密度估计（英语：density estimation）异常检测数据清洗自动机器学习关联规则学习語意分析结构预测（英语：Structured prediction）特征工程表征学习排序学习（英语：Learning to rank）语法归纳（英语：Grammar induction）本体学习（英语：Ontology learning）多模态学习
监督学习 (分类 · 回归) 学徒学习（英语：Apprenticeship learning）决策树学习集成学习 Bagging 提升方法随机森林 k-NN 線性回歸朴素贝叶斯人工神经网络邏輯斯諦迴歸感知器相关向量机（RVM）支持向量机（SVM）迁移学习微调
聚类分析 BIRCH CURE算法（英语：CURE algorithm）层次 k-平均 Fuzzy 期望最大化（EM） DBSCAN OPTICS 均值飘移（英语：Mean shift）
降维因素分析 CCA ICA LDA NMF（英语：Non-negative matrix factorization） PCA PGD（英语：Proper generalized decomposition） t-SNE（英语：t-distributed stochastic neighbor embedding） SDL
结构预测（英语：Structured prediction）圖模式貝氏網路條件隨機域隐马尔可夫模型
异常检测 RANSAC k-NN 局部异常因子（英语：Local outlier factor）孤立森林（英语：Isolation forest）
人工神经网络自编码器認知計算深度学习 DeepDream（英语：DeepDream）多层感知器 RNN LSTM GRU（英语：Gated recurrent unit） ESN（英语：Echo state network）储备池计算（英语：reservoir computing）受限玻尔兹曼机 GAN SOM CNN U-Net Transformer Vision（英语：Vision transformer） Mamba 脉冲神经网络（英语：Spiking neural network） Memtransistor（英语：Memtransistor）电化学RAM（英语：Electrochemical RAM）（ECRAM）
强化学习 Q学习 SARSA 时序差分（TD）多智能体（英语：Multi-agent reinforcement learning） Self-play（英语：Self-play (reinforcement learning technique)） RLHF
与人类学习主动学习（英语：Active learning (machine learning)）众包 Human-in-the-loop（英语：Human-in-the-loop）
模型诊断学习曲线（英语：Learning curve (machine learning)）
数学基础内核机器（英语：Kernel machines）偏差–方差困境（英语：Bias–variance tradeoff）计算学习理论（英语：Computational learning theory）经验风险最小化奥卡姆学习（英语：Occam learning） PAC学习（英语：Probably approximately correct learning）统计学习 VC理论
大会与出版物 NeurIPS ICML（英语：International Conference on Machine Learning） ICLR ML（英语：Machine Learning (journal)） JMLR（英语：Journal of Machine Learning Research）
相关条目人工智能术语机器学习研究数据集列表（英语：List of datasets for machine-learning research）机器学习概要（英语：Outline of machine learning）
查论编

Word2vec為一群用來產生詞嵌入的模型。這些模型為淺層和雙層神經網路，用來訓練以重新建構語言學之詞文本，網路以詞表現，並且需猜測相鄰位置的輸入詞，在word2vec中bag-of-words 假設下，詞的順序是不重要的

訓練完成之後，word2vec 模型可用來映射每個詞到一個向量，可用來表示詞對詞之間的關係。該向量為神經網路之隱藏層^[1]

Word2vec 依賴skip-grams 或continuous-bag-of-words（CBOW）來建立神經詞嵌入。Word2vec 為Tomas Mikolov 在 Google帶領的研究團隊創造。該演算法漸漸被其他人所分析和解釋^[2]^[3]

Skip-grams 和 CBOW

Skip-gram 把一個詞從詞窗剔除。在skip-grams 下給定 $n$ 詞圍繞著詞 $w$ ，word2vec 預測一個句子中其中一個缺漏的詞 $c$ ，i.e.以機率 $p(c|w)$ 來表示。相反地，CBOW 給定詞窗中的文本，預測當前的詞 $p(w|c)$

延伸

word2vec 用來建構整份文件（而分獨立的詞）的延伸應用已被提出^[4] 該延伸稱為paragraph2vec或doc2vec 並且用C, Python ^[5]^[6] 和 Java/Scala ^[7] 實做成工具（參考下方）, Java和 Python 也支援推斷文件嵌入於未觀測的文件。

分析

對word2vec 框架為何做文字嵌入如此成功知之甚少，Goldberg 和Levy 指出word2vec 的功能導致相似文本擁有相似的嵌入（用 cosine similarity計算）並且和 J. R. Firth 的distributional hypothesis有關

實作

參見

參考

^ Mikolov, Tomas; et al. Efficient Estimation of Word Representations in Vector Space (PDF). [2015-08-14].
^ Goldberg, Yoav; Levy, Omar. word2vec Explained: Deriving Mikolov et al.’s Negative-Sampling Word-Embedding Method (PDF). [2015-08-14].
^ Řehůřek, Radim. Word2vec and friends (Youtube video). [2015-08-14].
^ Le, Quoc; et al. Distributed Representations of Sentences and Documents. (PDF). [2016-02-18].
^ Doc2Vec tutorial using Gensim. [2015-08-02].
^ Doc2vec for IMDB sentiment analysis. [2016-02-18].
^ Doc2Vec and Paragraph Vectors for Classification. [2016-01-13].