詞嵌入是自然語言處理(NLP)中語言模型與表徵學習技術的統稱。概念上而言,它是指把一個維數為所有詞的數量的高維空間嵌入到一個維數低得多的連續向量空間中,每個單詞或詞組被映射為實數域上的向量。
詞嵌入的方法包括人工神經網絡、對詞語同現矩陣降維、概率模型以及單詞所在上下文的顯式表示等。
在底層輸入中,使用詞嵌入來表示詞組的方法極大提升了NLP中語法分析器[7]和文本情感分析等的效果。
詞嵌入技術起源於2000年。約書亞·本希奧等人在一系列論文中使用了神經概率語言模型(Neural probabilistic language models)使機器「習得詞語的分布式表示(learning a distributed representation for words)」,從而達到將詞語空間降維的目的。羅維斯(Roweis)與索爾(Saul)在《科學》上發表了用局部線性嵌入(LLE)來學習高維資料結構的低維表示方法。這個領域開始時穩步發展,在2010年後突飛猛進;一定程度上而言,這是因為這段時間裡向量的質量與模型的訓練速度有極大的突破。
詞嵌入領域的分支繁多,有許多學者致力於其研究。2013年,谷歌一個托馬斯·米科洛維(Tomas Mikolov)領導的團隊發明了一套工具word2vec來進行詞嵌入,訓練向量空間模型的速度比以往的方法都快。許多新興的詞嵌入基於人工神經網絡,而不是過去的n元語法模型和非監督式學習。
Plurk: @xNCTU/nqt1gs
Twitter: @x_NCTU/1241015419164475401
投稿時間: