更新時(shí)間:2020年09月21日15時(shí)00分 來源:傳智播客 瀏覽次數(shù):
首先,要明確它在說的fasttext是什么?我們學(xué)的fasttext工具有兩個(gè)作用,也就是兩個(gè)主要接口,文本分類和訓(xùn)練詞向量,而我們學(xué)習(xí)的word2vec是什么,是如何進(jìn)行詞向量訓(xùn)練的理論。
但大家要知道,word2vec是有這個(gè)工具的,同樣實(shí)現(xiàn)word2vec還有g(shù)ensim這樣的工具包。所以更進(jìn)一步,問的是原生的word2vec和fasttext在實(shí)現(xiàn)時(shí)的差異,到底加了哪些工程技巧呢?為了避免出現(xiàn)OoV(out of vocab)現(xiàn)象,設(shè)計(jì)了允許加入子詞(subword)特征,同時(shí)對(duì)subword可以進(jìn)行n-gram,以拓展詞表。當(dāng)然,我們知道,word2vec提供兩種模式訓(xùn)練cbow和skipgram,他們的結(jié)構(gòu)都是輸出層,隱層和輸出層,這些都屬于全連接層,輸出層就是全連接層+softmax,全連接層+softmax如果計(jì)算非常大,那可以怎么辦呢?就是允許使用層次softmax。
下面是傳智播客公開的幾套人工智能視頻教程,如果感興趣可以下載學(xué)習(xí)。
北京校區(qū)