NLP︱高级词向量表达(三)——WordRank(简述)

2023-03-16,,

如果说FastText的词向量表达句子时候很在行的话,GloVe在多义词方面表现出色,那么wordRank在相似词寻找方面表现地不错。

其是通过Robust Ranking来进行词向量定义。

相关paper:WordRank: Learning Word Embeddings via Robust

Ranking

相关博客:https://rare-technologies.com/wordrank-embedding-crowned-is-most-similar-to-king-not-word2vecs-canute/?from=singlemessage&isappinstalled=0#

查询king关键词,WordRank 、 word2vec、fastText三者效果对比:

WordRank 、fastText都相对比较精准“crowned”、“throne”,而不是word2vec的“Canute”


.

.

1、wordRank,与 word2vec、fastText三者对比

来源博客:《WordRank embedding: “crowned” is most similar to “king”, not word2vec’s “Canute”》

根据Ranking算法得到的wordRank,与 word2vec、fastText三者对比

在不同的项目需求上,有着不同的训练精度,在句法表达上,fastText更好,而在单个词语的相似性等内容表达上wordRank是三者中最好的。

同时随着数据量的增加精度呈现增长的趋势。

.

.


2、wordRank,与 word2vec、GloVe三者对比

来源paper:WordRank: Learning Word Embeddings via Robust Ranking

(1)精度

左图使用数据:WS-353 word similarity benchmark

右图使用数据:Google word analogy benchmark

从两个数据集的效果来看,wordRank效果极佳

(2)词类比与词相似比较

相似词的寻找方面极佳,词类比方面不同数据集有不同精度。


.

高级词向量三部曲:

1、NLP︱高级词向量表达(一)——GloVe(理论、相关测评结果、R&python实现、相关应用)

2、NLP︱高级词向量表达(二)——FastText(简述、学习笔记)

3、NLP︱高级词向量表达(三)——WordRank(简述)

4、其他NLP词表示方法paper:从符号到分布式表示NLP中词各种表示方法综述

NLP︱高级词向量表达(三)——WordRank(简述)的相关教程结束。

《NLP︱高级词向量表达(三)——WordRank(简述).doc》

下载本文的Word格式文档,以方便收藏与打印。