GANs用于文本生成

　　上学期期末老师给了我本杂志让我好好看看里面的Gans网络是如何应用在文本生成上的，文章里面也没有介绍原理性的东西，只是说了加入这个Gans模型后效果有多好，给出了模型架构图和训练时所用的语料例子，也没有给出模型的细节以及训练时的优化目标。看的我一脸懵。这篇文章也不涉及任何原理性东西，只是用我自己的理解说明一下Gans网络存在的问题以及如何改进。

　　之后看了大量资料才对这个模型有一个很好的认识，Gans模型16年被提出来的，之后就在图像生成方面取得了很不错的成果，Gans刚提出来的时候只适用于连续型的数据生成，对于离散型的数据效果不佳，但是总有大佬喜欢搞事，想将Gans用在文本生成这样的离散数据任务上，将Gans网络应用于文本生成像在逐步实现图灵测试，要是真实现了就是一个激动人心的大事，怪不得那些大佬喜欢搞事。

　　好了，来看看Gans网络如何应用于文本生成。

　　GANs在面对离散型数据的时候，判别网络无法直接将梯度反向传播给生成网络，因为判别器得到的是sampling之后的结果，即使softmax的输出优化了一点点，但是sampling之后生成器的结果和上一次一模一样，判别器会意识不到上一次自己的判别是正确的，从而乱指导生成器的更新。比如第一次生成器输出[0.1, 0.1, 0.1, 0.1, 0.6]，经过sampling之后结果是[0, 0, 0, 0, 1]输入给判别器，假如正确结果是[0, 1, 0, 0, 0]，判别器收到结果进行判定然后判定结果经过反向传播后给生成器，生成器又再次给出自己的答案是[0.1, 0.2, 0.1, 0.1, 0.5]，sampling之后结果依旧是[0, 0, 0, 0, 1]，当判别器看到又是这个结果，恐怕会怀疑自己的人生，然后重新选一条路教生成器如何更好地欺骗自己。

　　WGAN是对于GAN直接改进用于文本生成的大名鼎鼎的模型。在原始Gan用于文本生成时，训练过程看不到生成器从好到不好的过程，而WGAN利用Wasserstein散度，使得这个过程可视化。Wasserstein距离度量两个概率分布之间的距离，它相比于KL散度和JS散度的优势在于：即使两个分布的支撑集没有重叠或者重叠非常少，仍然能反映两个分布的远近。而JS散度在此情况下是常量，KL散度可能无意义。这就使得Gan模型在离散型数据上有了明显的进化过程。然而即使是这样，Gan模型在文本生成上只能产生一些看起来有那么一点正常的语句，与现在的starte-of-art相去甚远。

GANs用于文本生成的相关教程结束。

《GANs用于文本生成.doc》

下载本文的Word格式文档，以方便收藏与打印。

GANs用于文本生成

GANs用于文本生成的相关教程结束。

相关推荐

Pytorch随机数生成常用方法有哪些

仅三天，我用 GPT-4 生成了性能全网第一的 Golang Worker Pool，轻松打败 GitHub 万星项目

DJango错误日志生成

visual 2008中error PRJ0003 : 生成 cmd.exe 时出错

python使用docxtpl生成word模板

MASA MinimalAPI源码解析：为什么我们只写了一个app.MapGet,却生成了三个接口

JavaFx 生成二维码工具类封装

Vue中使用富文本编辑器