AI生成器教程

此项目已过期，请移步新版：

https://www.pixiv.net/novel/show.php?id=19788860

----------

看到有人没找到教程，在这里发一下

原文链接 https://bitbucket.org/a686d380/gpt2-se/

# GPT2-Se 以上内容来自hlib.cc。更多中文H小说尽在hlib.cc。

GPT2-Se是一个基于GPT2的中文色情文本生成器。

感谢[GPT2-Chinese](https://github.com/Morizeyao/GPT2-Chinese)原作者们，由于GitHub禁止色情内容，选择了在相对封闭的Bitbucket开源

本项目没有修改GPT2-Chinese的结构，仅进行了语料收集和训练，可以使用GPT2-Chinese直接打开模型 model/basic_small

以上内容来自hlib.cc。更多中文H小说尽在hlib.cc。

下载的文件中自带了一个通用色情文本模型，这个模型经过了1万篇文章，总共1.8GB的[语料](https://bitbucket.org/a686d380/shubao)训练。

## 下载地址

https://mega.nz/file/srRUGARQ#j7JLBXLhX45DfyXfiJ_-SIUyfraKSc2SGklQB2fhuAM

## 使用教程以上内容来自hlib.cc。更多中文H小说尽在hlib.cc。

### 生成文本

打开gpt2-se.exe 在左侧文本框中输入文本，点击下方生成

如果没有N卡会使用CPU计算模型，请耐心等待

以上内容来自hlib.cc。更多中文H小说尽在hlib.cc。

点击弹出来的黑色框可以看到后台进展

会生成三个续写样本，点击确定会将次文本添加到文末，点击继续会添加到文末并继续生成下一组

### 参数设置

在最右侧可以设置生成文本长度以上内容来自hlib.cc。更多中文H小说尽在hlib.cc。

选择生成模型，模型文件在 model 文件夹下，默认生成模型是通用模型 model\basic_small

输入文本长度指的是输入模型的语料长度，最长不超过1000

### 训练模型

以上内容来自hlib.cc。更多中文H小说尽在hlib.cc。

我们强烈建议基于通用模型训练其他模型，这可以让文章生成的风格接近选定语料

首先将语料放入 text 文件夹下,以UTF-8格式的txt保存，请务必注意Windows中文系统一般默认为GBK编码而不是UTF-8，修改方法可见[这里](https://jingyan.baidu.com/article/9faa7231992f91063c28cbef.html)

接着选择预训练模型，默认基于通用模型 model\basic_small

训练周期决定了对选定语料的拟合程度，默认为5 以上内容来自hlib.cc。更多中文H小说尽在hlib.cc。

点击训练，请耐心等待，点击弹出来的黑色框可以看到后台进展

生成的模型会放在 model\final_model 下

此时将上方生成模型路径改为 model\final_model 即可使用训练后的模型

以上内容来自hlib.cc。更多中文H小说尽在hlib.cc。

注意模型训练非常耗时，强烈建议在一台较好的N卡机器上运行

### 原理简介

GPT模型是研究字词之间的统计关系，比如在大量样本中出现了"她穿上连衣裙"，模型会学习到这些字之间在统计上经常同时出现，其不能理解主语谓语宾语

而在基于通用模型训练其他模型的过程中，在新的语料中出现了"我穿上长裙"，模型学习后，是可以根据统计关系输出"她穿上长裙"。以上内容来自hlib.cc。更多中文H小说尽在hlib.cc。

但如果一个语料从未出现，模型不会输出。

典型的就是人名，如果你输入了一个模型从未见过的姓名，模型大概率会忽略它。在后续的文本中无法生成。

所以如果要使用某一人名（或者某一词汇），必须要准备语料进行训练，模型才可能输出相关的文本

以上内容来自hlib.cc。更多中文H小说尽在hlib.cc。

在 text 文件夹中自带了原神相关语料，而通用模型应该没有见过原神，你可以尝试训练后在通用模型 model\basic_small 和训练后的模型 model\final_model 分布输入语料中出现的姓名，观察其区别

所以不要指望着这种模型下的AI学会逻辑

### 意见反馈

在这里讨论 https://www.pixiv.net/novel/show.php?id=17698820 以上内容来自hlib.cc。更多中文H小说尽在hlib.cc。