此项目已过期,请移步新版:
https://www.pixiv.net/novel/show.php?id=19788860
----------
看到有人没找到教程,在这里发一下
原文链接 https://bitbucket.org/a686d380/gpt2-se/
# GPT2-Se 以上内容来自hlib.cc。更多中文H小说尽在hlib.cc。
GPT2-Se是一个基于GPT2的中文色情文本生成器。
感谢[GPT2-Chinese](https://github.com/Morizeyao/GPT2-Chinese)原作者们,由于GitHub禁止色情内容,选择了在相对封闭的Bitbucket开源
本项目没有修改GPT2-Chinese的结构,仅进行了语料收集和训练,可以使用GPT2-Chinese直接打开模型 model/basic_small
以上内容来自hlib.cc。更多中文H小说尽在hlib.cc。
下载的文件中自带了一个通用色情文本模型,这个模型经过了1万篇文章,总共1.8GB的[语料](https://bitbucket.org/a686d380/shubao)训练。
## 下载地址
https://mega.nz/file/srRUGARQ#j7JLBXLhX45DfyXfiJ_-SIUyfraKSc2SGklQB2fhuAM
## 使用教程 以上内容来自hlib.cc。更多中文H小说尽在hlib.cc。
### 生成文本
打开gpt2-se.exe 在左侧文本框中输入文本,点击下方生成
如果没有N卡会使用CPU计算模型,请耐心等待
以上内容来自hlib.cc。更多中文H小说尽在hlib.cc。
点击弹出来的黑色框可以看到后台进展
会生成三个续写样本,点击确定会将次文本添加到文末,点击继续会添加到文末并继续生成下一组
### 参数设置
在最右侧可以设置生成文本长度 以上内容来自hlib.cc。更多中文H小说尽在hlib.cc。
选择生成模型,模型文件在 model 文件夹下,默认生成模型是通用模型 model\basic_small
输入文本长度指的是输入模型的语料长度,最长不超过1000
### 训练模型
以上内容来自hlib.cc。更多中文H小说尽在hlib.cc。
我们强烈建议基于通用模型训练其他模型,这可以让文章生成的风格接近选定语料
首先将语料放入 text 文件夹下,以UTF-8格式的txt保存,请务必注意Windows中文系统一般默认为GBK编码而不是UTF-8,修改方法可见[这里](https://jingyan.baidu.com/article/9faa7231992f91063c28cbef.html)
接着选择预训练模型,默认基于通用模型 model\basic_small
训练周期决定了对选定语料的拟合程度,默认为5 以上内容来自hlib.cc。更多中文H小说尽在hlib.cc。
点击训练,请耐心等待,点击弹出来的黑色框可以看到后台进展
生成的模型会放在 model\final_model 下
此时将上方生成模型路径改为 model\final_model 即可使用训练后的模型
以上内容来自hlib.cc。更多中文H小说尽在hlib.cc。
注意模型训练非常耗时,强烈建议在一台较好的N卡机器上运行
### 原理简介
GPT模型是研究字词之间的统计关系,比如在大量样本中出现了"她穿上连衣裙",模型会学习到这些字之间在统计上经常同时出现,其不能理解主语谓语宾语
而在基于通用模型训练其他模型的过程中,在新的语料中出现了"我穿上长裙",模型学习后,是可以根据统计关系输出"她穿上长裙"。 以上内容来自hlib.cc。更多中文H小说尽在hlib.cc。
但如果一个语料从未出现,模型不会输出。
典型的就是人名,如果你输入了一个模型从未见过的姓名,模型大概率会忽略它。在后续的文本中无法生成。
所以如果要使用某一人名(或者某一词汇),必须要准备语料进行训练,模型才可能输出相关的文本
以上内容来自hlib.cc。更多中文H小说尽在hlib.cc。
在 text 文件夹中自带了原神相关语料,而通用模型应该没有见过原神,你可以尝试训练后在通用模型 model\basic_small 和训练后的模型 model\final_model 分布输入语料中出现的姓名,观察其区别
所以不要指望着这种模型下的AI学会逻辑
### 意见反馈
在这里讨论 https://www.pixiv.net/novel/show.php?id=17698820 以上内容来自hlib.cc。更多中文H小说尽在hlib.cc。