建了一个discord群,欢迎加入
https://discord.gg/V5m42EqZE5 以上内容来自hlib.cc。更多中文H小说尽在hlib.cc。
-----
以上内容来自hlib.cc。更多中文H小说尽在hlib.cc。
ChatGPT及其他大语言模型的火爆程度大家有目共睹,想跟风凑个热闹
以上内容来自hlib.cc。更多中文H小说尽在hlib.cc。
目前爬虫爬下来了8G的小黄文数据,训练了一个稍微大点的GPT2模型,效果比之前的强一些
以上内容来自hlib.cc。更多中文H小说尽在hlib.cc。
但是总感觉不够好,离理想中能够帮你写小黄文,扮演电子猫娘电子魅魔的AI还差的远
以上内容来自hlib.cc。更多中文H小说尽在hlib.cc。
目前的困难很多很多,列举一些
以上内容来自hlib.cc。更多中文H小说尽在hlib.cc。
1. 数据,中文互联网的小黄文总量可能真的不大,8G语料是从某老牌网站上扒的,感觉就算是全部凑齐了也不会超过20G,对于大模型来说杯水车薪。另外一点是带有标注的数据,现有的中文数据集基本上都非常干净,不会带黄暴内容。没有指令数据集就做不成对话模型。
以上内容来自hlib.cc。更多中文H小说尽在hlib.cc。
2. 模型,目前的开源中文模型比如GLM,MOSS都很干净,从中很难诱导"有害内容",只有BLOOM作为多语言模型似乎有那么一点能力
以上内容来自hlib.cc。更多中文H小说尽在hlib.cc。
3. 算力,不论从零训练模型还是微调现有的大模型都需要大量好的显卡,目前能够租用GPU的网站基本上都被挤满了。
以上内容来自hlib.cc。更多中文H小说尽在hlib.cc。
总之就是正在做,但是很难,不要着急,至少要花半年或者更长时间
以上内容来自hlib.cc。更多中文H小说尽在hlib.cc。
有任何想法和建议都可以在评论区或者私信提