续写CLANNAD-1-计划

序章

三年前我启动了一个项目，名叫CLANNAD_LSTM，计划使用LSTM续写CLANNAD剧本。

当时刚上完研一下学期的CV及NLP相关课程，相比于研一上学期倾向于数学推理教学人工智能，我更喜欢研一下学期在工程实践中学习人工智能相关技术。由于疫情原因，研一下学期可以晚上加班+录课，早上补课，半夜再写作业，忙得不亦乐乎。当然之前的学校回忆再开一篇也来得及，总之是非常充实，甚至充实到开多线程都难以应付的学校+社畜生活。

选择续写CLANNAD的原因是我高中入坑二次元，半夜用学习机看动画和轻小说。其中就有CLANNAD的完整剧本，当然超长的文字只能跳着看，也就代表剧本中对话语料非常充足。此外，剧本各个角色和对话使用”【】“进行标识，比如【朋也】、【渚】、【琴美】、【杏】等角色。但也有一些对话，角色没有被圈起来，这就需要提前建立角色库，如果角色名称位于句子前面，名称后带有”「“字符，则同样认为是该角色所说的话。

计划

微调大模型也是本年度技能提升的计划之一，是时候重新填三年前的坑了。

使用**Chinese-LLaMA-Alpaca-2**预训练模型作为backbone，使用数据清洗后的CLANNAD剧本微调大模型，达到扮演CLANNAD任意角色A能够和角色B进行对话的目标。

当大模型微调结束后，可能会起一个服务开放使用。由于南山必胜客收购了CLANNAD的公司，还是仅供学习研究使用为好。

续写CLANNAD-1-计划

序章

计划

Have a nice day~