序章

三年前我启动了一个项目,名叫CLANNAD_LSTM,计划使用LSTM续写CLANNAD剧本。

当时刚上完研一下学期的CV及NLP相关课程,相比于研一上学期倾向于数学推理教学人工智能,我更喜欢研一下学期在工程实践中学习人工智能相关技术。由于疫情原因,研一下学期可以晚上加班+录课,早上补课,半夜再写作业,忙得不亦乐乎。当然之前的学校回忆再开一篇也来得及,总之是非常充实,甚至充实到开多线程都难以应付的学校+社畜生活。

选择续写CLANNAD的原因是我高中入坑二次元,半夜用学习机看动画和轻小说。其中就有CLANNAD的完整剧本,当然超长的文字只能跳着看,也就代表剧本中对话语料非常充足。此外,剧本各个角色和对话使用”【】“进行标识,比如【朋也】、【渚】、【琴美】、【杏】等角色。但也有一些对话,角色没有被圈起来,这就需要提前建立角色库,如果角色名称位于句子前面,名称后带有”「“字符,则同样认为是该角色所说的话。

计划

微调大模型也是本年度技能提升的计划之一,是时候重新填三年前的坑了。

使用**Chinese-LLaMA-Alpaca-2**预训练模型作为backbone,使用数据清洗后的CLANNAD剧本微调大模型,达到扮演CLANNAD任意角色A能够和角色B进行对话的目标。

当大模型微调结束后,可能会起一个服务开放使用。由于南山必胜客收购了CLANNAD的公司,还是仅供学习研究使用为好。