续写CLANNAD-2-数据分析

今日工作

这位携程大佬中英双语，还翻译了一堆大模型相关论文，respect。

Huggingface由于某些神奇的力量，无法git clone，因此只能用Colab或是国内能够学术加速的研发平台。（无法用公司内部的机器……十分难受）

部署其实很简单，但硬件要求比较高。根据项目说明中的Colab部署方法，就能快速启动一个Demo。

当然，Colab里面的执行步骤也可以放到其他能够访问Huggingface的研发平台执行。

接下来就是第二步，准备微调数据。

能看到，对话格式虽然简单，但有比较多的种类。

那么第一轮训练，将旁白去掉，只微调对话。毕竟是“对话生成”任务。

因此，对于连续表达的情况，处理时需要观察之后的发言者是否连续发言，同时需要找到“」”符号，以适应连续表达的情况。另外，输入和输出呈A B、B C、C D接续式。数据量将会*2，但预计不会超过2M。

分析剧本数据