文学计算
GitHub: https://github.com/example/wenxue-jisuan(占位)
一些业余玩性质的中文文学分析脚本:
已经实现的#
- 句长分布 —— 一段中文文本,画出句子长度的直方图
- 字频统计 —— 找出某作家用得最多/最少的字
- 段落 cohesion —— 段间连接词检测
- TF-IDF 词汇画像 —— 比较两个作家的"标志性"用词
想做但没做的#
- 韵律分析(古诗词的平仄、押韵)
- 风格转移检测(一个文本是否像某个作家写的)
- 长篇小说的"情绪曲线"
用什么#
Python + jieba 分词。可视化用 matplotlib(够用,丑)。
代码风格遵循 功能的成本 那一套:每个 script 不超过 200 行,没有 framework。
评论
评论审核后显示。不收邮箱,不存 IP。