未经授权 · Unauthorized

未经授权 · Unauthorized

notes /

文学计算

2026/04/25 · 1 分钟阅读

#programming #writing #knowledge

GitHub: https://github.com/example/wenxue-jisuan（占位）

一些业余玩性质的中文文学分析脚本：

已经实现的#

句长分布 —— 一段中文文本，画出句子长度的直方图
字频统计 —— 找出某作家用得最多/最少的字
段落 cohesion —— 段间连接词检测
TF-IDF 词汇画像 —— 比较两个作家的"标志性"用词

想做但没做的#

韵律分析（古诗词的平仄、押韵）
风格转移检测（一个文本是否像某个作家写的）
长篇小说的"情绪曲线"

用什么#

Python + jieba 分词。可视化用 matplotlib（够用，丑）。

代码风格遵循功能的成本那一套：每个 script 不超过 200 行，没有 framework。

评论

评论审核后显示。不收邮箱，不存 IP。