Question 1

停用词列表是什么？

Accepted Answer

100+ 个高频英语虚词（冠词、介词、代词、助动词）。当 "the" 出现 200 次不再有信息量时尤其有用。需要原始计数请关闭。

Question 2

Unicode 分词怎么工作？

Accepted Answer

把任意脚本的字母/数字连续段视为一个词——`한글`、`日本語`、`español` 都能正确分词。但停用词列表仅适用英语。

Question 3

为什么 `it's` 算 1 个词？

Accepted Answer

缩略词（`it's`、`don't`、`we're`）按人的书写方式作为单个 token。统计文本分析会拆开；可读性分析则不会。

Question 4

对 SEO 关键词密度有用吗？

Accepted Answer

原始计数有用。但 2026 年关键词密度是较弱的 SEO 信号——现代搜索引擎更看语义相关，而非词频。用于编辑，而非操纵排名。

词频统计

使用方法