• 训练阶段

    训练阶段

    首先,我们统计所有文本中一共出现了多少个不同的单词,记作“|Vocabulary|”(总词汇表)。

    对于每个单词wk,我们将计算P(wk|hi),每个hi(喜欢和讨厌两种)的计算步骤如下:

    1. 将该分类下的所有文章合并到一起;
    2. 统计每个单词出现的数量,记为n;
    3. 对于总词汇表中的单词wk,统计他们在本类文章中出现的次数nk:
    4. 最后应用下方的公式:

    训练阶段 - 图1