残差IDF

ある単語の文書集合中での重要度の指標にIDFというのがある。
ja.wikipedia.org

DFというのは文書集合全体におけるその単語が出現する文書数で、IDFというのはInverse(逆の)DF、要するにたくさんの文章に出現する単語は価値が低く、限られた文章にしか出現しない単語は価値が高い、というものだ。

しかしIDFはけっこう当てにならないケースも多い。「ちゃらんぽらん」みたいな使う人が少ないからDFは少ないけど、とくに大した意味がない単語は、IDF的には価値の高い単語ということになってしまう。


それへの対策として、RIDF(残差IDF)というのがあるらしい。


ある単語の文章集合全体での出現回数がわかればポアゾン分布を利用して文書頻度(DF)を推定することができる。そして、実際の文書頻度と推定頻度との差をとった時に、差が小さければその単語は各文章に平均的に表れていることとになり、単語の価値が低い。逆に、差が大きい場合は単語が特定の文書に偏って出現しているということになり、そのように偏って出現する単語の価値は高い。ということのようだ。