読者です 読者をやめる 読者になる 読者になる

Okapi BM25をスパース行列のまま計算するPythonライブラリを作った

情報検索で使われる単語の重み付け方法のひとつにOkapi BM25というものがあります。文献によって細かな違いはありますが,今回は Wikipediaに載ってるやつ を使うことにします。 それぞれの文書におけるそれぞれの語の重みを表す行列を計算するクラスを作り…

scikit-learnで単語文書行列を作る方法の比較

目的 テキストデータから特徴ベクトルを作って何かやろうと思ったときに,私の場合は何も考えずに単語文書行列を作ってナイーブベイズのようなベースライン的な手法を試すところからはじめます。単語文書行列というのは以下のページに載っているような行列で…

normalizeNumexpインストールメモ

本家 http://www.cl.ecei.tohoku.ac.jp/~katsuma/software/normalizeNumexp/ 本家 http://www.cl.ecei.tohoku.ac.jp/index.php?Open%20Resources%2FnormalizeNumexp GitHub https://github.com/nullnull/normalizeNumexp 性能 NAISTテキストコーパスで適合率…