自然言語処理

Indeed Machine Learning CodeSprint 2017

www.hackerrank.com 問題 求人の文面が与えられるので,以下のタグを付けるべきかどうかそれぞれのタグについて二値分類してください。 アルバイト フルタイム 時給制 月給制 短大卒対象 大卒対象 修士または博士対象 免許が必要 1年の経験が必要 2〜4年の経…

Okapi BM25をスパース行列のまま計算するPythonライブラリを作った

情報検索で使われる単語の重み付け方法のひとつにOkapi BM25というものがあります。文献によって細かな違いはありますが,今回は Wikipediaに載ってるやつ を使うことにします。 それぞれの文書におけるそれぞれの語の重みを表す行列を計算するクラスを作り…

scikit-learnで単語文書行列を作る方法の比較

目的 テキストデータから特徴ベクトルを作って何かやろうと思ったときに,私の場合は何も考えずに単語文書行列を作ってナイーブベイズのようなベースライン的な手法を試すところからはじめます。単語文書行列というのは以下のページに載っているような行列で…

normalizeNumexpインストールメモ

本家 http://www.cl.ecei.tohoku.ac.jp/~katsuma/software/normalizeNumexp/ 本家 http://www.cl.ecei.tohoku.ac.jp/index.php?Open%20Resources%2FnormalizeNumexp GitHub https://github.com/nullnull/normalizeNumexp 性能 NAISTテキストコーパスで適合率…