2017-05-01から1ヶ月間の記事一覧

報酬が分散未知の正規分布に従うときのThompson Sampling

前回 kujira16.hateblo.jp 問題設定 行ったのはHondaらのAISTATS 2014の論文 [1] の中の実験の追試で,報酬が , の正規分布に従うアームと , の正規分布に従うアームがそれぞれ1本ずつあるという設定の多腕バンディット問題です。 原理 最初にパラメータ を …

報酬がベルヌーイ分布に従うときのThompson Sampling

報酬がベルヌーイ分布に従うときのThompson Samplingの追試をだいぶ前にやったのですが,あまり受けが良くなかったのでブログで供養をしていきます。 問題設定 Thompson Samplingは多腕バンディット問題に対する方策の1つです。多腕バンディット問題について…