前回 kujira16.hateblo.jp 問題設定 行ったのはHondaらのAISTATS 2014の論文 [1] の中の実験の追試で,報酬が , の正規分布に従うアームと , の正規分布に従うアームがそれぞれ1本ずつあるという設定の多腕バンディット問題です。 原理 最初にパラメータ を …
引用をストックしました
引用するにはまずログインしてください
引用をストックできませんでした。再度お試しください
限定公開記事のため引用できません。