cpp/8.8.1/cb__explore__adf__bag_8cc_source.html

 #include "cb_explore_adf_bag.h"

 #include "cb_explore_adf_common.h"
 #include "reductions.h"
 #include "cb_adf.h"
 #include "rand48.h"
 #include "bs.h"
 #include "gen_cs_example.h"
 #include "cb_explore.h"
 #include "explore.h"
 #include <vector>
 #include <algorithm>
 #include <cmath>

 // All exploration algorithms return a vector of id, probability tuples, sorted in order of scores. The probabilities
 // are the probability with which each action should be replaced to the top of the list.

 namespace VW
 {
 namespace cb_explore_adf
 {
 namespace bag
 {
 struct cb_explore_adf_bag
 {
  private:
   float _epsilon;
   size_t _bag_size;
   bool _greedify;
   bool _first_only;
   std::shared_ptr<rand_state> _random_state;

   v_array<ACTION_SCORE::action_score> _action_probs;
   std::vector<float> _scores;
   std::vector<float> _top_actions;

  public:
   cb_explore_adf_bag(
       float epsilon, size_t bag_size, bool greedify, bool first_only, std::shared_ptr<rand_state> random_state);
   ~cb_explore_adf_bag();

   // Should be called through cb_explore_adf_base for pre/post-processing
   void predict(LEARNER::multi_learner& base, multi_ex& examples) { predict_or_learn_impl<false>(base, examples); }
   void learn(LEARNER::multi_learner& base, multi_ex& examples) { predict_or_learn_impl<true>(base, examples); }

  private:
   template <bool is_learn>
   void predict_or_learn_impl(LEARNER::multi_learner& base, multi_ex& examples);
 };

 cb_explore_adf_bag::cb_explore_adf_bag(
     float epsilon, size_t bag_size, bool greedify, bool first_only, std::shared_ptr<rand_state> random_state)
     : _epsilon(epsilon), _bag_size(bag_size), _greedify(greedify), _first_only(first_only), _random_state(random_state)
 {
 }

 template <bool is_learn>
 void cb_explore_adf_bag::predict_or_learn_impl(LEARNER::multi_learner& base, multi_ex& examples)
 {
   // Randomize over predictions from a base set of predictors
   v_array<ACTION_SCORE::action_score>& preds = examples[0]->pred.a_s;
   uint32_t num_actions = (uint32_t)examples.size();
   if (num_actions == 0)
   {
     preds.clear();
     return;
   }

   _scores.clear();
   for (uint32_t i = 0; i < num_actions; i++) _scores.push_back(0.f);
   _top_actions.assign(num_actions, 0);
   for (uint32_t i = 0; i < _bag_size; i++)
   {
     // avoid updates to the random num generator
     // for greedify, always update first policy once
     uint32_t count = is_learn ? ((_greedify && i == 0) ? 1 : BS::weight_gen(_random_state)) : 0;

     if (is_learn && count > 0)
       LEARNER::multiline_learn_or_predict<true>(base, examples, examples[0]->ft_offset, i);
     else
       LEARNER::multiline_learn_or_predict<false>(base, examples, examples[0]->ft_offset, i);

     assert(preds.size() == num_actions);
     for (auto e : preds) _scores[e.action] += e.score;

     if (!_first_only)
     {
       size_t tied_actions = fill_tied(preds);
       for (size_t i = 0; i < tied_actions; ++i) _top_actions[preds[i].action] += 1.f / tied_actions;
     }
     else
       _top_actions[preds[0].action] += 1.f;
     if (is_learn)
       for (uint32_t j = 1; j < count; j++)
         LEARNER::multiline_learn_or_predict<true>(base, examples, examples[0]->ft_offset, i);
   }

   _action_probs.clear();
   for (uint32_t i = 0; i < _scores.size(); i++) _action_probs.push_back({i, 0.});

   // generate distribution over actions
   exploration::generate_bag(
       begin(_top_actions), end(_top_actions), begin_scores(_action_probs), end_scores(_action_probs));

   exploration::enforce_minimum_probability(_epsilon, true, begin_scores(_action_probs), end_scores(_action_probs));

   sort_action_probs(_action_probs, _scores);

   for (size_t i = 0; i < num_actions; i++) preds[i] = _action_probs[i];
 }

 cb_explore_adf_bag::~cb_explore_adf_bag() { _action_probs.delete_v(); }

 LEARNER::base_learner* setup(VW::config::options_i& options, vw& all)
 {
   using config::make_option;
   bool cb_explore_adf_option = false;
   float epsilon = 0.;
   size_t bag_size = 0;
   bool greedify = false;
   bool first_only = false;
   config::option_group_definition new_options("Contextual Bandit Exploration with Action Dependent Features");
   new_options
       .add(make_option("cb_explore_adf", cb_explore_adf_option)
                .keep()
                .help("Online explore-exploit for a contextual bandit problem with multiline action dependent features"))
       .add(make_option("epsilon", epsilon).keep().help("epsilon-greedy exploration"))
       .add(make_option("bag", bag_size).keep().help("bagging-based exploration"))
       .add(make_option("greedify", greedify).keep().help("always update first policy once in bagging"))
       .add(make_option("first_only", first_only).keep().help("Only explore the first action in a tie-breaking event"));
   options.add_and_parse(new_options);

   if (!cb_explore_adf_option || !options.was_supplied("bag"))
     return nullptr;

   // Ensure serialization of cb_adf in all cases.
   if (!options.was_supplied("cb_adf"))
   {
     options.insert("cb_adf", "");
   }

   all.delete_prediction = ACTION_SCORE::delete_action_scores;

   size_t problem_multiplier = bag_size;
   LEARNER::multi_learner* base = as_multiline(setup_base(options, all));
   all.p->lp = CB::cb_label;
   all.label_type = label_type::cb;

   using explore_type = cb_explore_adf_base<cb_explore_adf_bag>;
   auto data = scoped_calloc_or_throw<explore_type>(epsilon, bag_size, greedify, first_only, all.get_random_state());

   LEARNER::learner<explore_type, multi_ex>& l = LEARNER::init_learner(
       data, base, explore_type::learn, explore_type::predict, problem_multiplier, prediction_type::action_probs);

   l.set_finish_example(explore_type::finish_multiline_example);
   return make_base(l);
 }

 }  // namespace bag
 }  // namespace cb_explore_adf
 }  // namespace VW
exploration::generate_bag
int generate_bag(InputIt top_actions_first, InputIt top_actions_last, OutputIt pdf_first, OutputIt pdf_last)
Generates an exploration distribution according to votes on actions.
Definition: explore_internal.h:149

cb_explore_adf_common.h

BS::weight_gen
uint32_t weight_gen(std::shared_ptr< rand_state > &state)
Definition: bs.h:17

VW::cb_explore_adf::bag::cb_explore_adf_bag::predict_or_learn_impl
void predict_or_learn_impl(LEARNER::multi_learner &base, multi_ex &examples)
Definition: cb_explore_adf_bag.cc:58

vw::delete_prediction
void(* delete_prediction)(void *)
Definition: global_data.h:485

VW::cb_explore_adf::bag::cb_explore_adf_bag
Definition: cb_explore_adf_bag.cc:24

cb_explore_adf_bag.h

explore.h

finish_multiline_example
void finish_multiline_example(vw &all, cbify &, multi_ex &ec_seq)
Definition: cbify.cc:373

VW::cb_explore_adf::bag::cb_explore_adf_bag::predict
void predict(LEARNER::multi_learner &base, multi_ex &examples)
Definition: cb_explore_adf_bag.cc:43

vw::label_type
label_type::label_type_t label_type
Definition: global_data.h:550

VW::cb_explore_adf::bag::cb_explore_adf_bag::cb_explore_adf_bag
cb_explore_adf_bag(float epsilon, size_t bag_size, bool greedify, bool first_only, std::shared_ptr< rand_state > random_state)
Definition: cb_explore_adf_bag.cc:51

LEARNER::make_base
base_learner * make_base(learner< T, E > &base)
Definition: learner.h:462

VW::config::option_group_definition
Definition: options.h:85

action
uint32_t action
Definition: search.h:19

VW::config::options_i::add_and_parse
virtual void add_and_parse(const option_group_definition &group)=0

VW::cb_explore_adf::bag::cb_explore_adf_bag::learn
void learn(LEARNER::multi_learner &base, multi_ex &examples)
Definition: cb_explore_adf_bag.cc:44

LEARNER::learner
Definition: cb_explore.h:11

v_array::size
size_t size() const
Definition: v_array.h:68

ACTION_SCORE::begin_scores
score_iterator begin_scores(action_scores &a_s)
Definition: action_score.h:43

vw
Definition: global_data.h:369

vw::p
parser * p
Definition: global_data.h:377

VW::cb_explore_adf::fill_tied
size_t fill_tied(v_array< ACTION_SCORE::action_score > &preds)
Definition: cb_explore_adf_common.h:48

vw::get_random_state
std::shared_ptr< rand_state > get_random_state()
Definition: global_data.h:553

ACTION_SCORE::end_scores
score_iterator end_scores(action_scores &a_s)
Definition: action_score.h:45

LEARNER::init_learner
learner< T, E > & init_learner(free_ptr< T > &dat, L *base, void(*learn)(T &, L &, E &), void(*predict)(T &, L &, E &), size_t ws, prediction_type::prediction_type_t pred_type)
Definition: learner.h:369

ACTION_SCORE::delete_action_scores
void delete_action_scores(void *v)
Definition: action_score.cc:29

v_array::push_back
void push_back(const T &new_ele)
Definition: v_array.h:107

VW::cb_explore_adf::bag::cb_explore_adf_bag::_first_only
bool _first_only
Definition: cb_explore_adf_bag.cc:30

VW::cb_explore_adf::bag::cb_explore_adf_bag::_scores
std::vector< float > _scores
Definition: cb_explore_adf_bag.cc:34

vw_slim::bag
Definition: vw_slim_predict.h:174

v_array::clear
void clear()
Definition: v_array.h:88

VW::config::options_i::was_supplied
virtual bool was_supplied(const std::string &key)=0

VW::cb_explore_adf::bag::setup
LEARNER::base_learner * setup(VW::config::options_i &options, vw &all)
Definition: cb_explore_adf_bag.cc:114

VW::config::options_i
Definition: options.h:107

rand48.h

exploration::enforce_minimum_probability
int enforce_minimum_probability(float minimum_uniform, bool update_zero_elements, It pdf_first, It pdf_last)
Updates the pdf to ensure each action is explored with at least minimum_uniform/num_actions.
Definition: explore_internal.h:226

VW::cb_explore_adf::bag::cb_explore_adf_bag::_random_state
std::shared_ptr< rand_state > _random_state
Definition: cb_explore_adf_bag.cc:31

reductions.h

cb_explore.h

VW::config::options_i::insert
virtual void insert(const std::string &key, const std::string &value)=0

VW::cb_explore_adf::bag::cb_explore_adf_bag::_top_actions
std::vector< float > _top_actions
Definition: cb_explore_adf_bag.cc:35

VW::config::option_group_definition::add
option_group_definition & add(T &&op)
Definition: options.h:90

cb_adf.h

multi_ex
std::vector< example * > multi_ex
Definition: example.h:122

CB::cb_label
label_parser cb_label
Definition: cb.cc:167

VW::cb_explore_adf::bag::cb_explore_adf_bag::~cb_explore_adf_bag
~cb_explore_adf_bag()
Definition: cb_explore_adf_bag.cc:112

VW::config::make_option
typed_option< T > make_option(std::string name, T &location)
Definition: options.h:80

prediction_type::action_probs
Definition: learner.h:23

VW::cb_explore_adf::cb_explore_adf_base
Definition: cb_explore_adf_common.h:64

VW
Definition: autolink.cc:11

VW::cb_explore_adf::bag::cb_explore_adf_bag::_epsilon
float _epsilon
Definition: cb_explore_adf_bag.cc:27

setup_base
LEARNER::base_learner * setup_base(options_i &options, vw &all)
Definition: parse_args.cc:1222

label_type::cb
Definition: global_data.h:346

predict
void predict(bfgs &b, base_learner &, example &ec)
Definition: bfgs.cc:956

bs.h

v_array::delete_v
void delete_v()
Definition: v_array.h:98

VW::cb_explore_adf::sort_action_probs
void sort_action_probs(v_array< ACTION_SCORE::action_score > &probs, const std::vector< float > &scores)
Definition: cb_explore_adf_common.h:29

VW::cb_explore_adf::bag::cb_explore_adf_bag::_action_probs
v_array< ACTION_SCORE::action_score > _action_probs
Definition: cb_explore_adf_bag.cc:33

learn
void learn(bfgs &b, base_learner &base, example &ec)
Definition: bfgs.cc:965

v_array< ACTION_SCORE::action_score >

gen_cs_example.h

f
float f
Definition: cache.cc:40

VW::cb_explore_adf::bag::cb_explore_adf_bag::_greedify
bool _greedify
Definition: cb_explore_adf_bag.cc:29

LEARNER::as_multiline
multi_learner * as_multiline(learner< T, E > *l)
Definition: learner.h:468

parser::lp
label_parser lp
Definition: parser.h:102

VW::cb_explore_adf::bag::cb_explore_adf_bag::_bag_size
size_t _bag_size
Definition: cb_explore_adf_bag.cc:28