cpp/8.8.1/cb__explore_8cc_source.html

 #include "reductions.h"
 #include "cb_algs.h"
 #include "rand48.h"
 #include "bs.h"
 #include "gen_cs_example.h"
 #include "explore.h"
 #include <memory>

 using namespace LEARNER;
 using namespace ACTION_SCORE;
 using namespace GEN_CS;
 using namespace CB_ALGS;
 using namespace exploration;
 using namespace VW::config;
 // All exploration algorithms return a vector of probabilities, to be used by GenericExplorer downstream

 namespace CB_EXPLORE
 {
 struct cb_explore
 {
   std::shared_ptr<rand_state> _random_state;
   cb_to_cs cbcs;
   v_array<uint32_t> preds;
   v_array<float> cover_probs;

   CB::label cb_label;
   COST_SENSITIVE::label cs_label;
   COST_SENSITIVE::label second_cs_label;

   learner<cb_explore, example>* cs;

   size_t tau;
   float epsilon;
   size_t bag_size;
   size_t cover_size;
   float psi;

   size_t counter;

   ~cb_explore()
   {
     preds.delete_v();
     cover_probs.delete_v();
     COST_SENSITIVE::cs_label.delete_label(&cbcs.pred_scores);
     COST_SENSITIVE::cs_label.delete_label(&cs_label);
     COST_SENSITIVE::cs_label.delete_label(&second_cs_label);
   }
 };

 template <bool is_learn>
 void predict_or_learn_first(cb_explore& data, single_learner& base, example& ec)
 {
   // Explore tau times, then act according to optimal.
   action_scores probs = ec.pred.a_s;

   if (is_learn && ec.l.cb.costs[0].probability < 1)
     base.learn(ec);
   else
     base.predict(ec);

   probs.clear();
   if (data.tau > 0)
   {
     float prob = 1.f / (float)data.cbcs.num_actions;
     for (uint32_t i = 0; i < data.cbcs.num_actions; i++) probs.push_back({i, prob});
     data.tau--;
   }
   else
   {
     uint32_t chosen = ec.pred.multiclass - 1;
     for (uint32_t i = 0; i < data.cbcs.num_actions; i++) probs.push_back({i, 0.});
     probs[chosen].score = 1.0;
   }

   ec.pred.a_s = probs;
 }

 template <bool is_learn>
 void predict_or_learn_greedy(cb_explore& data, single_learner& base, example& ec)
 {
   // Explore uniform random an epsilon fraction of the time.
   // TODO: pointers are copied here. What happens if base.learn/base.predict re-allocs?
   // ec.pred.a_s = probs; will restore the than free'd memory
   action_scores probs = ec.pred.a_s;
   probs.clear();

   if (is_learn)
     base.learn(ec);
   else
     base.predict(ec);

   // pre-allocate pdf
   probs.resize(data.cbcs.num_actions);
   for (uint32_t i = 0; i < data.cbcs.num_actions; i++) probs.push_back({i, 0});
   generate_epsilon_greedy(data.epsilon, ec.pred.multiclass - 1, begin_scores(probs), end_scores(probs));

   ec.pred.a_s = probs;
 }

 template <bool is_learn>
 void predict_or_learn_bag(cb_explore& data, single_learner& base, example& ec)
 {
   // Randomize over predictions from a base set of predictors
   action_scores probs = ec.pred.a_s;
   probs.clear();

   for (uint32_t i = 0; i < data.cbcs.num_actions; i++) probs.push_back({i, 0.});
   float prob = 1.f / (float)data.bag_size;
   for (size_t i = 0; i < data.bag_size; i++)
   {
     uint32_t count = BS::weight_gen(data._random_state);
     if (is_learn && count > 0)
       base.learn(ec, i);
     else
       base.predict(ec, i);
     uint32_t chosen = ec.pred.multiclass - 1;
     probs[chosen].score += prob;
     if (is_learn)
       for (uint32_t j = 1; j < count; j++) base.learn(ec, i);
   }

   ec.pred.a_s = probs;
 }

 void get_cover_probabilities(cb_explore& data, single_learner& /* base */, example& ec, v_array<action_score>& probs)
 {
   float additive_probability = 1.f / (float)data.cover_size;
   data.preds.clear();

   for (uint32_t i = 0; i < data.cbcs.num_actions; i++) probs.push_back({i, 0.});

   for (size_t i = 0; i < data.cover_size; i++)
   {
     // get predicted cost-sensitive predictions
     if (i == 0)
       data.cs->predict(ec, i);
     else
       data.cs->predict(ec, i + 1);
     uint32_t pred = ec.pred.multiclass;
     probs[pred - 1].score += additive_probability;
     data.preds.push_back((uint32_t)pred);
   }
   uint32_t num_actions = data.cbcs.num_actions;

   float min_prob = std::min(1.f / num_actions, 1.f / (float)std::sqrt(data.counter * num_actions));

   enforce_minimum_probability(min_prob * num_actions, false, begin_scores(probs), end_scores(probs));

   data.counter++;
 }

 template <bool is_learn>
 void predict_or_learn_cover(cb_explore& data, single_learner& base, example& ec)
 {
   // Randomize over predictions from a base set of predictors
   // Use cost sensitive oracle to cover actions to form distribution.

   uint32_t num_actions = data.cbcs.num_actions;

   action_scores probs = ec.pred.a_s;
   probs.clear();
   data.cs_label.costs.clear();

   for (uint32_t j = 0; j < num_actions; j++) data.cs_label.costs.push_back({FLT_MAX, j + 1, 0., 0.});

   size_t cover_size = data.cover_size;
   size_t counter = data.counter;
   v_array<float>& probabilities = data.cover_probs;
   v_array<uint32_t>& predictions = data.preds;

   float additive_probability = 1.f / (float)cover_size;

   float min_prob = std::min(1.f / num_actions, 1.f / (float)std::sqrt(counter * num_actions));

   data.cb_label = ec.l.cb;

   ec.l.cs = data.cs_label;
   get_cover_probabilities(data, base, ec, probs);

   if (is_learn)
   {
     ec.l.cb = data.cb_label;
     base.learn(ec);

     // Now update oracles

     // 1. Compute loss vector
     data.cs_label.costs.clear();
     float norm = min_prob * num_actions;
     ec.l.cb = data.cb_label;
     data.cbcs.known_cost = get_observed_cost(data.cb_label);
     gen_cs_example<false>(data.cbcs, ec, data.cb_label, data.cs_label);
     for (uint32_t i = 0; i < num_actions; i++) probabilities[i] = 0;

     ec.l.cs = data.second_cs_label;
     // 2. Update functions
     for (size_t i = 0; i < cover_size; i++)
     {
       // Create costs of each action based on online cover
       for (uint32_t j = 0; j < num_actions; j++)
       {
         float pseudo_cost =
             data.cs_label.costs[j].x - data.psi * min_prob / (std::max(probabilities[j], min_prob) / norm) + 1;
         data.second_cs_label.costs[j].class_index = j + 1;
         data.second_cs_label.costs[j].x = pseudo_cost;
       }
       if (i != 0)
         data.cs->learn(ec, i + 1);
       if (probabilities[predictions[i] - 1] < min_prob)
         norm += std::max(0.f, additive_probability - (min_prob - probabilities[predictions[i] - 1]));
       else
         norm += additive_probability;
       probabilities[predictions[i] - 1] += additive_probability;
     }
   }

   ec.l.cb = data.cb_label;
   ec.pred.a_s = probs;
 }

 void print_update_cb_explore(vw& all, bool is_test, example& ec, std::stringstream& pred_string)
 {
   if (all.sd->weighted_examples() >= all.sd->dump_interval && !all.quiet && !all.bfgs)
   {
     std::stringstream label_string;
     if (is_test)
       label_string << " unknown";
     else
       label_string << ec.l.cb.costs[0].action;
     all.sd->print_update(all.holdout_set_off, all.current_pass, label_string.str(), pred_string.str(), ec.num_features,
         all.progress_add, all.progress_arg);
   }
 }

 void output_example(vw& all, cb_explore& data, example& ec, CB::label& ld)
 {
   float loss = 0.;

   cb_to_cs& c = data.cbcs;

   if ((c.known_cost = get_observed_cost(ld)) != nullptr)
     for (uint32_t i = 0; i < ec.pred.a_s.size(); i++)
       loss += get_cost_estimate(c.known_cost, c.pred_scores, i + 1) * ec.pred.a_s[i].score;

   all.sd->update(ec.test_only, get_observed_cost(ld) != nullptr, loss, 1.f, ec.num_features);

   std::stringstream ss;
   float maxprob = 0.;
   uint32_t maxid = 0;
   for (uint32_t i = 0; i < ec.pred.a_s.size(); i++)
   {
     ss << std::fixed << ec.pred.a_s[i].score << " ";
     if (ec.pred.a_s[i].score > maxprob)
     {
       maxprob = ec.pred.a_s[i].score;
       maxid = i + 1;
     }
   }
   for (int sink : all.final_prediction_sink) all.print_text(sink, ss.str(), ec.tag);

   std::stringstream sso;
   sso << maxid << ":" << std::fixed << maxprob;
   print_update_cb_explore(all, CB::cb_label.test_label(&ld), ec, sso);
 }

 void finish_example(vw& all, cb_explore& c, example& ec)
 {
   output_example(all, c, ec, ec.l.cb);
   VW::finish_example(all, ec);
 }
 }  // namespace CB_EXPLORE
 using namespace CB_EXPLORE;

 base_learner* cb_explore_setup(options_i& options, vw& all)
 {
   auto data = scoped_calloc_or_throw<cb_explore>();
   option_group_definition new_options("Contextual Bandit Exploration");
   new_options
       .add(make_option("cb_explore", data->cbcs.num_actions)
                .keep()
                .help("Online explore-exploit for a <k> action contextual bandit problem"))
       .add(make_option("first", data->tau).keep().help("tau-first exploration"))
       .add(make_option("epsilon", data->epsilon).keep().default_value(0.05f).help("epsilon-greedy exploration"))
       .add(make_option("bag", data->bag_size).keep().help("bagging-based exploration"))
       .add(make_option("cover", data->cover_size).keep().help("Online cover based exploration"))
       .add(make_option("psi", data->psi).keep().default_value(1.0f).help("disagreement parameter for cover"));
   options.add_and_parse(new_options);

   if (!options.was_supplied("cb_explore"))
     return nullptr;

   data->_random_state = all.get_random_state();
   uint32_t num_actions = data->cbcs.num_actions;

   if (!options.was_supplied("cb"))
   {
     std::stringstream ss;
     ss << data->cbcs.num_actions;
     options.insert("cb", ss.str());
   }

   all.delete_prediction = delete_action_scores;
   data->cbcs.cb_type = CB_TYPE_DR;

   single_learner* base = as_singleline(setup_base(options, all));
   data->cbcs.scorer = all.scorer;

   learner<cb_explore, example>* l;
   if (options.was_supplied("cover"))
   {
     data->cs = (learner<cb_explore, example>*)(as_singleline(all.cost_sensitive));
     data->second_cs_label.costs.resize(num_actions);
     data->second_cs_label.costs.end() = data->second_cs_label.costs.begin() + num_actions;
     data->cover_probs = v_init<float>();
     data->cover_probs.resize(num_actions);
     data->preds = v_init<uint32_t>();
     data->preds.resize(data->cover_size);
     l = &init_learner(data, base, predict_or_learn_cover<true>, predict_or_learn_cover<false>, data->cover_size + 1,
         prediction_type::action_probs);
   }
   else if (options.was_supplied("bag"))
     l = &init_learner(data, base, predict_or_learn_bag<true>, predict_or_learn_bag<false>, data->bag_size,
         prediction_type::action_probs);
   else if (options.was_supplied("first"))
     l = &init_learner(
         data, base, predict_or_learn_first<true>, predict_or_learn_first<false>, 1, prediction_type::action_probs);
   else  // greedy
     l = &init_learner(
         data, base, predict_or_learn_greedy<true>, predict_or_learn_greedy<false>, 1, prediction_type::action_probs);

   l->set_finish_example(finish_example);
   return make_base(*l);
 }
v_array::resize
void resize(size_t length)
Definition: v_array.h:69

example::tag
v_array< char > tag
Definition: example.h:63

polyprediction::multiclass
uint32_t multiclass
Definition: example.h:49

polyprediction::a_s
ACTION_SCORE::action_scores a_s
Definition: example.h:47

GEN_CS::cb_to_cs::pred_scores
COST_SENSITIVE::label pred_scores
Definition: gen_cs_example.h:20

LEARNER::learner::predict
void predict(E &ec, size_t i=0)
Definition: learner.h:169

BS::weight_gen
uint32_t weight_gen(std::shared_ptr< rand_state > &state)
Definition: bs.h:17

vw::cost_sensitive
LEARNER::base_learner * cost_sensitive
Definition: global_data.h:385

CB_EXPLORE::cb_explore::cbcs
cb_to_cs cbcs
Definition: cb_explore.cc:22

vw::delete_prediction
void(* delete_prediction)(void *)
Definition: global_data.h:485

exploration
Definition: explore.h:9

COST_SENSITIVE::cs_label
label_parser cs_label
Definition: cost_sensitive.cc:187

label_parser::delete_label
void(* delete_label)(void *)
Definition: label_parser.h:16

explore.h

CB_EXPLORE::cb_explore::second_cs_label
COST_SENSITIVE::label second_cs_label
Definition: cb_explore.cc:28

CB_EXPLORE::cb_explore::cs_label
COST_SENSITIVE::label cs_label
Definition: cb_explore.cc:27

polylabel::cb
CB::label cb
Definition: example.h:31

CB_EXPLORE::predict_or_learn_greedy
void predict_or_learn_greedy(cb_explore &data, single_learner &base, example &ec)
Definition: cb_explore.cc:79

GEN_CS
Definition: gen_cs_example.cc:13

CB_EXPLORE::cb_explore::epsilon
float epsilon
Definition: cb_explore.cc:33

vw::final_prediction_sink
v_array< int > final_prediction_sink
Definition: global_data.h:518

CB::label::costs
v_array< cb_class > costs
Definition: cb.h:27

LEARNER::make_base
base_learner * make_base(learner< T, E > &base)
Definition: learner.h:462

VW::config::option_group_definition
Definition: options.h:85

vw::quiet
bool quiet
Definition: global_data.h:487

VW::config::options_i::add_and_parse
virtual void add_and_parse(const option_group_definition &group)=0

loss
float loss(cbify &data, uint32_t label, uint32_t final_prediction)
Definition: cbify.cc:60

CB_EXPLORE
Definition: cb_explore.cc:17

prediction_type::prob
Definition: learner.h:26

CB_ALGS::get_cost_estimate
float get_cost_estimate(CB::cb_class *observation, uint32_t action, float offset=0.)
Definition: cb_algs.h:58

vw::holdout_set_off
bool holdout_set_off
Definition: global_data.h:499

CB_EXPLORE::print_update_cb_explore
void print_update_cb_explore(vw &all, bool is_test, example &ec, std::stringstream &pred_string)
Definition: cb_explore.cc:221

COST_SENSITIVE::label
Definition: cost_sensitive.h:29

LEARNER::learner
Definition: cb_explore.h:11

vw::progress_add
bool progress_add
Definition: global_data.h:545

CB_TYPE_DR
#define CB_TYPE_DR
Definition: cb_algs.h:13

v_array::size
size_t size() const
Definition: v_array.h:68

ACTION_SCORE::begin_scores
score_iterator begin_scores(action_scores &a_s)
Definition: action_score.h:43

vw
Definition: global_data.h:369

CB_EXPLORE::cb_explore::bag_size
size_t bag_size
Definition: cb_explore.cc:34

CB_ADF::get_observed_cost
CB::cb_class get_observed_cost(multi_ex &examples)
Definition: cb_adf.cc:99

vw::get_random_state
std::shared_ptr< rand_state > get_random_state()
Definition: global_data.h:553

CB_EXPLORE::cb_explore::cb_label
CB::label cb_label
Definition: cb_explore.cc:26

ACTION_SCORE::end_scores
score_iterator end_scores(action_scores &a_s)
Definition: action_score.h:45

exploration::generate_epsilon_greedy
int generate_epsilon_greedy(float epsilon, uint32_t top_action, It pdf_first, It pdf_last)
Generates epsilon-greedy style exploration distribution.
Definition: explore_internal.h:61

LEARNER::as_singleline
single_learner * as_singleline(learner< T, E > *l)
Definition: learner.h:476

cb_explore_setup
base_learner * cb_explore_setup(options_i &options, vw &all)
Definition: cb_explore.cc:274

GEN_CS::cb_to_cs::known_cost
CB::cb_class * known_cost
Definition: gen_cs_example.h:27

CB_EXPLORE::cb_explore::psi
float psi
Definition: cb_explore.cc:36

LEARNER::learner::set_finish_example
void set_finish_example(void(*f)(vw &all, T &, E &))
Definition: learner.h:307

LEARNER::init_learner
learner< T, E > & init_learner(free_ptr< T > &dat, L *base, void(*learn)(T &, L &, E &), void(*predict)(T &, L &, E &), size_t ws, prediction_type::prediction_type_t pred_type)
Definition: learner.h:369

ACTION_SCORE::delete_action_scores
void delete_action_scores(void *v)
Definition: action_score.cc:29

v_array::push_back
void push_back(const T &new_ele)
Definition: v_array.h:107

polylabel::cs
COST_SENSITIVE::label cs
Definition: example.h:30

vw::sd
shared_data * sd
Definition: global_data.h:375

vw::progress_arg
float progress_arg
Definition: global_data.h:546

v_array::clear
void clear()
Definition: v_array.h:88

CB_EXPLORE::cb_explore::_random_state
std::shared_ptr< rand_state > _random_state
Definition: cb_explore.cc:21

shared_data::print_update
void print_update(bool holdout_set_off, size_t current_pass, float label, float prediction, size_t num_features, bool progress_add, float progress_arg)
Definition: global_data.h:225

vw::bfgs
bool bfgs
Definition: global_data.h:412

CB_EXPLORE::cb_explore::tau
size_t tau
Definition: cb_explore.cc:32

example::num_features
size_t num_features
Definition: example.h:67

VW::config::options_i::was_supplied
virtual bool was_supplied(const std::string &key)=0

CB_ALGS
Definition: cb_algs.cc:19

CB_EXPLORE::predict_or_learn_cover
void predict_or_learn_cover(cb_explore &data, single_learner &base, example &ec)
Definition: cb_explore.cc:153

GEN_CS::cb_to_cs::num_actions
uint32_t num_actions
Definition: gen_cs_example.h:19

VW::config::options_i
Definition: options.h:107

rand48.h

GEN_CS::cb_to_cs
Definition: gen_cs_example.h:16

example
Definition: example.h:54

vw::print_text
void(* print_text)(int, std::string, v_array< char >)
Definition: global_data.h:522

CB_EXPLORE::cb_explore::cs
learner< cb_explore, example > * cs
Definition: cb_explore.cc:30

exploration::enforce_minimum_probability
int enforce_minimum_probability(float minimum_uniform, bool update_zero_elements, It pdf_first, It pdf_last)
Updates the pdf to ensure each action is explored with at least minimum_uniform/num_actions.
Definition: explore_internal.h:226

vw::current_pass
uint64_t current_pass
Definition: global_data.h:396

CB_EXPLORE::output_example
void output_example(vw &all, cb_explore &data, example &ec, CB::label &ld)
Definition: cb_explore.cc:235

CB_EXPLORE::cb_explore::cover_probs
v_array< float > cover_probs
Definition: cb_explore.cc:24

VW::finish_example
void finish_example(vw &, example &)
Definition: parser.cc:881

reductions.h

vw::scorer
LEARNER::single_learner * scorer
Definition: global_data.h:384

VW::config::options_i::insert
virtual void insert(const std::string &key, const std::string &value)=0

ACTION_SCORE
Definition: action_score.cc:6

CB_EXPLORE::cb_explore
Definition: cb_explore.cc:19

shared_data::update
void update(bool test_example, bool labeled_example, float loss, float weight, size_t num_features)
Definition: global_data.h:190

add
int add(svm_params &params, svm_example *fec)
Definition: kernel_svm.cc:546

CB::cb_label
label_parser cb_label
Definition: cb.cc:167

VW::config
Definition: options.h:11

example::l
polylabel l
Definition: example.h:57

VW::config::make_option
typed_option< T > make_option(std::string name, T &location)
Definition: options.h:80

prediction_type::action_probs
Definition: learner.h:23

CB::label
Definition: cb.h:25

CB_EXPLORE::get_cover_probabilities
void get_cover_probabilities(cb_explore &data, single_learner &, example &ec, v_array< action_score > &probs)
Definition: cb_explore.cc:125

CB_EXPLORE::cb_explore::preds
v_array< uint32_t > preds
Definition: cb_explore.cc:23

test_label
bool test_label(void *v)
Definition: simple_label.cc:70

CB_EXPLORE::cb_explore::counter
size_t counter
Definition: cb_explore.cc:38

setup_base
LEARNER::base_learner * setup_base(options_i &options, vw &all)
Definition: parse_args.cc:1222

example::pred
polyprediction pred
Definition: example.h:60

CB_EXPLORE::predict_or_learn_first
void predict_or_learn_first(cb_explore &data, single_learner &base, example &ec)
Definition: cb_explore.cc:51

bs.h

LEARNER
Definition: cb_explore.h:8

v_array::delete_v
void delete_v()
Definition: v_array.h:98

cb_algs.h

LEARNER::learner::learn
void learn(E &ec, size_t i=0)
Definition: learner.h:160

COST_SENSITIVE::label::costs
v_array< wclass > costs
Definition: cost_sensitive.h:31

v_array< uint32_t >

CB_EXPLORE::finish_example
void finish_example(vw &all, cb_explore &c, example &ec)
Definition: cb_explore.cc:266

shared_data::weighted_examples
double weighted_examples()
Definition: global_data.h:188

shared_data::dump_interval
float dump_interval
Definition: global_data.h:147

gen_cs_example.h

CB_EXPLORE::cb_explore::cover_size
size_t cover_size
Definition: cb_explore.cc:35

CB_EXPLORE::cb_explore::~cb_explore
~cb_explore()
Definition: cb_explore.cc:40

c
constexpr uint64_t c
Definition: rand48.cc:12

CB_EXPLORE::predict_or_learn_bag
void predict_or_learn_bag(cb_explore &data, single_learner &base, example &ec)
Definition: cb_explore.cc:101

f
float f
Definition: cache.cc:40

example::test_only
bool test_only
Definition: example.h:76