cpp/8.8.1/cb__explore__adf__greedy_8cc_source.html

 #include "cb_explore_adf_greedy.h"
 #include "reductions.h"
 #include "cb_adf.h"
 #include "rand48.h"
 #include "bs.h"
 #include "gen_cs_example.h"
 #include "cb_explore.h"
 #include "explore.h"
 #include <vector>
 #include <algorithm>
 #include <cmath>
 #include <functional>

 namespace VW
 {
 namespace cb_explore_adf
 {
 namespace greedy
 {
 struct cb_explore_adf_greedy
 {
  private:
   float _epsilon;
   bool _first_only;

  public:
   cb_explore_adf_greedy(float epsilon, bool first_only);
   ~cb_explore_adf_greedy() = default;

   // Should be called through cb_explore_adf_base for pre/post-processing
   void predict(LEARNER::multi_learner& base, multi_ex& examples) { predict_or_learn_impl<false>(base, examples); }
   void learn(LEARNER::multi_learner& base, multi_ex& examples) { predict_or_learn_impl<true>(base, examples); }

  private:
   template <bool is_learn>
   void predict_or_learn_impl(LEARNER::multi_learner& base, multi_ex& examples);
 };

 cb_explore_adf_greedy::cb_explore_adf_greedy(float epsilon, bool first_only)
     : _epsilon(epsilon), _first_only(first_only)
 {
 }

 template <bool is_learn>
 void cb_explore_adf_greedy::predict_or_learn_impl(LEARNER::multi_learner& base, multi_ex& examples)
 {
   // Explore uniform random an epsilon fraction of the time.
   LEARNER::multiline_learn_or_predict<is_learn>(base, examples, examples[0]->ft_offset);

   ACTION_SCORE::action_scores& preds = examples[0]->pred.a_s;

   uint32_t num_actions = (uint32_t)preds.size();

   size_t tied_actions = fill_tied(preds);

   const float prob = _epsilon / num_actions;
   for (size_t i = 0; i < num_actions; i++) preds[i].score = prob;
   if (!_first_only)
   {
     for (size_t i = 0; i < tied_actions; ++i) preds[i].score += (1.f - _epsilon) / tied_actions;
   }
   else
     preds[0].score += 1.f - _epsilon;
 }

 LEARNER::base_learner* setup(VW::config::options_i& options, vw& all)
 {
   using config::make_option;
   bool cb_explore_adf_option = false;
   float epsilon = 0.;
   bool first_only = false;

   config::option_group_definition new_options("Contextual Bandit Exploration with Action Dependent Features");
   new_options
       .add(make_option("cb_explore_adf", cb_explore_adf_option)
                .keep()
                .help("Online explore-exploit for a contextual bandit problem with multiline action dependent features"))
       .add(make_option("epsilon", epsilon).keep().help("epsilon-greedy exploration"))
       .add(make_option("first_only", first_only).keep().help("Only explore the first action in a tie-breaking event"));
   options.add_and_parse(new_options);

   // NOTE: epsilon-greedy is the default explore type. This basically runs if none of the other explore strategies are
   // used
   bool use_greedy = !(options.was_supplied("first") || options.was_supplied("bag") || options.was_supplied("cover") ||
       options.was_supplied("regcb") || options.was_supplied("regcbopt") || options.was_supplied("softmax"));

   if (!cb_explore_adf_option || !use_greedy)
     return nullptr;

   // Ensure serialization of cb_adf in all cases.
   if (!options.was_supplied("cb_adf"))
   {
     options.insert("cb_adf", "");
   }

   all.delete_prediction = ACTION_SCORE::delete_action_scores;

   size_t problem_multiplier = 1;

   if (!options.was_supplied("epsilon"))
     epsilon = 0.05f;

   LEARNER::multi_learner* base = as_multiline(setup_base(options, all));
   all.p->lp = CB::cb_label;
   all.label_type = label_type::cb;

   using explore_type = cb_explore_adf_base<cb_explore_adf_greedy>;
   auto data = scoped_calloc_or_throw<explore_type>(epsilon, first_only);

   LEARNER::learner<explore_type, multi_ex>& l = LEARNER::init_learner(
       data, base, explore_type::learn, explore_type::predict, problem_multiplier, prediction_type::action_probs);

   l.set_finish_example(explore_type::finish_multiline_example);
   return make_base(l);
 }

 }  // namespace greedy
 }  // namespace cb_explore_adf
 }  // namespace VW
VW::cb_explore_adf::greedy::cb_explore_adf_greedy::predict_or_learn_impl
void predict_or_learn_impl(LEARNER::multi_learner &base, multi_ex &examples)
Definition: cb_explore_adf_greedy.cc:45

VW::cb_explore_adf::greedy::setup
LEARNER::base_learner * setup(VW::config::options_i &options, vw &all)
Definition: cb_explore_adf_greedy.cc:66

vw::delete_prediction
void(* delete_prediction)(void *)
Definition: global_data.h:485

explore.h

finish_multiline_example
void finish_multiline_example(vw &all, cbify &, multi_ex &ec_seq)
Definition: cbify.cc:373

vw::label_type
label_type::label_type_t label_type
Definition: global_data.h:550

VW::cb_explore_adf::greedy::cb_explore_adf_greedy::_epsilon
float _epsilon
Definition: cb_explore_adf_greedy.cc:23

LEARNER::make_base
base_learner * make_base(learner< T, E > &base)
Definition: learner.h:462

VW::config::option_group_definition
Definition: options.h:85

VW::config::options_i::add_and_parse
virtual void add_and_parse(const option_group_definition &group)=0

prediction_type::prob
Definition: learner.h:26

LEARNER::learner
Definition: cb_explore.h:11

v_array::size
size_t size() const
Definition: v_array.h:68

vw
Definition: global_data.h:369

vw::p
parser * p
Definition: global_data.h:377

cb_explore_adf_greedy.h

VW::cb_explore_adf::fill_tied
size_t fill_tied(v_array< ACTION_SCORE::action_score > &preds)
Definition: cb_explore_adf_common.h:48

LEARNER::init_learner
learner< T, E > & init_learner(free_ptr< T > &dat, L *base, void(*learn)(T &, L &, E &), void(*predict)(T &, L &, E &), size_t ws, prediction_type::prediction_type_t pred_type)
Definition: learner.h:369

ACTION_SCORE::delete_action_scores
void delete_action_scores(void *v)
Definition: action_score.cc:29

VW::config::options_i::was_supplied
virtual bool was_supplied(const std::string &key)=0

VW::config::options_i
Definition: options.h:107

rand48.h

VW::cb_explore_adf::greedy::cb_explore_adf_greedy::predict
void predict(LEARNER::multi_learner &base, multi_ex &examples)
Definition: cb_explore_adf_greedy.cc:31

reductions.h

cb_explore.h

VW::cb_explore_adf::greedy::cb_explore_adf_greedy::~cb_explore_adf_greedy
~cb_explore_adf_greedy()=default

VW::config::options_i::insert
virtual void insert(const std::string &key, const std::string &value)=0

VW::config::option_group_definition::add
option_group_definition & add(T &&op)
Definition: options.h:90

cb_adf.h

VW::cb_explore_adf::greedy::cb_explore_adf_greedy
Definition: cb_explore_adf_greedy.cc:20

multi_ex
std::vector< example * > multi_ex
Definition: example.h:122

CB::cb_label
label_parser cb_label
Definition: cb.cc:167

VW::cb_explore_adf::greedy::cb_explore_adf_greedy::cb_explore_adf_greedy
cb_explore_adf_greedy(float epsilon, bool first_only)
Definition: cb_explore_adf_greedy.cc:39

VW::config::make_option
typed_option< T > make_option(std::string name, T &location)
Definition: options.h:80

prediction_type::action_probs
Definition: learner.h:23

VW::cb_explore_adf::cb_explore_adf_base
Definition: cb_explore_adf_common.h:64

VW
Definition: autolink.cc:11

VW::cb_explore_adf::greedy::cb_explore_adf_greedy::learn
void learn(LEARNER::multi_learner &base, multi_ex &examples)
Definition: cb_explore_adf_greedy.cc:32

setup_base
LEARNER::base_learner * setup_base(options_i &options, vw &all)
Definition: parse_args.cc:1222

label_type::cb
Definition: global_data.h:346

predict
void predict(bfgs &b, base_learner &, example &ec)
Definition: bfgs.cc:956

bs.h

VW::cb_explore_adf::greedy::cb_explore_adf_greedy::_first_only
bool _first_only
Definition: cb_explore_adf_greedy.cc:24

learn
void learn(bfgs &b, base_learner &base, example &ec)
Definition: bfgs.cc:965

v_array< action_score >

gen_cs_example.h

f
float f
Definition: cache.cc:40

LEARNER::as_multiline
multi_learner * as_multiline(learner< T, E > *l)
Definition: learner.h:468

parser::lp
label_parser lp
Definition: parser.h:102