cpp/8.8.1/marginal_8cc_source.html

 #include <unordered_map>
 #include "reductions.h"
 #include "correctedMath.h"

 using namespace VW::config;

 namespace MARGINAL
 {
 struct expert
 {
   float regret;
   float abs_regret;
   float weight;
 };

 typedef std::pair<double, double> marginal;
 typedef std::pair<expert, expert> expert_pair;

 struct data
 {
   float initial_numerator;
   float initial_denominator;
   float decay;
   bool update_before_learn;
   bool unweighted_marginals;
   bool id_features[256];
   features temp[256];  // temporary storage when reducing.
   std::unordered_map<uint64_t, marginal> marginals;

   // bookkeeping variables for experts
   bool compete;
   float feature_pred;        // the prediction computed from using all the features
   float average_pred;        // the prediction of the expert
   float net_weight;          // normalizer for expert weights
   float net_feature_weight;  // the net weight on the feature-based expert
   float alg_loss;            // temporary storage for the loss of the current marginal-based predictor
   std::unordered_map<uint64_t, expert_pair>
       expert_state;  // pair of weights on marginal and feature based predictors, one per marginal feature

   vw* all;

   ~data()
   {
     for (size_t i = 0; i < 256; i++) temp[i].delete_v();
   }
 };

 float get_adanormalhedge_weights(float R, float C)
 {
   float Rpos = R > 0 ? R : 0.f;
   if (C == 0. || Rpos == 0.)
     return 0;
   return 2 * Rpos * correctedExp(Rpos * Rpos / (3 * C)) / (3 * C);
 }

 template <bool is_learn>
 void make_marginal(data& sm, example& ec)
 {
   uint64_t mask = sm.all->weights.mask();
   float label = ec.l.simple.label;
   vw& all = *sm.all;
   sm.alg_loss = 0.;
   sm.net_weight = 0.;
   sm.net_feature_weight = 0.;
   sm.average_pred = 0.;

   for (example::iterator i = ec.begin(); i != ec.end(); ++i)
   {
     namespace_index n = i.index();
     if (sm.id_features[n])
     {
       std::swap(sm.temp[n], *i);
       features& f = *i;
       f.clear();
       for (features::iterator j = sm.temp[n].begin(); j != sm.temp[n].end(); ++j)
       {
         float first_value = j.value();
         uint64_t first_index = j.index() & mask;
         if (++j == sm.temp[n].end())
         {
           std::cout << "warning: id feature namespace has " << sm.temp[n].size()
                     << " features. Should be a multiple of 2" << std::endl;
           break;
         }
         float second_value = j.value();
         uint64_t second_index = j.index() & mask;
         if (first_value != 1. || second_value != 1.)
         {
           std::cout << "warning: bad id features, must have value 1." << std::endl;
           continue;
         }
         uint64_t key = second_index + ec.ft_offset;
         if (sm.marginals.find(key) == sm.marginals.end())  // need to initialize things.
         {
           sm.marginals.insert(std::make_pair(key, std::make_pair(sm.initial_numerator, sm.initial_denominator)));
           if (sm.compete)
           {
             expert e = {0, 0, 1.};
             sm.expert_state.insert(std::make_pair(key, std::make_pair(e, e)));
           }
         }
         float marginal_pred = (float)(sm.marginals[key].first / sm.marginals[key].second);
         f.push_back(marginal_pred, first_index);
         if (!sm.temp[n].space_names.empty())
           f.space_names.push_back(sm.temp[n].space_names[2 * (f.size() - 1)]);

         if (sm.compete)  // compute the prediction from the marginals using the weights
         {
           float weight = sm.expert_state[key].first.weight;
           sm.average_pred += weight * marginal_pred;
           sm.net_weight += weight;
           sm.net_feature_weight += sm.expert_state[key].second.weight;
           if (is_learn)
             sm.alg_loss += weight * all.loss->getLoss(all.sd, marginal_pred, label);
         }
       }
     }
   }
 }

 void undo_marginal(data& sm, example& ec)
 {
   for (example::iterator i = ec.begin(); i != ec.end(); ++i)
   {
     namespace_index n = i.index();
     if (sm.id_features[n])
       std::swap(sm.temp[n], *i);
   }
 }

 template <bool is_learn>
 void compute_expert_loss(data& sm, example& ec)
 {
   vw& all = *sm.all;
   // add in the feature-based expert and normalize,
   float label = ec.l.simple.label;

   if (sm.net_weight + sm.net_feature_weight > 0.)
     sm.average_pred += sm.net_feature_weight * sm.feature_pred;
   else
   {
     sm.net_feature_weight = 1.;
     sm.average_pred = sm.feature_pred;
   }
   float inv_weight = 1.0f / (sm.net_weight + sm.net_feature_weight);
   sm.average_pred *= inv_weight;
   ec.pred.scalar = sm.average_pred;
   ec.partial_prediction = sm.average_pred;

   if (is_learn)
   {
     sm.alg_loss += sm.net_feature_weight * all.loss->getLoss(all.sd, sm.feature_pred, label);
     sm.alg_loss *= inv_weight;
   }
 }

 void update_marginal(data& sm, example& ec)
 {
   vw& all = *sm.all;
   uint64_t mask = sm.all->weights.mask();
   float label = ec.l.simple.label;
   float weight = ec.weight;
   if (sm.unweighted_marginals)
     weight = 1.;

   for (example::iterator i = ec.begin(); i != ec.end(); ++i)
   {
     namespace_index n = i.index();
     if (sm.id_features[n])
       for (features::iterator j = sm.temp[n].begin(); j != sm.temp[n].end(); ++j)
       {
         if (++j == sm.temp[n].end())
           break;

         uint64_t second_index = j.index() & mask;
         uint64_t key = second_index + ec.ft_offset;
         marginal& m = sm.marginals[key];

         if (sm.compete)  // now update weights, before updating marginals
         {
           expert_pair& e = sm.expert_state[key];
           float regret1 = sm.alg_loss - all.loss->getLoss(all.sd, (float)(m.first / m.second), label);
           float regret2 = sm.alg_loss - all.loss->getLoss(all.sd, sm.feature_pred, label);

           e.first.regret += regret1 * weight;
           e.first.abs_regret += regret1 * regret1 * weight;  // fabs(regret1);
           e.first.weight = get_adanormalhedge_weights(e.first.regret, e.first.abs_regret);
           e.second.regret += regret2 * weight;
           e.second.abs_regret += regret2 * regret2 * weight;  // fabs(regret2);
           e.second.weight = get_adanormalhedge_weights(e.second.regret, e.second.abs_regret);
         }

         m.first = m.first * (1. - sm.decay) + ec.l.simple.label * weight;
         m.second = m.second * (1. - sm.decay) + weight;
       }
   }
 }

 template <bool is_learn>
 void predict_or_learn(data& sm, LEARNER::single_learner& base, example& ec)
 {
   make_marginal<is_learn>(sm, ec);
   if (is_learn)
     if (sm.update_before_learn)
     {
       base.predict(ec);
       float pred = ec.pred.scalar;
       if (sm.compete)
       {
         sm.feature_pred = pred;
         compute_expert_loss<is_learn>(sm, ec);
       }
       undo_marginal(sm, ec);
       update_marginal(sm, ec);  // update features before learning.
       make_marginal<is_learn>(sm, ec);
       base.learn(ec);
       ec.pred.scalar = pred;
     }
     else
     {
       base.learn(ec);
       if (sm.compete)
       {
         sm.feature_pred = ec.pred.scalar;
         compute_expert_loss<is_learn>(sm, ec);
       }
       update_marginal(sm, ec);
     }
   else
   {
     base.predict(ec);
     float pred = ec.pred.scalar;
     if (sm.compete)
     {
       sm.feature_pred = pred;
       compute_expert_loss<is_learn>(sm, ec);
     }
   }

   // undo marginalization
   undo_marginal(sm, ec);
 }

 void save_load(data& sm, io_buf& io, bool read, bool text)
 {
   uint64_t stride_shift = sm.all->weights.stride_shift();

   if (io.files.size() == 0)
     return;
   std::stringstream msg;
   uint64_t total_size;
   if (!read)
   {
     total_size = (uint64_t)sm.marginals.size();
     msg << "marginals size = " << total_size << "\n";
   }
   bin_text_read_write_fixed_validated(io, (char*)&total_size, sizeof(total_size), "", read, msg, text);

   auto iter = sm.marginals.begin();
   for (size_t i = 0; i < total_size; ++i)
   {
     uint64_t index;
     if (!read)
     {
       index = iter->first >> stride_shift;
       msg << index << ":";
     }
     bin_text_read_write_fixed(io, (char*)&index, sizeof(index), "", read, msg, text);
     double numerator;
     if (!read)
     {
       numerator = iter->second.first;
       msg << numerator << ":";
     }
     bin_text_read_write_fixed(io, (char*)&numerator, sizeof(numerator), "", read, msg, text);
     double denominator;
     if (!read)
     {
       denominator = iter->second.second;
       msg << denominator << "\n";
     }
     bin_text_read_write_fixed(io, (char*)&denominator, sizeof(denominator), "", read, msg, text);
     if (read)
       sm.marginals.insert(std::make_pair(index << stride_shift, std::make_pair(numerator, denominator)));
     else
       ++iter;
   }

   if (sm.compete)
   {
     if (!read)
     {
       total_size = (uint64_t)sm.expert_state.size();
       msg << "expert_state size = " << total_size << "\n";
     }
     bin_text_read_write_fixed_validated(io, (char*)&total_size, sizeof(total_size), "", read, msg, text);

     auto exp_iter = sm.expert_state.begin();
     for (size_t i = 0; i < total_size; ++i)
     {
       uint64_t index;
       if (!read)
       {
         index = exp_iter->first >> stride_shift;
         msg << index << ":";
       }
       bin_text_read_write_fixed(io, (char*)&index, sizeof(index), "", read, msg, text);
       float r1, c1, w1, r2, c2, w2;
       if (!read)
       {
         r1 = exp_iter->second.first.regret;
         c1 = exp_iter->second.first.abs_regret;
         w1 = exp_iter->second.first.weight;
         r2 = exp_iter->second.second.regret;
         c2 = exp_iter->second.second.abs_regret;
         w2 = exp_iter->second.second.weight;
         msg << r1 << ":";
       }
       bin_text_read_write_fixed(io, (char*)&r1, sizeof(r1), "", read, msg, text);
       if (!read)
         msg << c1 << ":";
       bin_text_read_write_fixed(io, (char*)&c1, sizeof(c1), "", read, msg, text);
       if (!read)
         msg << w1 << ":";
       bin_text_read_write_fixed(io, (char*)&w1, sizeof(w1), "", read, msg, text);
       if (!read)
         msg << r2 << ":";
       bin_text_read_write_fixed(io, (char*)&r2, sizeof(r2), "", read, msg, text);
       if (!read)
         msg << c2 << ":";
       bin_text_read_write_fixed(io, (char*)&c2, sizeof(c2), "", read, msg, text);
       if (!read)
         msg << w2 << ":";
       bin_text_read_write_fixed(io, (char*)&w2, sizeof(w2), "", read, msg, text);

       if (read)
       {
         expert e1 = {r1, c1, w1};
         expert e2 = {r2, c2, w2};
         sm.expert_state.insert(std::make_pair(index << stride_shift, std::make_pair(e1, e2)));
       }
       else
         ++exp_iter;
     }
   }
 }
 }  // namespace MARGINAL

 using namespace MARGINAL;

 LEARNER::base_learner* marginal_setup(options_i& options, vw& all)
 {
   free_ptr<MARGINAL::data> d = scoped_calloc_or_throw<MARGINAL::data>();
   std::string marginal;

   option_group_definition marginal_options("VW options");
   marginal_options.add(make_option("marginal", marginal).keep().help("substitute marginal label estimates for ids"));
   marginal_options.add(
       make_option("initial_denominator", d->initial_denominator).default_value(1.f).help("initial denominator"));
   marginal_options.add(
       make_option("initial_numerator", d->initial_numerator).default_value(0.5f).help("initial numerator"));
   marginal_options.add(make_option("compete", d->compete).help("enable competition with marginal features"));
   marginal_options.add(
       make_option("update_before_learn", d->update_before_learn).help("update marginal values before learning"));
   marginal_options.add(make_option("unweighted_marginals", d->unweighted_marginals)
                            .help("ignore importance weights when computing marginals"));
   marginal_options.add(
       make_option("decay", d->decay).default_value(0.f).help("decay multiplier per event (1e-3 for example)"));
   options.add_and_parse(marginal_options);

   if (!options.was_supplied("marginal"))
   {
     return nullptr;
   }

   d->all = &all;

   for (size_t u = 0; u < 256; u++)
     if (marginal.find((char)u) != std::string::npos)
       d->id_features[u] = true;

   LEARNER::learner<MARGINAL::data, example>& ret =
       init_learner(d, as_singleline(setup_base(options, all)), predict_or_learn<true>, predict_or_learn<false>);
   ret.set_save_load(save_load);

   return make_base(ret);
 }
MARGINAL::save_load
void save_load(data &sm, io_buf &io, bool read, bool text)
Definition: marginal.cc:244

correctedExp
#define correctedExp
Definition: correctedMath.h:27

vw::weights
parameters weights
Definition: global_data.h:537

vw::loss
loss_function * loss
Definition: global_data.h:523

features::begin
iterator begin()
Definition: feature_group.h:292

LEARNER::learner::predict
void predict(E &ec, size_t i=0)
Definition: learner.h:169

example_predict::ft_offset
uint64_t ft_offset
Definition: example_predict.h:42

MARGINAL
Definition: marginal.cc:7

stride_shift
uint64_t stride_shift(const stagewise_poly &poly, uint64_t idx)
Definition: stagewise_poly.cc:81

features::push_back
void push_back(feature_value v, feature_index i)
Definition: feature_group.h:336

MARGINAL::data::net_feature_weight
float net_feature_weight
Definition: marginal.cc:35

polyprediction::scalar
float scalar
Definition: example.h:45

MARGINAL::data::unweighted_marginals
bool unweighted_marginals
Definition: marginal.cc:25

MARGINAL::data::initial_denominator
float initial_denominator
Definition: marginal.cc:22

correctedMath.h

MARGINAL::data::marginals
std::unordered_map< uint64_t, marginal > marginals
Definition: marginal.cc:28

features
the core definition of a set of features.
Definition: feature_group.h:241

bin_text_read_write_fixed_validated
size_t bin_text_read_write_fixed_validated(io_buf &io, char *data, size_t len, const char *read_message, bool read, std::stringstream &msg, bool text)
Definition: io_buf.h:335

MARGINAL::data::expert_state
std::unordered_map< uint64_t, expert_pair > expert_state
Definition: marginal.cc:38

LEARNER::make_base
base_learner * make_base(learner< T, E > &base)
Definition: learner.h:462

VW::config::option_group_definition
Definition: options.h:85

example::partial_prediction
float partial_prediction
Definition: example.h:68

MARGINAL::undo_marginal
void undo_marginal(data &sm, example &ec)
Definition: marginal.cc:121

VW::config::options_i::add_and_parse
virtual void add_and_parse(const option_group_definition &group)=0

label_data::label
float label
Definition: simple_label.h:14

polylabel::simple
label_data simple
Definition: example.h:28

features::end
iterator end()
Definition: feature_group.h:294

MARGINAL::data::update_before_learn
bool update_before_learn
Definition: marginal.cc:24

LEARNER::learner
Definition: cb_explore.h:11

example_predict::iterator
Definition: example_predict.h:18

v_array::size
size_t size() const
Definition: v_array.h:68

MARGINAL::marginal
std::pair< double, double > marginal
Definition: marginal.cc:16

vw
Definition: global_data.h:369

MARGINAL::data::id_features
bool id_features[256]
Definition: marginal.cc:26

free_ptr
std::unique_ptr< T, free_fn > free_ptr
Definition: memory.h:34

LEARNER::as_singleline
single_learner * as_singleline(learner< T, E > *l)
Definition: learner.h:476

features::size
size_t size() const
Definition: feature_group.h:280

MARGINAL::expert
Definition: marginal.cc:9

MARGINAL::get_adanormalhedge_weights
float get_adanormalhedge_weights(float R, float C)
Definition: marginal.cc:48

loss_function::getLoss
virtual float getLoss(shared_data *, float prediction, float label)=0

LEARNER::init_learner
learner< T, E > & init_learner(free_ptr< T > &dat, L *base, void(*learn)(T &, L &, E &), void(*predict)(T &, L &, E &), size_t ws, prediction_type::prediction_type_t pred_type)
Definition: learner.h:369

v_array::push_back
void push_back(const T &new_ele)
Definition: v_array.h:107

vw::sd
shared_data * sd
Definition: global_data.h:375

MARGINAL::make_marginal
void make_marginal(data &sm, example &ec)
Definition: marginal.cc:57

MARGINAL::data::net_weight
float net_weight
Definition: marginal.cc:34

example_predict::end
iterator end()
Definition: example_predict.h:49

io_buf::files
v_array< int > files
Definition: io_buf.h:64

VW::config::options_i::was_supplied
virtual bool was_supplied(const std::string &key)=0

namespace_index
unsigned char namespace_index
Definition: example_predict.h:8

VW::config::options_i
Definition: options.h:107

marginal_setup
LEARNER::base_learner * marginal_setup(options_i &options, vw &all)
Definition: marginal.cc:351

MARGINAL::compute_expert_loss
void compute_expert_loss(data &sm, example &ec)
Definition: marginal.cc:132

features::clear
void clear()
Definition: feature_group.h:296

example
Definition: example.h:54

MARGINAL::data::decay
float decay
Definition: marginal.cc:23

MARGINAL::data::average_pred
float average_pred
Definition: marginal.cc:33

io_buf
Definition: io_buf.h:54

MARGINAL::predict_or_learn
void predict_or_learn(data &sm, LEARNER::single_learner &base, example &ec)
Definition: marginal.cc:200

reductions.h

MARGINAL::data::temp
features temp[256]
Definition: marginal.cc:27

MARGINAL::data::alg_loss
float alg_loss
Definition: marginal.cc:36

weight
float weight
Definition: array_parameters_dense.h:6

VW::config::option_group_definition::add
option_group_definition & add(T &&op)
Definition: options.h:90

features_value_index_iterator
iterator over values and indicies
Definition: feature_group.h:112

features::space_names
v_array< audit_strings_ptr > space_names
Definition: feature_group.h:245

VW::config
Definition: options.h:11

example::l
polylabel l
Definition: example.h:57

VW::config::make_option
typed_option< T > make_option(std::string name, T &location)
Definition: options.h:80

v_array::empty
bool empty() const
Definition: v_array.h:59

MARGINAL::data::compete
bool compete
Definition: marginal.cc:31

MARGINAL::data::feature_pred
float feature_pred
Definition: marginal.cc:32

parameters::stride_shift
uint32_t stride_shift()
Definition: array_parameters.h:244

example_predict::begin
iterator begin()
Definition: example_predict.h:48

setup_base
LEARNER::base_learner * setup_base(options_i &options, vw &all)
Definition: parse_args.cc:1222

MARGINAL::data::~data
~data()
Definition: marginal.cc:42

example::pred
polyprediction pred
Definition: example.h:60

MARGINAL::expert::weight
float weight
Definition: marginal.cc:13

MARGINAL::data::initial_numerator
float initial_numerator
Definition: marginal.cc:21

LEARNER::learner::learn
void learn(E &ec, size_t i=0)
Definition: learner.h:160

MARGINAL::expert::regret
float regret
Definition: marginal.cc:11

MARGINAL::data::all
vw * all
Definition: marginal.cc:40

MARGINAL::update_marginal
void update_marginal(data &sm, example &ec)
Definition: marginal.cc:157

example::weight
float weight
Definition: example.h:62

MARGINAL::data
Definition: marginal.cc:19

bin_text_read_write_fixed
size_t bin_text_read_write_fixed(io_buf &io, char *data, size_t len, const char *read_message, bool read, std::stringstream &msg, bool text)
Definition: io_buf.h:326

MARGINAL::expert::abs_regret
float abs_regret
Definition: marginal.cc:12

parameters::mask
uint64_t mask()
Definition: array_parameters.h:260

f
float f
Definition: cache.cc:40

MARGINAL::expert_pair
std::pair< expert, expert > expert_pair
Definition: marginal.cc:17