cpp/8.8.1/boosting_8cc_source.html

 /*
  Copyright (c) by respective owners including Yahoo!, Microsoft, and
  individual contributors. All rights reserved.  Released under a BSD (revised)
  license as described in the file LICENSE.
  */

 /*
  * Implementation of online boosting algorithms from
  *    Beygelzimer, Kale, Luo: Optimal and adaptive algorithms for online boosting,
  *    ICML-2015.
  */

 #include <float.h>
 #include <limits.h>
 #include <math.h>
 #include "correctedMath.h"
 #include <stdio.h>
 #include <string>
 #include <sstream>
 #include <vector>
 #include <memory>

 #include "reductions.h"
 #include "vw.h"
 #include "rand48.h"

 using namespace LEARNER;
 using namespace VW::config;

 using std::cerr;
 using std::endl;

 inline float sign(float w)
 {
   if (w <= 0.)
     return -1.;
   else
     return 1.;
 }

 int64_t choose(int64_t n, int64_t k)
 {
   if (k > n)
     return 0;
   if (k < 0)
     return 0;
   if (k == n)
     return 1;
   if (k == 0 && n != 0)
     return 1;
   int64_t r = 1;
   for (int64_t d = 1; d <= k; ++d)
   {
     r *= n--;
     r /= d;
   }
   return r;
 }

 struct boosting
 {
   int N;
   float gamma;
   std::string alg;
   vw* all;
   std::shared_ptr<rand_state> _random_state;
   std::vector<std::vector<int64_t> > C;
   std::vector<float> alpha;
   std::vector<float> v;
   int t;
 };

 //---------------------------------------------------
 // Online Boost-by-Majority (BBM)
 // --------------------------------------------------
 template <bool is_learn>
 void predict_or_learn(boosting& o, LEARNER::single_learner& base, example& ec)
 {
   label_data& ld = ec.l.simple;

   float final_prediction = 0;

   float s = 0;
   float u = ec.weight;

   if (is_learn)
     o.t++;

   for (int i = 0; i < o.N; i++)
   {
     if (is_learn)
     {
       float k = floorf((float)(o.N - i - s) / 2);
       int64_t c;
       if (o.N - (i + 1) < 0)
         c = 0;
       else if (k > o.N - (i + 1))
         c = 0;
       else if (k < 0)
         c = 0;
       else if (o.C[o.N - (i + 1)][(int64_t)k] != -1)
         c = o.C[o.N - (i + 1)][(int64_t)k];
       else
       {
         c = choose(o.N - (i + 1), (int64_t)k);
         o.C[o.N - (i + 1)][(int64_t)k] = c;
       }

       float w = c * (float)pow((double)(0.5 + o.gamma), (double)k) *
           (float)pow((double)0.5 - o.gamma, (double)(o.N - (i + 1) - k));

       // update ec.weight, weight for learner i (starting from 0)
       ec.weight = u * w;

       base.predict(ec, i);

       // ec.pred.scalar is now the i-th learner prediction on this example
       s += ld.label * ec.pred.scalar;

       final_prediction += ec.pred.scalar;

       base.learn(ec, i);
     }
     else
     {
       base.predict(ec, i);
       final_prediction += ec.pred.scalar;
     }
   }

   ec.weight = u;
   ec.partial_prediction = final_prediction;
   ec.pred.scalar = sign(final_prediction);

   if (ld.label == ec.pred.scalar)
     ec.loss = 0.;
   else
     ec.loss = ec.weight;
 }

 //-----------------------------------------------------------------
 // Logistic boost
 //-----------------------------------------------------------------
 template <bool is_learn>
 void predict_or_learn_logistic(boosting& o, LEARNER::single_learner& base, example& ec)
 {
   label_data& ld = ec.l.simple;

   float final_prediction = 0;

   float s = 0;
   float u = ec.weight;

   if (is_learn)
     o.t++;
   float eta = 4.f / sqrtf((float)o.t);

   for (int i = 0; i < o.N; i++)
   {
     if (is_learn)
     {
       float w = 1 / (1 + correctedExp(s));

       ec.weight = u * w;

       base.predict(ec, i);
       float z;
       z = ld.label * ec.pred.scalar;

       s += z * o.alpha[i];

       // if ld.label * ec.pred.scalar < 0, learner i made a mistake

       final_prediction += ec.pred.scalar * o.alpha[i];

       // update alpha
       o.alpha[i] += eta * z / (1 + correctedExp(s));
       if (o.alpha[i] > 2.)
         o.alpha[i] = 2;
       if (o.alpha[i] < -2.)
         o.alpha[i] = -2;

       base.learn(ec, i);
     }
     else
     {
       base.predict(ec, i);
       final_prediction += ec.pred.scalar * o.alpha[i];
     }
   }

   ec.weight = u;
   ec.partial_prediction = final_prediction;
   ec.pred.scalar = sign(final_prediction);

   if (ld.label == ec.pred.scalar)
     ec.loss = 0.;
   else
     ec.loss = ec.weight;
 }

 template <bool is_learn>
 void predict_or_learn_adaptive(boosting& o, LEARNER::single_learner& base, example& ec)
 {
   label_data& ld = ec.l.simple;

   float final_prediction = 0, partial_prediction = 0;

   float s = 0;
   float v_normalization = 0, v_partial_sum = 0;
   float u = ec.weight;

   if (is_learn)
     o.t++;
   float eta = 4.f / (float)sqrtf((float)o.t);

   float stopping_point = o._random_state->get_and_update_random();

   for (int i = 0; i < o.N; i++)
   {
     if (is_learn)
     {
       float w = 1 / (1 + correctedExp(s));

       ec.weight = u * w;

       base.predict(ec, i);
       float z;

       z = ld.label * ec.pred.scalar;

       s += z * o.alpha[i];

       if (v_partial_sum <= stopping_point)
       {
         final_prediction += ec.pred.scalar * o.alpha[i];
       }

       partial_prediction += ec.pred.scalar * o.alpha[i];

       v_partial_sum += o.v[i];

       // update v, exp(-1) = 0.36788
       if (ld.label * partial_prediction < 0)
       {
         o.v[i] *= 0.36788f;
       }
       v_normalization += o.v[i];

       // update alpha
       o.alpha[i] += eta * z / (1 + correctedExp(s));
       if (o.alpha[i] > 2.)
         o.alpha[i] = 2;
       if (o.alpha[i] < -2.)
         o.alpha[i] = -2;

       base.learn(ec, i);
     }
     else
     {
       base.predict(ec, i);
       if (v_partial_sum <= stopping_point)
       {
         final_prediction += ec.pred.scalar * o.alpha[i];
       }
       else
       {
         // stopping at learner i
         break;
       }
       v_partial_sum += o.v[i];
     }
   }

   // normalize v vector in training
   if (is_learn)
   {
     for (int i = 0; i < o.N; i++)
     {
       if (v_normalization)
         o.v[i] /= v_normalization;
     }
   }

   ec.weight = u;
   ec.partial_prediction = final_prediction;
   ec.pred.scalar = sign(final_prediction);

   if (ld.label == ec.pred.scalar)
     ec.loss = 0.;
   else
     ec.loss = ec.weight;
 }

 void save_load_sampling(boosting& o, io_buf& model_file, bool read, bool text)
 {
   if (model_file.files.size() == 0)
     return;
   std::stringstream os;
   os << "boosts " << o.N << endl;
   bin_text_read_write_fixed(model_file, (char*)&(o.N), sizeof(o.N), "", read, os, text);

   if (read)
   {
     o.alpha.resize(o.N);
     o.v.resize(o.N);
   }

   for (int i = 0; i < o.N; i++)
     if (read)
     {
       float f;
       model_file.bin_read_fixed((char*)&f, sizeof(f), "");
       o.alpha[i] = f;
     }
     else
     {
       std::stringstream os2;
       os2 << "alpha " << o.alpha[i] << endl;
       bin_text_write_fixed(model_file, (char*)&(o.alpha[i]), sizeof(o.alpha[i]), os2, text);
     }

   for (int i = 0; i < o.N; i++)
     if (read)
     {
       float f;
       model_file.bin_read_fixed((char*)&f, sizeof(f), "");
       o.v[i] = f;
     }
     else
     {
       std::stringstream os2;
       os2 << "v " << o.v[i] << endl;
       bin_text_write_fixed(model_file, (char*)&(o.v[i]), sizeof(o.v[i]), os2, text);
     }

   if (read)
   {
     cerr << "Loading alpha and v: " << endl;
   }
   else
   {
     cerr << "Saving alpha and v, current weighted_examples = "
          << o.all->sd->weighted_labeled_examples + o.all->sd->weighted_unlabeled_examples << endl;
   }
   for (int i = 0; i < o.N; i++)
   {
     cerr << o.alpha[i] << " " << o.v[i] << endl;
   }
   cerr << endl;
 }

 void return_example(vw& all, boosting& /* a */, example& ec)
 {
   output_and_account_example(all, ec);
   VW::finish_example(all, ec);
 }

 void save_load(boosting& o, io_buf& model_file, bool read, bool text)
 {
   if (model_file.files.size() == 0)
     return;
   std::stringstream os;
   os << "boosts " << o.N << endl;
   bin_text_read_write_fixed(model_file, (char*)&(o.N), sizeof(o.N), "", read, os, text);

   if (read)
     o.alpha.resize(o.N);

   for (int i = 0; i < o.N; i++)
     if (read)
     {
       float f;
       model_file.bin_read_fixed((char*)&f, sizeof(f), "");
       o.alpha[i] = f;
     }
     else
     {
       std::stringstream os2;
       os2 << "alpha " << o.alpha[i] << endl;
       bin_text_write_fixed(model_file, (char*)&(o.alpha[i]), sizeof(o.alpha[i]), os2, text);
     }

   if (!o.all->quiet)
   {
     if (read)
       cerr << "Loading alpha: " << endl;
     else
       cerr << "Saving alpha, current weighted_examples = " << o.all->sd->weighted_examples() << endl;
     for (int i = 0; i < o.N; i++) cerr << o.alpha[i] << " " << endl;

     cerr << endl;
   }
 }

 LEARNER::base_learner* boosting_setup(options_i& options, vw& all)
 {
   free_ptr<boosting> data = scoped_calloc_or_throw<boosting>();
   option_group_definition new_options("Boosting");
   new_options.add(make_option("boosting", data->N).keep().help("Online boosting with <N> weak learners"))
       .add(make_option("gamma", data->gamma)
                .default_value(0.1f)
                .help("weak learner's edge (=0.1), used only by online BBM"))
       .add(
           make_option("alg", data->alg)
               .keep()
               .default_value("BBM")
               .help("specify the boosting algorithm: BBM (default), logistic (AdaBoost.OL.W), adaptive (AdaBoost.OL)"));
   options.add_and_parse(new_options);

   if (!options.was_supplied("boosting"))
     return nullptr;

   // Description of options:
   // "BBM" implements online BBM (Algorithm 1 in BLK'15)
   // "logistic" implements AdaBoost.OL.W (importance weighted version
   //        of Algorithm 2 in BLK'15)
   // "adaptive" implements AdaBoost.OL (Algorithm 2 in BLK'15,
   //        using sampling rather than importance weighting)

   if (!all.quiet)
     cerr << "Number of weak learners = " << data->N << endl;
   if (!all.quiet)
     cerr << "Gamma = " << data->gamma << endl;

   data->C = std::vector<std::vector<int64_t> >(data->N, std::vector<int64_t>(data->N, -1));
   data->t = 0;
   data->all = &all;
   data->_random_state = all.get_random_state();
   data->alpha = std::vector<float>(data->N, 0);
   data->v = std::vector<float>(data->N, 1);

   learner<boosting, example>* l;
   if (data->alg == "BBM")
     l = &init_learner<boosting, example>(
         data, as_singleline(setup_base(options, all)), predict_or_learn<true>, predict_or_learn<false>, data->N);
   else if (data->alg == "logistic")
   {
     l = &init_learner<boosting, example>(data, as_singleline(setup_base(options, all)), predict_or_learn_logistic<true>,
         predict_or_learn_logistic<false>, data->N);
     l->set_save_load(save_load);
   }
   else if (data->alg == "adaptive")
   {
     l = &init_learner<boosting, example>(data, as_singleline(setup_base(options, all)), predict_or_learn_adaptive<true>,
         predict_or_learn_adaptive<false>, data->N);
     l->set_save_load(save_load_sampling);
   }
   else
     THROW("Unrecognized boosting algorithm: \'" << data->alg << "\' Bailing!");

   l->set_finish_example(return_example);

   return make_base(*l);
 }
correctedExp
#define correctedExp
Definition: correctedMath.h:27

LEARNER::learner::predict
void predict(E &ec, size_t i=0)
Definition: learner.h:169

polyprediction::scalar
float scalar
Definition: example.h:45

boosting::t
int t
Definition: boosting.cc:70

shared_data::weighted_unlabeled_examples
double weighted_unlabeled_examples
Definition: global_data.h:143

output_and_account_example
void output_and_account_example(vw &all, active &a, example &ec)
Definition: active.cc:105

predict_or_learn
void predict_or_learn(boosting &o, LEARNER::single_learner &base, example &ec)
Definition: boosting.cc:77

correctedMath.h

LEARNER::make_base
base_learner * make_base(learner< T, E > &base)
Definition: learner.h:462

VW::config::option_group_definition
Definition: options.h:85

boosting_setup
LEARNER::base_learner * boosting_setup(options_i &options, vw &all)
Definition: boosting.cc:396

example::partial_prediction
float partial_prediction
Definition: example.h:68

vw::quiet
bool quiet
Definition: global_data.h:487

boosting::all
vw * all
Definition: boosting.cc:65

VW::config::options_i::add_and_parse
virtual void add_and_parse(const option_group_definition &group)=0

LEARNER::learner::set_save_load
void set_save_load(void(*sl)(T &, io_buf &, bool, bool))
Definition: learner.h:257

label_data::label
float label
Definition: simple_label.h:14

predict_or_learn_logistic
void predict_or_learn_logistic(boosting &o, LEARNER::single_learner &base, example &ec)
Definition: boosting.cc:145

polylabel::simple
label_data simple
Definition: example.h:28

save_load
void save_load(boosting &o, io_buf &model_file, bool read, bool text)
Definition: boosting.cc:359

LEARNER::learner
Definition: cb_explore.h:11

v_array::size
size_t size() const
Definition: v_array.h:68

boosting::alg
std::string alg
Definition: boosting.cc:64

vw
Definition: global_data.h:369

vw::get_random_state
std::shared_ptr< rand_state > get_random_state()
Definition: global_data.h:553

free_ptr
std::unique_ptr< T, free_fn > free_ptr
Definition: memory.h:34

LEARNER::as_singleline
single_learner * as_singleline(learner< T, E > *l)
Definition: learner.h:476

bin_text_write_fixed
size_t bin_text_write_fixed(io_buf &io, char *data, size_t len, std::stringstream &msg, bool text)
Definition: io_buf.h:313

io_buf::bin_read_fixed
size_t bin_read_fixed(char *data, size_t len, const char *read_message)
Definition: io_buf.h:230

vw::sd
shared_data * sd
Definition: global_data.h:375

boosting
Definition: boosting.cc:60

return_example
void return_example(vw &all, boosting &, example &ec)
Definition: boosting.cc:353

predict_or_learn_adaptive
void predict_or_learn_adaptive(boosting &o, LEARNER::single_learner &base, example &ec)
Definition: boosting.cc:203

io_buf::files
v_array< int > files
Definition: io_buf.h:64

label_data
Definition: simple_label.h:12

VW::config::options_i::was_supplied
virtual bool was_supplied(const std::string &key)=0

VW::config::options_i
Definition: options.h:107

rand48.h

example
Definition: example.h:54

boosting::alpha
std::vector< float > alpha
Definition: boosting.cc:68

boosting::_random_state
std::shared_ptr< rand_state > _random_state
Definition: boosting.cc:66

sign
float sign(float w)
Definition: boosting.cc:33

boosting::C
std::vector< std::vector< int64_t > > C
Definition: boosting.cc:67

io_buf
Definition: io_buf.h:54

VW::finish_example
void finish_example(vw &, example &)
Definition: parser.cc:881

reductions.h

choose
int64_t choose(int64_t n, int64_t k)
Definition: boosting.cc:41

example::loss
float loss
Definition: example.h:70

add
int add(svm_params &params, svm_example *fec)
Definition: kernel_svm.cc:546

VW::config
Definition: options.h:11

example::l
polylabel l
Definition: example.h:57

save_load_sampling
void save_load_sampling(boosting &o, io_buf &model_file, bool read, bool text)
Definition: boosting.cc:295

VW::config::make_option
typed_option< T > make_option(std::string name, T &location)
Definition: options.h:80

vw.h

shared_data::weighted_labeled_examples
double weighted_labeled_examples
Definition: global_data.h:141

setup_base
LEARNER::base_learner * setup_base(options_i &options, vw &all)
Definition: parse_args.cc:1222

example::pred
polyprediction pred
Definition: example.h:60

LEARNER
Definition: cb_explore.h:8

boosting::v
std::vector< float > v
Definition: boosting.cc:69

boosting::gamma
float gamma
Definition: boosting.cc:63

LEARNER::learner::learn
void learn(E &ec, size_t i=0)
Definition: learner.h:160

example::weight
float weight
Definition: example.h:62

shared_data::weighted_examples
double weighted_examples()
Definition: global_data.h:188

bin_text_read_write_fixed
size_t bin_text_read_write_fixed(io_buf &io, char *data, size_t len, const char *read_message, bool read, std::stringstream &msg, bool text)
Definition: io_buf.h:326

THROW
#define THROW(args)
Definition: vw_exception.h:181

c
constexpr uint64_t c
Definition: rand48.cc:12

f
float f
Definition: cache.cc:40

boosting::N
int N
Definition: boosting.cc:62