cpp/8.8.1/gd__mf_8cc_source.html

 /*
 Copyright (c) by respective owners including Yahoo!, Microsoft, and
 individual contributors. All rights reserved.  Released under a BSD (revised)
 license as described in the file LICENSE.
  */
 #include <fstream>
 #include <float.h>
 #include <string.h>
 #include <stdio.h>
 #ifdef _WIN32
 #define NOMINMAX
 #include <winsock2.h>
 #else
 #include <netdb.h>
 #endif

 #include "gd.h"
 #include "rand48.h"
 #include "reductions.h"
 #include "vw_exception.h"
 #include "array_parameters.h"

 using namespace LEARNER;
 using namespace VW::config;

 struct gdmf
 {
   vw* all;  // regressor, printing
   v_array<float> scalars;
   uint32_t rank;
   size_t no_win_counter;
   uint64_t early_stop_thres;
   ~gdmf() { scalars.delete_v(); }
 };

 void mf_print_offset_features(gdmf& d, example& ec, size_t offset)
 {
   vw& all = *d.all;
   parameters& weights = all.weights;
   uint64_t mask = weights.mask();
   for (features& fs : ec)
   {
     bool audit = !fs.space_names.empty();
     for (auto& f : fs.values_indices_audit())
     {
       std::cout << '\t';
       if (audit)
         std::cout << f.audit().get()->first << '^' << f.audit().get()->second << ':';
       std::cout << f.index() << "(" << ((f.index() + offset) & mask) << ")" << ':' << f.value();
       std::cout << ':' << (&weights[f.index()])[offset];
     }
   }
   for (std::string& i : all.pairs)
     if (ec.feature_space[(unsigned char)i[0]].size() > 0 && ec.feature_space[(unsigned char)i[1]].size() > 0)
     {
       /* print out nsk^feature:hash:value:weight:nsk^feature^:hash:value:weight:prod_weights */
       for (size_t k = 1; k <= d.rank; k++)
       {
         for (features::iterator_all& f1 : ec.feature_space[(unsigned char)i[0]].values_indices_audit())
           for (features::iterator_all& f2 : ec.feature_space[(unsigned char)i[1]].values_indices_audit())
           {
             std::cout << '\t' << f1.audit().get()->first << k << '^' << f1.audit().get()->second << ':'
                       << ((f1.index() + k) & mask) << "(" << ((f1.index() + offset + k) & mask) << ")" << ':'
                       << f1.value();
             std::cout << ':' << (&weights[f1.index()])[offset + k];

             std::cout << ':' << f2.audit().get()->first << k << '^' << f2.audit().get()->second << ':'
                       << ((f2.index() + k + d.rank) & mask) << "(" << ((f2.index() + offset + k + d.rank) & mask) << ")"
                       << ':' << f2.value();
             std::cout << ':' << (&weights[f2.index()])[offset + k + d.rank];

             std::cout << ':' << (&weights[f1.index()])[offset + k] * (&weights[f2.index()])[offset + k + d.rank];
           }
       }
     }
   if (all.triples.begin() != all.triples.end())
     THROW("cannot use triples in matrix factorization");
   std::cout << std::endl;
 }

 void mf_print_audit_features(gdmf& d, example& ec, size_t offset)
 {
   print_result(d.all->stdout_fileno, ec.pred.scalar, -1, ec.tag);
   mf_print_offset_features(d, ec, offset);
 }

 struct pred_offset
 {
   float p;
   uint64_t offset;
 };

 void offset_add(pred_offset& res, const float fx, float& fw) { res.p += (&fw)[res.offset] * fx; }

 template <class T>
 float mf_predict(gdmf& d, example& ec, T& weights)
 {
   vw& all = *d.all;
   label_data& ld = ec.l.simple;
   float prediction = ld.initial;

   for (std::string& i : d.all->pairs)
   {
     ec.num_features -= ec.feature_space[(int)i[0]].size() * ec.feature_space[(int)i[1]].size();
     ec.num_features += ec.feature_space[(int)i[0]].size() * d.rank;
     ec.num_features += ec.feature_space[(int)i[1]].size() * d.rank;
   }

   // clear stored predictions
   d.scalars.clear();

   float linear_prediction = 0.;
   // linear terms

   for (features& fs : ec) GD::foreach_feature<float, GD::vec_add, T>(weights, fs, linear_prediction);

   // store constant + linear prediction
   // note: constant is now automatically added
   d.scalars.push_back(linear_prediction);

   prediction += linear_prediction;
   // interaction terms
   for (std::string& i : d.all->pairs)
   {
     if (ec.feature_space[(int)i[0]].size() > 0 && ec.feature_space[(int)i[1]].size() > 0)
     {
       for (uint64_t k = 1; k <= d.rank; k++)
       {
         // x_l * l^k
         // l^k is from index+1 to index+d.rank
         // float x_dot_l = sd_offset_add(weights, ec.atomics[(int)(*i)[0]].begin(), ec.atomics[(int)(*i)[0]].end(), k);
         pred_offset x_dot_l = {0., k};
         GD::foreach_feature<pred_offset, offset_add, T>(weights, ec.feature_space[(int)i[0]], x_dot_l);
         // x_r * r^k
         // r^k is from index+d.rank+1 to index+2*d.rank
         // float x_dot_r = sd_offset_add(weights, ec.atomics[(int)(*i)[1]].begin(), ec.atomics[(int)(*i)[1]].end(),
         // k+d.rank);
         pred_offset x_dot_r = {0., k + d.rank};
         GD::foreach_feature<pred_offset, offset_add, T>(weights, ec.feature_space[(int)i[1]], x_dot_r);

         prediction += x_dot_l.p * x_dot_r.p;

         // store prediction from interaction terms
         d.scalars.push_back(x_dot_l.p);
         d.scalars.push_back(x_dot_r.p);
       }
     }
   }

   if (all.triples.begin() != all.triples.end())
     THROW("cannot use triples in matrix factorization");

   // d.scalars has linear, x_dot_l_1, x_dot_r_1, x_dot_l_2, x_dot_r_2, ...

   ec.partial_prediction = prediction;

   all.set_minmax(all.sd, ld.label);

   ec.pred.scalar = GD::finalize_prediction(all.sd, ec.partial_prediction);

   if (ld.label != FLT_MAX)
     ec.loss = all.loss->getLoss(all.sd, ec.pred.scalar, ld.label) * ec.weight;

   if (all.audit)
     mf_print_audit_features(d, ec, 0);

   return ec.pred.scalar;
 }

 float mf_predict(gdmf& d, example& ec)
 {
   vw& all = *d.all;
   if (all.weights.sparse)
     return mf_predict(d, ec, all.weights.sparse_weights);
   else
     return mf_predict(d, ec, all.weights.dense_weights);
 }

 template <class T>
 void sd_offset_update(T& weights, features& fs, uint64_t offset, float update, float regularization)
 {
   for (size_t i = 0; i < fs.size(); i++)
     (&weights[fs.indicies[i]])[offset] += update * fs.values[i] - regularization * (&weights[fs.indicies[i]])[offset];
 }

 template <class T>
 void mf_train(gdmf& d, example& ec, T& weights)
 {
   vw& all = *d.all;
   label_data& ld = ec.l.simple;

   // use final prediction to get update size
   // update = eta_t*(y-y_hat) where eta_t = eta/(3*t^p) * importance weight
   float eta_t = all.eta / powf((float)all.sd->t + ec.weight, (float)all.power_t) / 3.f * ec.weight;
   float update = all.loss->getUpdate(ec.pred.scalar, ld.label, eta_t, 1.);  // ec.total_sum_feat_sq);

   float regularization = eta_t * all.l2_lambda;

   // linear update
   for (features& fs : ec) sd_offset_update<T>(weights, fs, 0, update, regularization);

   // quadratic update
   for (std::string& i : all.pairs)
   {
     if (ec.feature_space[(int)i[0]].size() > 0 && ec.feature_space[(int)i[1]].size() > 0)
     {
       // update l^k weights
       for (size_t k = 1; k <= d.rank; k++)
       {
         // r^k \cdot x_r
         float r_dot_x = d.scalars[2 * k];
         // l^k <- l^k + update * (r^k \cdot x_r) * x_l
         sd_offset_update<T>(weights, ec.feature_space[(int)i[0]], k, update * r_dot_x, regularization);
       }
       // update r^k weights
       for (size_t k = 1; k <= d.rank; k++)
       {
         // l^k \cdot x_l
         float l_dot_x = d.scalars[2 * k - 1];
         // r^k <- r^k + update * (l^k \cdot x_l) * x_r
         sd_offset_update<T>(weights, ec.feature_space[(int)i[1]], k + d.rank, update * l_dot_x, regularization);
       }
     }
   }
   if (all.triples.begin() != all.triples.end())
     THROW("cannot use triples in matrix factorization");
 }

 void mf_train(gdmf& d, example& ec)
 {
   if (d.all->weights.sparse)
     mf_train(d, ec, d.all->weights.sparse_weights);
   else
     mf_train(d, ec, d.all->weights.dense_weights);
 }

 template <class T>
 class set_rand_wrapper
 {
  public:
   static void func(weight& w, uint32_t& stride, uint64_t index)
   {
     weight* pw = &w;
     for (size_t i = 0; i != stride; ++i, ++index) pw[i] = (float)(0.1 * merand48(index));
   }
 };

 void save_load(gdmf& d, io_buf& model_file, bool read, bool text)
 {
   vw& all = *d.all;
   uint64_t length = (uint64_t)1 << all.num_bits;
   if (read)
   {
     initialize_regressor(all);
     if (all.random_weights)
     {
       uint32_t stride = all.weights.stride();
       if (all.weights.sparse)
         all.weights.sparse_weights.set_default<uint32_t, set_rand_wrapper<sparse_parameters> >(stride);
       else
         all.weights.dense_weights.set_default<uint32_t, set_rand_wrapper<dense_parameters> >(stride);
     }
   }

   if (model_file.files.size() > 0)
   {
     uint64_t i = 0;
     size_t brw = 1;
     do
     {
       brw = 0;
       size_t K = d.rank * 2 + 1;
       std::stringstream msg;
       msg << i << " ";
       brw += bin_text_read_write_fixed(model_file, (char*)&i, sizeof(i), "", read, msg, text);
       if (brw != 0)
       {
         weight* w_i = &(all.weights.strided_index(i));
         for (uint64_t k = 0; k < K; k++)
         {
           weight* v = w_i + k;
           msg << v << " ";
           brw += bin_text_read_write_fixed(model_file, (char*)v, sizeof(*v), "", read, msg, text);
         }
       }
       if (text)
       {
         msg << "\n";
         brw += bin_text_read_write_fixed(model_file, nullptr, 0, "", read, msg, text);
       }

       if (!read)
         ++i;
     } while ((!read && i < length) || (read && brw > 0));
   }
 }

 void end_pass(gdmf& d)
 {
   vw* all = d.all;

   all->eta *= all->eta_decay_rate;
   if (all->save_per_pass)
     save_predictor(*all, all->final_regressor_name, all->current_pass);

   if (!all->holdout_set_off)
   {
     if (summarize_holdout_set(*all, d.no_win_counter))
       finalize_regressor(*all, all->final_regressor_name);
     if ((d.early_stop_thres == d.no_win_counter) &&
         ((all->check_holdout_every_n_passes <= 1) || ((all->current_pass % all->check_holdout_every_n_passes) == 0)))
       set_done(*all);
   }
 }

 void predict(gdmf& d, single_learner&, example& ec) { mf_predict(d, ec); }

 void learn(gdmf& d, single_learner&, example& ec)
 {
   vw& all = *d.all;

   mf_predict(d, ec);
   if (all.training && ec.l.simple.label != FLT_MAX)
     mf_train(d, ec);
 }

 base_learner* gd_mf_setup(options_i& options, vw& all)
 {
   auto data = scoped_calloc_or_throw<gdmf>();

   bool bfgs = false;
   bool conjugate_gradient = false;
   option_group_definition gf_md_options("Gradient Descent Matrix Factorization");
   gf_md_options.add(make_option("rank", data->rank).keep().help("rank for matrix factorization."));

   // Not supported, need to be checked to be false.
   gf_md_options.add(make_option("bfgs", bfgs).help("Option not supported by this reduction"));
   gf_md_options.add(
       make_option("conjugate_gradient", conjugate_gradient).help("Option not supported by this reduction"));
   options.add_and_parse(gf_md_options);

   if (!options.was_supplied("rank"))
     return nullptr;

   if (options.was_supplied("adaptive"))
     THROW("adaptive is not implemented for matrix factorization");
   if (options.was_supplied("normalized"))
     THROW("normalized is not implemented for matrix factorization");
   if (options.was_supplied("exact_adaptive_norm"))
     THROW("normalized adaptive updates is not implemented for matrix factorization");

   if (bfgs || conjugate_gradient)
     THROW("bfgs is not implemented for matrix factorization");

   data->all = &all;
   data->no_win_counter = 0;

   // store linear + 2*rank weights per index, round up to power of two
   float temp = ceilf(logf((float)(data->rank * 2 + 1)) / logf(2.f));
   all.weights.stride_shift((size_t)temp);
   all.random_weights = true;

   if (!all.holdout_set_off)
   {
     all.sd->holdout_best_loss = FLT_MAX;
     data->early_stop_thres = options.get_typed_option<size_t>("early_terminate").value();
   }

   if (!options.was_supplied("learning_rate") && !options.was_supplied("l"))
     all.eta = 10;  // default learning rate to 10 for non default update rule

   // default initial_t to 1 instead of 0
   if (!options.was_supplied("initial_t"))
   {
     all.sd->t = 1.f;
     all.initial_t = 1.f;
   }
   all.eta *= powf((float)(all.sd->t), all.power_t);

   learner<gdmf, example>& l = init_learner(data, learn, predict, (UINT64_ONE << all.weights.stride_shift()));
   l.set_save_load(save_load);
   l.set_end_pass(end_pass);

   return make_base(l);
 }
example::tag
v_array< char > tag
Definition: example.h:63

pred_offset::offset
uint64_t offset
Definition: gd_mf.cc:90

GD::finalize_prediction
float finalize_prediction(shared_data *sd, float ret)
Definition: gd.cc:339

set_done
void set_done(vw &all)
Definition: parser.cc:578

vw::weights
parameters weights
Definition: global_data.h:537

vw::loss
loss_function * loss
Definition: global_data.h:523

loss_function::getUpdate
virtual float getUpdate(float prediction, float label, float update_scale, float pred_per_update)=0

offset_add
void offset_add(pred_offset &res, const float fx, float &fw)
Definition: gd_mf.cc:93

pred_offset
Definition: gd_mf.cc:87

initialize_regressor
void initialize_regressor(vw &all, T &weights)
Definition: parse_regressor.cc:97

vw::pairs
std::vector< std::string > pairs
Definition: global_data.h:459

gdmf::~gdmf
~gdmf()
Definition: gd_mf.cc:33

vw::initial_t
float initial_t
Definition: global_data.h:530

mf_print_offset_features
void mf_print_offset_features(gdmf &d, example &ec, size_t offset)
Definition: gd_mf.cc:36

polyprediction::scalar
float scalar
Definition: example.h:45

gd.h

gdmf::scalars
v_array< float > scalars
Definition: gd_mf.cc:29

features::indicies
v_array< feature_index > indicies
Definition: feature_group.h:244

vw::power_t
float power_t
Definition: global_data.h:447

parameters::stride
uint32_t stride()
Definition: array_parameters.h:252

features
the core definition of a set of features.
Definition: feature_group.h:241

dense_parameters::set_default
void set_default(R &info)
Definition: array_parameters_dense.h:91

pred_offset::p
float p
Definition: gd_mf.cc:89

shared_data::holdout_best_loss
double holdout_best_loss
Definition: global_data.h:161

LEARNER::make_base
base_learner * make_base(learner< T, E > &base)
Definition: learner.h:462

VW::config::option_group_definition
Definition: options.h:85

features::values
v_array< feature_value > values
Definition: feature_group.h:243

finalize_regressor
void finalize_regressor(vw &all, std::string reg_name)
Definition: parse_regressor.cc:561

array_parameters.h

bfgs
Definition: bfgs.cc:62

VW::config::options_i::add_and_parse
virtual void add_and_parse(const option_group_definition &group)=0

LEARNER::learner::set_save_load
void set_save_load(void(*sl)(T &, io_buf &, bool, bool))
Definition: learner.h:257

set_rand_wrapper
Definition: gd_mf.cc:238

label_data::label
float label
Definition: simple_label.h:14

sparse_parameters::set_default
void set_default(R &info)
Definition: array_parameters.h:171

merand48
float merand48(uint64_t &initial)
Definition: rand48.cc:16

polylabel::simple
label_data simple
Definition: example.h:28

vw::holdout_set_off
bool holdout_set_off
Definition: global_data.h:499

vw::check_holdout_every_n_passes
size_t check_holdout_every_n_passes
Definition: global_data.h:503

LEARNER::learner
Definition: cb_explore.h:11

summarize_holdout_set
bool summarize_holdout_set(vw &all, size_t &no_win_counter)
Definition: simple_label.cc:143

vw::num_bits
uint32_t num_bits
Definition: global_data.h:398

gdmf::early_stop_thres
uint64_t early_stop_thres
Definition: gd_mf.cc:32

vw::training
bool training
Definition: global_data.h:488

v_array::size
size_t size() const
Definition: v_array.h:68

vw_exception.h

vw
Definition: global_data.h:369

save_predictor
void save_predictor(vw &all, std::string reg_name, size_t current_pass)
Definition: parse_regressor.cc:552

example_predict::feature_space
std::array< features, NUM_NAMESPACES > feature_space
Definition: example_predict.h:41

vw::set_minmax
void(* set_minmax)(shared_data *sd, float label)
Definition: global_data.h:394

set_rand_wrapper::func
static void func(weight &w, uint32_t &stride, uint64_t index)
Definition: gd_mf.cc:241

features::size
size_t size() const
Definition: feature_group.h:280

vw::stdout_fileno
int stdout_fileno
Definition: global_data.h:434

loss_function::getLoss
virtual float getLoss(shared_data *, float prediction, float label)=0

LEARNER::init_learner
learner< T, E > & init_learner(free_ptr< T > &dat, L *base, void(*learn)(T &, L &, E &), void(*predict)(T &, L &, E &), size_t ws, prediction_type::prediction_type_t pred_type)
Definition: learner.h:369

v_array::push_back
void push_back(const T &new_ele)
Definition: v_array.h:107

parameters
Definition: array_parameters.h:226

vw::sd
shared_data * sd
Definition: global_data.h:375

VW::config::options_i::get_typed_option
typed_option< T > & get_typed_option(const std::string &key)
Definition: options.h:120

LEARNER::end_pass
void end_pass(example &ec, vw &all)
Definition: learner.cc:44

ldamath::powf
T powf(T, T)
Definition: lda_core.cc:428

vw::l2_lambda
float l2_lambda
Definition: global_data.h:445

io_buf::files
v_array< int > files
Definition: io_buf.h:64

v_array::clear
void clear()
Definition: v_array.h:88

label_data
Definition: simple_label.h:12

features_value_index_audit_iterator
iterator over values, indicies and audit space names
Definition: feature_group.h:176

example::num_features
size_t num_features
Definition: example.h:67

VW::config::options_i::was_supplied
virtual bool was_supplied(const std::string &key)=0

shared_data::t
double t
Definition: global_data.h:140

gd_mf_setup
base_learner * gd_mf_setup(options_i &options, vw &all)
Definition: gd_mf.cc:327

VW::config::options_i
Definition: options.h:107

rand48.h

vw::random_weights
bool random_weights
Definition: global_data.h:492

sd_offset_update
void sd_offset_update(T &weights, features &fs, uint64_t offset, float update, float regularization)
Definition: gd_mf.cc:180

parameters::dense_weights
dense_parameters dense_weights
Definition: array_parameters.h:233

save_load
void save_load(gdmf &d, io_buf &model_file, bool read, bool text)
Definition: gd_mf.cc:248

example
Definition: example.h:54

vw::current_pass
uint64_t current_pass
Definition: global_data.h:396

label_data::initial
float initial
Definition: simple_label.h:16

parameters::strided_index
weight & strided_index(size_t index)
Definition: array_parameters.h:311

io_buf
Definition: io_buf.h:54

vw::triples
std::vector< std::string > triples
Definition: global_data.h:461

predict
void predict(gdmf &d, single_learner &, example &ec)
Definition: gd_mf.cc:316

reductions.h

vw::eta
float eta
Definition: global_data.h:531

weight
float weight
Definition: array_parameters_dense.h:6

gdmf
Definition: gd_mf.cc:26

VW::config::option_group_definition::add
option_group_definition & add(T &&op)
Definition: options.h:90

VW::config
Definition: options.h:11

example::l
polylabel l
Definition: example.h:57

vw::save_per_pass
bool save_per_pass
Definition: global_data.h:408

VW::config::make_option
typed_option< T > make_option(std::string name, T &location)
Definition: options.h:80

print_result
void print_result(int f, float res, v_array< char > tag, float lb, float ub)
Definition: bs.cc:136

UINT64_ONE
constexpr uint64_t UINT64_ONE
Definition: crossplat_compat.h:16

LEARNER::learner::set_end_pass
void set_end_pass(void(*f)(T &))
Definition: learner.h:286

parameters::sparse_weights
sparse_parameters sparse_weights
Definition: array_parameters.h:234

mf_predict
float mf_predict(gdmf &d, example &ec, T &weights)
Definition: gd_mf.cc:96

parameters::stride_shift
uint32_t stride_shift()
Definition: array_parameters.h:244

gdmf::no_win_counter
size_t no_win_counter
Definition: gd_mf.cc:31

GD::update
void update(gd &g, base_learner &, example &ec)
Definition: gd.cc:647

vw::audit
bool audit
Definition: global_data.h:486

example::pred
polyprediction pred
Definition: example.h:60

LEARNER
Definition: cb_explore.h:8

mf_print_audit_features
void mf_print_audit_features(gdmf &d, example &ec, size_t offset)
Definition: gd_mf.cc:81

learn
void learn(gdmf &d, single_learner &, example &ec)
Definition: gd_mf.cc:318

v_array::delete_v
void delete_v()
Definition: v_array.h:98

vw::final_regressor_name
std::string final_regressor_name
Definition: global_data.h:535

example::weight
float weight
Definition: example.h:62

v_array< float >

bin_text_read_write_fixed
size_t bin_text_read_write_fixed(io_buf &io, char *data, size_t len, const char *read_message, bool read, std::stringstream &msg, bool text)
Definition: io_buf.h:326

parameters::mask
uint64_t mask()
Definition: array_parameters.h:260

THROW
#define THROW(args)
Definition: vw_exception.h:181

parameters::sparse
bool sparse
Definition: array_parameters.h:232

f
float f
Definition: cache.cc:40

gdmf::rank
uint32_t rank
Definition: gd_mf.cc:30

mf_train
void mf_train(gdmf &d, example &ec, T &weights)
Definition: gd_mf.cc:187

gdmf::all
vw * all
Definition: gd_mf.cc:28

vw::eta_decay_rate
float eta_decay_rate
Definition: global_data.h:532