cpp/8.8.1/mf_8cc_source.html

 /*
  Copyright (c) by respective owners including Yahoo!, Microsoft, and
  individual contributors. All rights reserved.  Released under a BSD (revised)
  license as described in the file LICENSE.
  */
 #ifdef _WIN32
 #define NOMINMAX
 #include <winsock2.h>
 #else
 #include <netdb.h>
 #endif
 #include "reductions.h"
 #include "gd.h"

 using namespace LEARNER;
 using namespace VW::config;

 struct mf
 {
   std::vector<std::string> pairs;

   size_t rank;

   uint32_t increment;

   // array to cache w*x, (l^k * x_l) and (r^k * x_r)
   // [ w*(1,x_l,x_r) , l^1*x_l, r^1*x_r, l^2*x_l, r^2*x_2, ... ]
   v_array<float> sub_predictions;

   // array for temp storage of indices during prediction
   v_array<unsigned char> predict_indices;

   // array for temp storage of indices
   v_array<unsigned char> indices;

   // array for temp storage of features
   features temp_features;

   vw* all;  // for pairs? and finalize

   ~mf()
   {
     // clean up local v_arrays
     indices.delete_v();
     sub_predictions.delete_v();
   }
 };

 template <bool cache_sub_predictions>
 void predict(mf& data, single_learner& base, example& ec)
 {
   float prediction = 0;
   if (cache_sub_predictions)
     data.sub_predictions.resize(2 * data.rank + 1);

   // predict from linear terms
   base.predict(ec);

   // store linear prediction
   if (cache_sub_predictions)
     data.sub_predictions[0] = ec.partial_prediction;
   prediction += ec.partial_prediction;

   // store namespace indices
   copy_array(data.predict_indices, ec.indices);

   // erase indices
   ec.indices.clear();
   ec.indices.push_back(0);

   // add interaction terms to prediction
   for (std::string& i : data.pairs)
   {
     int left_ns = (int)i[0];
     int right_ns = (int)i[1];

     if (ec.feature_space[left_ns].size() > 0 && ec.feature_space[right_ns].size() > 0)
     {
       for (size_t k = 1; k <= data.rank; k++)
       {
         ec.indices[0] = left_ns;

         // compute l^k * x_l using base learner
         base.predict(ec, k);
         float x_dot_l = ec.partial_prediction;
         if (cache_sub_predictions)
           data.sub_predictions[2 * k - 1] = x_dot_l;

         // set example to right namespace only
         ec.indices[0] = right_ns;

         // compute r^k * x_r using base learner
         base.predict(ec, k + data.rank);
         float x_dot_r = ec.partial_prediction;
         if (cache_sub_predictions)
           data.sub_predictions[2 * k] = x_dot_r;

         // accumulate prediction
         prediction += (x_dot_l * x_dot_r);
       }
     }
   }
   // restore namespace indices and label
   copy_array(ec.indices, data.predict_indices);

   // finalize prediction
   ec.partial_prediction = prediction;
   ec.pred.scalar = GD::finalize_prediction(data.all->sd, ec.partial_prediction);
 }

 void learn(mf& data, single_learner& base, example& ec)
 {
   // predict with current weights
   predict<true>(data, base, ec);
   float predicted = ec.pred.scalar;

   // update linear weights
   base.update(ec);
   ec.pred.scalar = ec.updated_prediction;

   // store namespace indices
   copy_array(data.indices, ec.indices);

   // erase indices
   ec.indices.clear();
   ec.indices.push_back(0);

   // update interaction terms
   // looping over all pairs of non-empty namespaces
   for (std::string& i : data.pairs)
   {
     int left_ns = (int)i[0];
     int right_ns = (int)i[1];

     if (ec.feature_space[left_ns].size() > 0 && ec.feature_space[right_ns].size() > 0)
     {
       // set example to left namespace only
       ec.indices[0] = left_ns;

       // store feature values in left namespace
       data.temp_features.deep_copy_from(ec.feature_space[left_ns]);

       for (size_t k = 1; k <= data.rank; k++)
       {
         features& fs = ec.feature_space[left_ns];
         // multiply features in left namespace by r^k * x_r
         for (size_t i = 0; i < fs.size(); ++i) fs.values[i] *= data.sub_predictions[2 * k];

         // update l^k using base learner
         base.update(ec, k);

         // restore left namespace features (undoing multiply)
         fs.deep_copy_from(data.temp_features);

         // compute new l_k * x_l scaling factors
         // base.predict(ec, k);
         // data.sub_predictions[2*k-1] = ec.partial_prediction;
         // ec.pred.scalar = ec.updated_prediction;
       }

       // set example to right namespace only
       ec.indices[0] = right_ns;

       // store feature values for right namespace
       data.temp_features.deep_copy_from(ec.feature_space[right_ns]);

       for (size_t k = 1; k <= data.rank; k++)
       {
         features& fs = ec.feature_space[right_ns];
         // multiply features in right namespace by l^k * x_l
         for (size_t i = 0; i < fs.size(); ++i) fs.values[i] *= data.sub_predictions[2 * k - 1];

         // update r^k using base learner
         base.update(ec, k + data.rank);
         ec.pred.scalar = ec.updated_prediction;

         // restore right namespace features
         fs.deep_copy_from(data.temp_features);
       }
     }
   }
   // restore namespace indices
   copy_array(ec.indices, data.indices);

   // restore original prediction
   ec.pred.scalar = predicted;
 }

 void finish(mf& o)
 {
   // restore global pairs
   o.all->pairs = o.pairs;
 }

 base_learner* mf_setup(options_i& options, vw& all)
 {
   auto data = scoped_calloc_or_throw<mf>();
   option_group_definition new_options("Matrix Factorization Reduction");
   new_options.add(make_option("new_mf", data->rank).keep().help("rank for reduction-based matrix factorization"));
   options.add_and_parse(new_options);

   if (!options.was_supplied("new_mf"))
     return nullptr;

   data->all = &all;
   // store global pairs in local data structure and clear global pairs
   // for eventual calls to base learner
   data->pairs = all.pairs;
   all.pairs.clear();

   all.random_positive_weights = true;

   learner<mf, example>& l =
       init_learner(data, as_singleline(setup_base(options, all)), learn, predict<false>, 2 * data->rank + 1);
   l.set_finish(finish);
   return make_base(l);
 }
v_array::resize
void resize(size_t length)
Definition: v_array.h:69

GD::finalize_prediction
float finalize_prediction(shared_data *sd, float ret)
Definition: gd.cc:339

example_predict::indices
v_array< namespace_index > indices
Definition: example_predict.h:40

learn
void learn(mf &data, single_learner &base, example &ec)
Definition: mf.cc:111

LEARNER::learner::predict
void predict(E &ec, size_t i=0)
Definition: learner.h:169

features::deep_copy_from
void deep_copy_from(const features &src)
Definition: feature_group.h:384

finish
void finish(mf &o)
Definition: mf.cc:189

vw::pairs
std::vector< std::string > pairs
Definition: global_data.h:459

polyprediction::scalar
float scalar
Definition: example.h:45

gd.h

vw::random_positive_weights
bool random_positive_weights
Definition: global_data.h:493

copy_array
void copy_array(v_array< T > &dst, const v_array< T > &src)
Definition: v_array.h:185

features
the core definition of a set of features.
Definition: feature_group.h:241

LEARNER::make_base
base_learner * make_base(learner< T, E > &base)
Definition: learner.h:462

VW::config::option_group_definition
Definition: options.h:85

example::partial_prediction
float partial_prediction
Definition: example.h:68

features::values
v_array< feature_value > values
Definition: feature_group.h:243

mf::sub_predictions
v_array< float > sub_predictions
Definition: mf.cc:28

VW::config::options_i::add_and_parse
virtual void add_and_parse(const option_group_definition &group)=0

example::updated_prediction
float updated_prediction
Definition: example.h:69

mf::predict_indices
v_array< unsigned char > predict_indices
Definition: mf.cc:31

LEARNER::learner
Definition: cb_explore.h:11

mf::pairs
std::vector< std::string > pairs
Definition: mf.cc:20

vw
Definition: global_data.h:369

example_predict::feature_space
std::array< features, NUM_NAMESPACES > feature_space
Definition: example_predict.h:41

LEARNER::as_singleline
single_learner * as_singleline(learner< T, E > *l)
Definition: learner.h:476

features::size
size_t size() const
Definition: feature_group.h:280

LEARNER::init_learner
learner< T, E > & init_learner(free_ptr< T > &dat, L *base, void(*learn)(T &, L &, E &), void(*predict)(T &, L &, E &), size_t ws, prediction_type::prediction_type_t pred_type)
Definition: learner.h:369

v_array::push_back
void push_back(const T &new_ele)
Definition: v_array.h:107

vw::sd
shared_data * sd
Definition: global_data.h:375

v_array::clear
void clear()
Definition: v_array.h:88

VW::config::options_i::was_supplied
virtual bool was_supplied(const std::string &key)=0

VW::config::options_i
Definition: options.h:107

example
Definition: example.h:54

mf::rank
size_t rank
Definition: mf.cc:22

reductions.h

mf_setup
base_learner * mf_setup(options_i &options, vw &all)
Definition: mf.cc:195

mf::temp_features
features temp_features
Definition: mf.cc:37

VW::config
Definition: options.h:11

predict
void predict(mf &data, single_learner &base, example &ec)
Definition: mf.cc:50

VW::config::make_option
typed_option< T > make_option(std::string name, T &location)
Definition: options.h:80

LEARNER::learner::set_finish
void set_finish(void(*f)(T &))
Definition: learner.h:265

mf::increment
uint32_t increment
Definition: mf.cc:24

setup_base
LEARNER::base_learner * setup_base(options_i &options, vw &all)
Definition: parse_args.cc:1222

mf::indices
v_array< unsigned char > indices
Definition: mf.cc:34

example::pred
polyprediction pred
Definition: example.h:60

LEARNER
Definition: cb_explore.h:8

v_array::delete_v
void delete_v()
Definition: v_array.h:98

mf::all
vw * all
Definition: mf.cc:39

v_array< float >

mf
Definition: mf.cc:18

mf::~mf
~mf()
Definition: mf.cc:41