整體代碼

上節重點分析了資料加載相關代碼，本節將重點分析下模型訓練相關的代碼，整個模型相關部分的代碼如下：

import tensorflow as tf

from Dice import dice

class Model(object):

  def __init__(self, user_count, item_count, cate_count, cate_list, predict_batch_size, predict_ads_num):

    self.u = tf.placeholder(tf.int32, [None,]) # [B] 用戶id
    self.i = tf.placeholder(tf.int32, [None,]) # [B] 推薦商品id
    self.j = tf.placeholder(tf.int32, [None,]) # [B] 
    self.y = tf.placeholder(tf.float32, [None,]) # [B] 是否點擊
    self.hist_i = tf.placeholder(tf.int32, [None, None]) # [B, T] 之前點擊商品id串列
    self.sl = tf.placeholder(tf.int32, [None,]) # [B] 之前點擊商品個數
    self.lr = tf.placeholder(tf.float32, []) # 學習率

    hidden_units = 128

    user_emb_w = tf.get_variable("user_emb_w", [user_count, hidden_units]) # 用戶embedding
    item_emb_w = tf.get_variable("item_emb_w", [item_count, hidden_units // 2]) # 商品embedding
    item_b = tf.get_variable("item_b", [item_count],
                             initializer=tf.constant_initializer(0.0))
    cate_emb_w = tf.get_variable("cate_emb_w", [cate_count, hidden_units // 2])
    cate_list = tf.convert_to_tensor(cate_list, dtype=tf.int64) # 所有商品的分類List

    ic = tf.gather(cate_list, self.i)
    i_emb = tf.concat(values = [
        tf.nn.embedding_lookup(item_emb_w, self.i),
        tf.nn.embedding_lookup(cate_emb_w, ic),
        ], axis=1)
        # 推薦商品i的embedding + 分類embedding B*T,BATCH_SIZE個一維向量，
        # 兩個embedding的向量維度均為hidden_units // 2，故拼接后的embedding向量的維度為hidden_units
    i_b = tf.gather(item_b, self.i)

    jc = tf.gather(cate_list, self.j)
    j_emb = tf.concat([
        tf.nn.embedding_lookup(item_emb_w, self.j),
        tf.nn.embedding_lookup(cate_emb_w, jc),
        ], axis=1)
    j_b = tf.gather(item_b, self.j)

    hc = tf.gather(cate_list, self.hist_i)
    h_emb = tf.concat([
        tf.nn.embedding_lookup(item_emb_w, self.hist_i),
        tf.nn.embedding_lookup(cate_emb_w, hc),
        ], axis=2) # 之前點過商品的embedding + 分類embedding B*N*T,BATCH_SIZE個樣本 * N個訪問記錄 * 一維向量

    hist_i =attention(i_emb, h_emb, self.sl)
    # 放回 [B,1,H],一個Batch每一個樣本都有一個 sum pooling出的embedding向量，
    # embedding向量維度為hidden_units，
    #-- attention end ---
    
    hist_i = tf.layers.batch_normalization(inputs = hist_i)
    hist_i = tf.reshape(hist_i, [-1, hidden_units], name='hist_bn')
    # [B, hidden_units]，每一個embedding向量的維度是hidden_units，
    hist_i = tf.layers.dense(hist_i, hidden_units, name='hist_fcn')
    u_emb_i = hist_i
    
    hist_j =attention(j_emb, h_emb, self.sl)
    # 
    #-- attention end ---
    
    # hist_j = tf.layers.batch_normalization(inputs = hist_j)
    hist_j = tf.layers.batch_normalization(inputs = hist_j, reuse=True)
    hist_j = tf.reshape(hist_j, [-1, hidden_units], name='hist_bn')
    hist_j = tf.layers.dense(hist_j, hidden_units, name='hist_fcn', reuse=True)

    u_emb_j = hist_j
    print(u_emb_i.get_shape().as_list())
    print(u_emb_j.get_shape().as_list())
    print(i_emb.get_shape().as_list())
    print(j_emb.get_shape().as_list())
    #-- fcn begin -------
    din_i = tf.concat([u_emb_i, i_emb, u_emb_i * i_emb], axis=-1)
    din_i = tf.layers.batch_normalization(inputs=din_i, name='b1')
    d_layer_1_i = tf.layers.dense(din_i, 80, activation=tf.nn.sigmoid, name='f1')
    #if u want try dice change sigmoid to None and add dice layer like following two lines. You can also find model_dice.py in this folder.
    # d_layer_1_i = tf.layers.dense(din_i, 80, activation=None, name='f1')
    # d_layer_1_i = dice(d_layer_1_i, name='dice_1_i')
    d_layer_2_i = tf.layers.dense(d_layer_1_i, 40, activation=tf.nn.sigmoid, name='f2')
    # d_layer_2_i = tf.layers.dense(d_layer_1_i, 40, activation=None, name='f2')
    # d_layer_2_i = dice(d_layer_2_i, name='dice_2_i')
    d_layer_3_i = tf.layers.dense(d_layer_2_i, 1, activation=None, name='f3')
    din_j = tf.concat([u_emb_j, j_emb, u_emb_j * j_emb], axis=-1)
    din_j = tf.layers.batch_normalization(inputs=din_j, name='b1', reuse=True)
    d_layer_1_j = tf.layers.dense(din_j, 80, activation=tf.nn.sigmoid, name='f1', reuse=True)
    # d_layer_1_j = tf.layers.dense(din_j, 80, activation=None, name='f1', reuse=True)
    # d_layer_1_j = dice(d_layer_1_j, name='dice_1_j')
    d_layer_2_j = tf.layers.dense(d_layer_1_j, 40, activation=tf.nn.sigmoid, name='f2', reuse=True)
    # d_layer_2_j = tf.layers.dense(d_layer_1_j, 40, activation=None, name='f2', reuse=True)
    # d_layer_2_j = dice(d_layer_2_j, name='dice_2_j')
    d_layer_3_j = tf.layers.dense(d_layer_2_j, 1, activation=None, name='f3', reuse=True)
    d_layer_3_i = tf.reshape(d_layer_3_i, [-1])
    d_layer_3_j = tf.reshape(d_layer_3_j, [-1])
    x = i_b - j_b + d_layer_3_i - d_layer_3_j # [B]
    self.logits = i_b + d_layer_3_i
    
    # prediciton for selected items
    # logits for selected item:
    item_emb_all = tf.concat([
        item_emb_w,
        tf.nn.embedding_lookup(cate_emb_w, cate_list)
        ], axis=1)
    item_emb_sub = item_emb_all[:predict_ads_num,:]
    item_emb_sub = tf.expand_dims(item_emb_sub, 0)
    item_emb_sub = tf.tile(item_emb_sub, [predict_batch_size, 1, 1])
    hist_sub =attention_multi_items(item_emb_sub, h_emb, self.sl)
    #-- attention end ---
    
    hist_sub = tf.layers.batch_normalization(inputs = hist_sub, name='hist_bn', reuse=tf.AUTO_REUSE)
    # print hist_sub.get_shape().as_list() 
    hist_sub = tf.reshape(hist_sub, [-1, hidden_units])
    hist_sub = tf.layers.dense(hist_sub, hidden_units, name='hist_fcn', reuse=tf.AUTO_REUSE)

    u_emb_sub = hist_sub
    item_emb_sub = tf.reshape(item_emb_sub, [-1, hidden_units])
    din_sub = tf.concat([u_emb_sub, item_emb_sub, u_emb_sub * item_emb_sub], axis=-1)
    din_sub = tf.layers.batch_normalization(inputs=din_sub, name='b1', reuse=True)
    d_layer_1_sub = tf.layers.dense(din_sub, 80, activation=tf.nn.sigmoid, name='f1', reuse=True)
    #d_layer_1_sub = dice(d_layer_1_sub, name='dice_1_sub')
    d_layer_2_sub = tf.layers.dense(d_layer_1_sub, 40, activation=tf.nn.sigmoid, name='f2', reuse=True)
    #d_layer_2_sub = dice(d_layer_2_sub, name='dice_2_sub')
    d_layer_3_sub = tf.layers.dense(d_layer_2_sub, 1, activation=None, name='f3', reuse=True)
    d_layer_3_sub = tf.reshape(d_layer_3_sub, [-1, predict_ads_num])
    self.logits_sub = tf.sigmoid(item_b[:predict_ads_num] + d_layer_3_sub)
    self.logits_sub = tf.reshape(self.logits_sub, [-1, predict_ads_num, 1])
    #-- fcn end -------

    
    self.mf_auc = tf.reduce_mean(tf.to_float(x > 0))
    self.score_i = tf.sigmoid(i_b + d_layer_3_i)
    self.score_j = tf.sigmoid(j_b + d_layer_3_j)
    self.score_i = tf.reshape(self.score_i, [-1, 1])
    self.score_j = tf.reshape(self.score_j, [-1, 1])
    self.p_and_n = tf.concat([self.score_i, self.score_j], axis=-1)
    print(self.p_and_n.get_shape().as_list())


    # Step variable
    self.global_step = tf.Variable(0, trainable=False, name='global_step')
    self.global_epoch_step = \
        tf.Variable(0, trainable=False, name='global_epoch_step')
    self.global_epoch_step_op = \
        tf.assign(self.global_epoch_step, self.global_epoch_step+1)

    self.loss = tf.reduce_mean(
        tf.nn.sigmoid_cross_entropy_with_logits(
            logits=self.logits,
            labels=self.y)
        )

    trainable_params = tf.trainable_variables()
    self.opt = tf.train.GradientDescentOptimizer(learning_rate=self.lr)
    gradients = tf.gradients(self.loss, trainable_params)
    clip_gradients, _ = tf.clip_by_global_norm(gradients, 5)
    self.train_op = self.opt.apply_gradients(
        zip(clip_gradients, trainable_params), global_step=self.global_step)


  def train(self, sess, uij, l):
    loss, _ = sess.run([self.loss, self.train_op], feed_dict={
        self.u: uij[0],
        self.i: uij[1],
        self.y: uij[2],
        self.hist_i: uij[3],
        self.sl: uij[4],
        self.lr: l,
        })
    return loss

  def eval(self, sess, uij):
    u_auc, socre_p_and_n = sess.run([self.mf_auc, self.p_and_n], feed_dict={
        self.u: uij[0],
        self.i: uij[1],
        self.j: uij[2],
        self.hist_i: uij[3],
        self.sl: uij[4],
        })
    return u_auc, socre_p_and_n
  
  def test(self, sess, uij):
    return sess.run(self.logits_sub, feed_dict={
        self.u: uij[0],
        self.i: uij[1],
        self.j: uij[2],
        self.hist_i: uij[3],
        self.sl: uij[4],
        })
  

  def save(self, sess, path):
    saver = tf.train.Saver()
    saver.save(sess, save_path=path)

  def restore(self, sess, path):
    saver = tf.train.Saver()
    saver.restore(sess, save_path=path)

def extract_axis_1(data, ind):
  batch_range = tf.range(tf.shape(data)[0])
  indices = tf.stack([batch_range, ind], axis=1)
  res = tf.gather_nd(data, indices)
  return res

def attention(queries, keys, keys_length):
  '''
    queries:     [B, H] BATCH_SIZE個embedding向量（二維矩陣）
    keys:        [B, T, H] BATCH_SIZE個之前訪問T個商品的embedding向量（三維矩陣）
    keys_length: [B] batch_size里面，每個用戶之前點擊過商品的個數，注意這里和T的區別，T是取的所有里面的最大值，是定長，而這里是非定長的，表示的是實際點擊的商品數，
  '''
  queries_hidden_units = queries.get_shape().as_list()[-1] # 推薦商品的embedding向量維度
  queries = tf.tile(queries, [1, tf.shape(keys)[1]]) # queries的1緯不變，2維擴張為原來的T倍，即之前點擊過的商品數，
  # querise緯度變為 [B, T*H]
  queries = tf.reshape(queries, [-1, tf.shape(keys)[1], queries_hidden_units])
  # 修改querise緯度變為[B, T, H]，對于一個推薦商品，其會生成T個重復的相同一個推薦商品的embedding向量，
  din_all = tf.concat([queries, keys, queries-keys, queries*keys], axis=-1)
  # 最后一個維度拼接到一起，拼接后變為 [B, T, 4*H]
  d_layer_1_all = tf.layers.dense(din_all, 80, activation=tf.nn.sigmoid, name='f1_att', reuse=tf.AUTO_REUSE)
  # 第一層網路，輸出[B, T, 80]
  d_layer_2_all = tf.layers.dense(d_layer_1_all, 40, activation=tf.nn.sigmoid, name='f2_att', reuse=tf.AUTO_REUSE)
  # 第二層網路，輸出[B, T, 40]
  d_layer_3_all = tf.layers.dense(d_layer_2_all, 1, activation=None, name='f3_att', reuse=tf.AUTO_REUSE)
  # 第三層網路，輸出[B, T, 1]
  d_layer_3_all = tf.reshape(d_layer_3_all, [-1, 1, tf.shape(keys)[1]])
  outputs = d_layer_3_all
  # 最后的輸出為 [B, 1, T]
  # Mask
  key_masks = tf.sequence_mask(keys_length, tf.shape(keys)[1])   # [B, T]
  # 標識矩陣B * T個點位，哪些是true （存在之前點擊過的商品）哪些是false（不存在之前點擊過的商品）
  #例如：tf.sequence_mask([1, 3, 2], 5)，回傳值為：
  # [[True, False, False, False, False],
  #  [True, True, True, False, False],
  #  [True, True, False, False, False]]
  key_masks = tf.expand_dims(key_masks, 1) # [B, 1, T]
  # 緯度變為 [B, 1, T]
  paddings = tf.ones_like(outputs) * (-2 ** 32 + 1)
  # 生成與outputs緯度相同的tensor，緯度為 [B, 1, T]，所有值初始化為：-2 ** 32 + 1，之所以如此初始化是因為-2 ** 32 + 1 在softmax中取值無限接近于0.
  outputs = tf.where(key_masks, outputs, paddings)  # [B, 1, T]
  # key_masks對應點如果為true，則賦值為對應outputs點的值，如果為false（不存在的），賦值為對應paddings點的值：-2 ** 32 + 1，
  # Scale
  outputs = outputs / (keys.get_shape().as_list()[-1] ** 0.5)
  # 歸一化處理 outputs = outputs / sqrt(H)
  # Activation
  outputs = tf.nn.softmax(outputs)  # [B, 1, T]
  # softmax，最后T個維度分別表示T個產品和推薦產品的相關性，相關性越高對應softmax輸出值就越大，
  # Weighted sum
  outputs = tf.matmul(outputs, keys)  # [B, 1, H]
  # sum polling： 基于相關性和attention機制，選擇相關性高的embedding向量，
  # 兩個矩陣維度分別為 [B, 1, T] 和 [B, T, H]，實際是矩陣的后兩緯相乘：[1,T]*[T,H]，第一個[1,T]向量，每一個代表了相關度大小，
  # 相關度越高，對應的歷史點擊商品和當前推薦商品的
  return outputs # 回傳 B * 1 * H

def attention_multi_items(queries, keys, keys_length):
  '''
    queries:     [B, N, H] N is the number of ads
    keys:        [B, T, H] 
    keys_length: [B]
  '''
  queries_hidden_units = queries.get_shape().as_list()[-1] # 推薦商品的embedding向量維度
  queries_nums = queries.get_shape().as_list()[1] # 推薦商品的個數
  queries = tf.tile(queries, [1, 1, tf.shape(keys)[1]]) # queries的1維和2維不變，3維擴張為原來的的T倍，T對應之前看過的商品數，
  # [B,N,T*H]
  queries = tf.reshape(queries, [-1, queries_nums, tf.shape(keys)[1], queries_hidden_units]) 
  # 變為四維，即shape : [B, N, T, H]
  max_len = tf.shape(keys)[1]
  keys = tf.tile(keys, [1, queries_nums, 1])
  keys = tf.reshape(keys, [-1, queries_nums, max_len, queries_hidden_units])
  # shape : [B, N, T, H]， 推薦商品embedding和訪問商品embedding形成一一對應
  din_all = tf.concat([queries, keys, queries-keys, queries*keys], axis=-1) #最后一層拼接到一起
  d_layer_1_all = tf.layers.dense(din_all, 80, activation=tf.nn.sigmoid, name='f1_att', reuse=tf.AUTO_REUSE)
  d_layer_2_all = tf.layers.dense(d_layer_1_all, 40, activation=tf.nn.sigmoid, name='f2_att', reuse=tf.AUTO_REUSE)
  d_layer_3_all = tf.layers.dense(d_layer_2_all, 1, activation=None, name='f3_att', reuse=tf.AUTO_REUSE)
  d_layer_3_all = tf.reshape(d_layer_3_all, [-1, queries_nums, 1, max_len])
  # [B,N,1,T]
  outputs = d_layer_3_all 
  # Mask
  key_masks = tf.sequence_mask(keys_length, max_len)   # [B, T]
  key_masks = tf.tile(key_masks, [1, queries_nums])
  key_masks = tf.reshape(key_masks, [-1, queries_nums, 1, max_len]) # shape : [B, N, 1, T]
  paddings = tf.ones_like(outputs) * (-2 ** 32 + 1)
  outputs = tf.where(key_masks, outputs, paddings)  # [B, N, 1, T]

  # Scale
  outputs = outputs / (keys.get_shape().as_list()[-1] ** 0.5)

  # Activation
  outputs = tf.nn.softmax(outputs)  # [B, N, 1, T]
  outputs = tf.reshape(outputs, [-1, 1, max_len])
  keys = tf.reshape(keys, [-1, max_len, queries_hidden_units])
  #print outputs.get_shape().as_list()
  #print keys.get_sahpe().as_list()
  # Weighted sum
  outputs = tf.matmul(outputs, keys)
  outputs = tf.reshape(outputs, [-1, queries_nums, queries_hidden_units])  # [B, N, 1, H]
  print(outputs.get_shape().as_list())
  return outputs

網路結構主要是在model類初始化建構式__init__中完成定義和初始化，model類呼叫train函式完成訓練，分開來進一步分析代碼：

訓練函式和輸入：

  def train(self, sess, uij, l):
    loss, _ = sess.run([self.loss, self.train_op], feed_dict={
        self.u: uij[0], # 用戶id
        self.i: uij[1], # 推薦商品id
        self.y: uij[2], # 是否點擊該商品
        self.hist_i: uij[3], # 之前點擊商品串列
        self.sl: uij[4], #之前點擊商品個數
        self.lr: l, # 學習率
        })
    return loss

其中，輸入：用戶id、商品id、是否點擊該商品（label: 0 或者 1）和點擊商品個數均為1維：batch_size(一個batch的樣本數) 大小的向量，而輸入：之前點擊商品串列為2維：batch_size * T(所有batch_size個樣本里點擊過商品最大的個數)，輸入tensor與訓練函式的輸入資料對應：

    self.u = tf.placeholder(tf.int32, [None,]) # [B] 用戶id
    self.i = tf.placeholder(tf.int32, [None,]) # [B] 推薦商品id
    self.j = tf.placeholder(tf.int32, [None,]) # [B] 
    self.y = tf.placeholder(tf.float32, [None,]) # [B] 是否點擊
    self.hist_i = tf.placeholder(tf.int32, [None, None]) # [B, T] 之前點擊商品id串列
    self.sl = tf.placeholder(tf.int32, [None,]) # [B] 之前點擊商品個數
    self.lr = tf.placeholder(tf.float32, []) # 學習率

embedding層定義

    hidden_units = 128

    user_emb_w = tf.get_variable("user_emb_w", [user_count, hidden_units]) # 用戶embedding
    item_emb_w = tf.get_variable("item_emb_w", [item_count, hidden_units // 2]) # 商品embedding
    item_b = tf.get_variable("item_b", [item_count],
                             initializer=tf.constant_initializer(0.0))
    cate_emb_w = tf.get_variable("cate_emb_w", [cate_count, hidden_units // 2])
    cate_list = tf.convert_to_tensor(cate_list, dtype=tf.int64) # 所有商品的分類List

embedding層定義如下幾個embedding層：

用戶id的embedding：user_emb_w

商品item id的embedding： item_emb_w

商品分類的embedding：cate_emb_w

以及：

商品item id的embedding的偏置：item_b

所有商品對應的商品分類（大約有幾百個分類，初始化輸入后轉換為固定的tensor）：cate_list（1對1分類的List，List索引位置對應商品id編碼，直接通過索引找到商品分類）

embedding特征拼接

    ic = tf.gather(cate_list, self.i)
    i_emb = tf.concat(values = [
        tf.nn.embedding_lookup(item_emb_w, self.i),
        tf.nn.embedding_lookup(cate_emb_w, ic),
        ], axis=1)
        # 推薦商品i的embedding + 分類embedding B*T,BATCH_SIZE個一維向量，
        # 兩個embedding的向量維度均為hidden_units // 2，故拼接后的embedding向量的維度為hidden_units
    i_b = tf.gather(item_b, self.i)

    jc = tf.gather(cate_list, self.j)
    j_emb = tf.concat([
        tf.nn.embedding_lookup(item_emb_w, self.j),
        tf.nn.embedding_lookup(cate_emb_w, jc),
        ], axis=1)
    j_b = tf.gather(item_b, self.j)

    hc = tf.gather(cate_list, self.hist_i)
    h_emb = tf.concat([
        tf.nn.embedding_lookup(item_emb_w, self.hist_i),
        tf.nn.embedding_lookup(cate_emb_w, hc),
        ], axis=2) # 之前點過商品的embedding + 分類embedding B*N*T,BATCH_SIZE個樣本 * N個訪問記錄 * 一維向量

這里，i_emb為商品id embedding特征和商品分類embedding特征拼接到一起的特征，i_b為對應embedding特征的偏置，其對應維度為： B(BATCH_SIZE)*H(embedding向量維度128)，h_emb為之前點擊過的商品id embedding特征和分類embedding特征拼接到一起的特征，由于點擊過的商品可能有多個，其緯度為：B(BATCH_SIZE)*T(所有batch_size個樣本里點擊過商品最大的個數)*H(embedding向量維度128)，

attention層

attention實作代碼：

    hist_i =attention(i_emb, h_emb, self.sl)
    # 回傳 [B,1,H],一個Batch每一個樣本都有一個 sum pooling出的embedding向量，
    # embedding向量維度為hidden_units，

attention函式定義：

def attention(queries, keys, keys_length):
  '''
    queries:     [B, H] BATCH_SIZE個embedding向量（二維矩陣）
    keys:        [B, T, H] BATCH_SIZE個之前訪問T個商品的embedding向量（三維矩陣）
    keys_length: [B] batch_size里面，每個用戶之前點擊過商品的個數，注意這里和T的區別，T是取的所有里面的最大值，是定長，而這里是非定長的，表示的是實際點擊的商品數，
  '''
  queries_hidden_units = queries.get_shape().as_list()[-1] # 推薦商品的embedding向量維度
  queries = tf.tile(queries, [1, tf.shape(keys)[1]]) # queries的1緯不變，2維擴張為原來的T倍，即之前點擊過的商品數，
  # querise緯度變為 [B, T*H]
  queries = tf.reshape(queries, [-1, tf.shape(keys)[1], queries_hidden_units])
  # 修改querise緯度變為[B, T, H]，對于一個推薦商品，其會生成T個重復的相同一個推薦商品的embedding向量，
  din_all = tf.concat([queries, keys, queries-keys, queries*keys], axis=-1)
  # 最后一個維度拼接到一起，拼接后變為 [B, T, 4*H]
  d_layer_1_all = tf.layers.dense(din_all, 80, activation=tf.nn.sigmoid, name='f1_att', reuse=tf.AUTO_REUSE)
  # 第一層網路，輸出[B, T, 80]
  d_layer_2_all = tf.layers.dense(d_layer_1_all, 40, activation=tf.nn.sigmoid, name='f2_att', reuse=tf.AUTO_REUSE)
  # 第二層網路，輸出[B, T, 40]
  d_layer_3_all = tf.layers.dense(d_layer_2_all, 1, activation=None, name='f3_att', reuse=tf.AUTO_REUSE)
  # 第三層網路，輸出[B, T, 1]
  d_layer_3_all = tf.reshape(d_layer_3_all, [-1, 1, tf.shape(keys)[1]])
  outputs = d_layer_3_all
  # 最后的輸出為 [B, 1, T]
  # Mask
  key_masks = tf.sequence_mask(keys_length, tf.shape(keys)[1])   # [B, T]
  # 標識矩陣B * T個點位，哪些是true （存在之前點擊過的商品）哪些是false（不存在之前點擊過的商品）
  #例如：tf.sequence_mask([1, 3, 2], 5)，回傳值為：
  # [[True, False, False, False, False],
  #  [True, True, True, False, False],
  #  [True, True, False, False, False]]
  key_masks = tf.expand_dims(key_masks, 1) # [B, 1, T]
  # 緯度變為 [B, 1, T]
  paddings = tf.ones_like(outputs) * (-2 ** 32 + 1)
  # 生成與outputs緯度相同的tensor，緯度為 [B, 1, T]，所有值初始化為：-2 ** 32 + 1，之所以如此初始化是因為-2 ** 32 + 1 在softmax中取值無限接近于0.
  outputs = tf.where(key_masks, outputs, paddings)  # [B, 1, T]
  # key_masks對應點如果為true，則賦值為對應outputs點的值，如果為false（不存在的），賦值為對應paddings點的值：-2 ** 32 + 1，
  # Scale
  outputs = outputs / (keys.get_shape().as_list()[-1] ** 0.5)
  # 歸一化處理 outputs = outputs / sqrt(H)
  # Activation
  outputs = tf.nn.softmax(outputs)  # [B, 1, T]
  # softmax，最后T個維度分別表示T個產品和推薦產品的相關性，相關性越高對應softmax輸出值就越大，
  # Weighted sum
  outputs = tf.matmul(outputs, keys)  # [B, 1, H]
  # sum polling： 基于相關性和attention機制，選擇相關性高的embedding向量，
  # 兩個矩陣維度分別為 [B, 1, T] 和 [B, T, H]，實際是矩陣的后兩緯相乘：[1,T]*[T,H]，第一個[1,T]向量，每一個代表了相關度大小，
  # 相關度越高，對應的歷史點擊商品和當前推薦商品的
  return outputs # 回傳 B * 1 * H

這是論文演算法中最核心的部分，代碼中已經給了詳細注釋，基本原理就是通過一個3層全連接的神經網路來學習當前推薦商品i_emb和之前點擊所有商品的embedding特征h_emb中每一個商品的特征的相關性，這里通過輸入兩個embedding特征的以及它們之間的差和乘積來增強對特征的學習：

din_all = tf.concat([queries, keys, queries-keys, queries*keys], axis=-1)

隨后，通過softmax生成attention機制，最后通過sum pooling根據相關性選擇出之前點擊過的相關性較高的商品的embedding特征，

全連接層

    hist_i = tf.layers.batch_normalization(inputs = hist_i)
    hist_i = tf.reshape(hist_i, [-1, hidden_units], name='hist_bn')
    # [B, hidden_units]，每一個embedding向量的維度是hidden_units，
    hist_i = tf.layers.dense(hist_i, hidden_units, name='hist_fcn')
    u_emb_i = hist_i
 
    din_i = tf.concat([u_emb_i, i_emb, u_emb_i * i_emb], axis=-1)
    din_i = tf.layers.batch_normalization(inputs=din_i, name='b1')
    d_layer_1_i = tf.layers.dense(din_i, 80, activation=tf.nn.sigmoid, name='f1')
    #if u want try dice change sigmoid to None and add dice layer like following two lines. You can also find model_dice.py in this folder.
    # d_layer_1_i = tf.layers.dense(din_i, 80, activation=None, name='f1')
    # d_layer_1_i = dice(d_layer_1_i, name='dice_1_i')
    d_layer_2_i = tf.layers.dense(d_layer_1_i, 40, activation=tf.nn.sigmoid, name='f2')
    # d_layer_2_i = tf.layers.dense(d_layer_1_i, 40, activation=None, name='f2')
    # d_layer_2_i = dice(d_layer_2_i, name='dice_2_i')
    d_layer_3_i = tf.layers.dense(d_layer_2_i, 1, activation=None, name='f3')
    din_j = tf.concat([u_emb_j, j_emb, u_emb_j * j_emb], axis=-1)
    din_j = tf.layers.batch_normalization(inputs=din_j, name='b1', reuse=True)
    d_layer_1_j = tf.layers.dense(din_j, 80, activation=tf.nn.sigmoid, name='f1', reuse=True)
    # d_layer_1_j = tf.layers.dense(din_j, 80, activation=None, name='f1', reuse=True)
    # d_layer_1_j = dice(d_layer_1_j, name='dice_1_j')
    d_layer_2_j = tf.layers.dense(d_layer_1_j, 40, activation=tf.nn.sigmoid, name='f2', reuse=True)
    # d_layer_2_j = tf.layers.dense(d_layer_1_j, 40, activation=None, name='f2', reuse=True)
    # d_layer_2_j = dice(d_layer_2_j, name='dice_2_j')
    d_layer_3_j = tf.layers.dense(d_layer_2_j, 1, activation=None, name='f3', reuse=True)
    d_layer_3_i = tf.reshape(d_layer_3_i, [-1])
    d_layer_3_j = tf.reshape(d_layer_3_j, [-1])
    x = i_b - j_b + d_layer_3_i - d_layer_3_j # [B]
    self.logits = i_b + d_layer_3_i

attention層挑選出的用戶歷史行為特征u_emb_i和商品特征i_emb以及兩特征向量乘積送入全連接網路，最后加入偏置i_b成為最終logistic判定的輸入：

self.logits = i_b + d_layer_3_i

損失函式和訓練

最終損失函式為：

    self.loss = tf.reduce_mean(
        tf.nn.sigmoid_cross_entropy_with_logits(
            logits=self.logits,
            labels=self.y)
        )

訓練函式為：

    trainable_params = tf.trainable_variables()
    self.opt = tf.train.GradientDescentOptimizer(learning_rate=self.lr)
    gradients = tf.gradients(self.loss, trainable_params)
    clip_gradients, _ = tf.clip_by_global_norm(gradients, 5) # 避免一次迭代中權重的更新過于迅猛
    self.train_op = self.opt.apply_gradients( 
        zip(clip_gradients, trainable_params), global_step=self.global_step)

這里可以與最開始部分介紹的模型呼叫的訓練函式train()對應上了，

轉載請註明出處，本文鏈接：https://www.uj5u.com/qita/423557.html

標籤：AI

上一篇：知識圖譜 ——知識存盤與檢索

下一篇：Pyecharts 獵聘招聘資料可視化