import math
import time

import torch
import torch.nn as nn
import torch.nn.functional as F
from torch.nn import TransformerEncoder, TransformerEncoderLayer

import torchtext
from torchtext.data.utils import get_tokenizer


class Transformer(nn.Module):
    def __init__(self, num_token, num_inputs, num_heads, num_hidden, num_layers, dropout=0.3):
        super(Transformer, self).__init__()
        self.model_name = 'transformer'
        self.mask_source = None
        self.position_enc = PosEnc(num_inputs, dropout)
        layers_enc = TransformerEncoderLayer(num_inputs, num_heads, num_hidden, dropout)
        self.enc_transformer = TransformerEncoder(layers_enc, num_layers)
        self.enc = nn.Embedding(num_token, num_inputs)
        self.num_inputs = num_inputs
        self.dec = nn.Linear(num_inputs, num_token)
        self.init_params()

    def _gen_sqr_nxt_mask(self, size):
        msk = (torch.triu(torch.ones(size, size)) == 1).transpose(0, 1)
        msk = msk.float().masked_fill(msk == 0, float('-inf'))
        msk = msk.masked_fill(msk == 1, float(0.0))
        return msk

    def init_params(self):
        initial_rng = 0.12
        self.enc.weight.data.uniform_(-initial_rng, initial_rng)
        self.dec.bias.data.zero_()
        self.dec.weight.data.uniform_(-initial_rng, initial_rng)
    
    # 입력은 위치적으로 인코딩 된 다음 인코더를 통과한 다음 디코더를 통과한다.
    def forward(self, source):
        if self.mask_source is None or self.mask_source.size(0) != len(source):
            dvc = source.device
            msk = self._gen_sqr_nxt_mask(len(source)).to(dvc)
            self.mask_source = msk

        source = self.enc(source) * math.sqrt(self.num_inputs)
        source = self.position_enc(source)
        op = self.enc_transformer(source, self.mask_source)
        op = self.dec(op)
        return op


class PosEnc(nn.Module):
    def __init__(self, d_m, dropout=0.2, size_limit=5000):
        # d_m is same as the dimension of the embeddings
        super(PosEnc, self).__init__()
        self.dropout = nn.Dropout(dropout)
        p_enc = torch.zeros(size_limit, d_m)
        pos = torch.arange(0, size_limit, dtype=torch.float).unsqueeze(1)
        divider = torch.exp(torch.arange(0, d_m, 2).float() * (-math.log(10000.0) / d_m))
        # divider is the list of radians, multiplied by position indices of words, and fed to the sinusoidal and cosinusoidal function
        p_enc[:, 0::2] = torch.sin(pos * divider)
        p_enc[:, 1::2] = torch.cos(pos * divider)
        p_enc = p_enc.unsqueeze(0).transpose(0, 1)
        self.register_buffer('p_enc', p_enc)

    def forward(self, x):
        return self.dropout(x + self.p_enc[:x.size(0), :])


# 사전 토큰화
TEXT = torchtext.data.Field(tokenize=get_tokenizer("basic_english"), lower=True, eos_token='<eos>', init_token='<sos>')
training_text, validation_text, testing_text = torchtext.datasets.WikiText2.splits(TEXT)
TEXT.build_vocab(training_text)
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")

# 훈련 및 검증에 사용될 배치 크기 정의
def gen_batches(text_dataset, batch_size):
    text_dataset = TEXT.numericalize([text_dataset.examples[0].text])
    # 텍스트 데이터셋을 batch_size와 동일한 크기의 부분으로 나눔
    num_batches = text_dataset.size(0) // batch_size
    # 배치 밖에 위치한 데이터 포인트(나머지에 해당하는 부분)를 제거
    text_dataset = text_dataset.narrow(0, 0, num_batches * batch_size)
    # 데이터셋을 배치에 균등하게 배포
    text_dataset = text_dataset.view(batch_size, -1).t().contiguous()
    return text_dataset.to(device)

training_batch_size = 32
evaluation_batch_size = 16

training_data = gen_batches(training_text, training_batch_size)
validation_data = gen_batches(validation_text, evaluation_batch_size)
testing_data = gen_batches(testing_text, evaluation_batch_size)


max_seq_len = 64
def return_batch(src, k):
    sequence_length = min(max_seq_len, len(src) - 1 - k)
    sequence_data = src[k:k+sequence_length]
    sequence_label = src[k+1:k+1+sequence_length].view(-1)
    return sequence_data, sequence_label


num_tokens = len(TEXT.vocab.stoi) # vocabulary size
embedding_size = 256 # dimension of embedding layer
num_hidden_params = 256 # transformer encoder's hidden (feed forward) layer dimension
num_layers = 2 # num of transformer encoder layers within transformer encoder
num_heads = 2 # num of heads in (multi head) attention models
dropout = 0.25 # value (fraction) of dropout
loss_func = nn.CrossEntropyLoss()
lrate = 4.0 # learning rate
transformer_model = Transformer(num_tokens, embedding_size, num_heads, num_hidden_params, num_layers, 
                                     dropout).to(device)
optim_module = torch.optim.SGD(transformer_model.parameters(), lr=lrate)
sched_module = torch.optim.lr_scheduler.StepLR(optim_module, 1.0, gamma=0.88)


def train_model():
    transformer_model.train()
    loss_total = 0.
    time_start = time.time()
    num_tokens = len(TEXT.vocab.stoi)
    for b, i in enumerate(range(0, training_data.size(0) - 1, max_seq_len)):
        train_data_batch, train_label_batch = return_batch(training_data, i)
        optim_module.zero_grad()
        op = transformer_model(train_data_batch)
        loss_curr = loss_func(op.view(-1, num_tokens), train_label_batch)
        loss_curr.backward()
        torch.nn.utils.clip_grad_norm_(transformer_model.parameters(), 0.6)
        optim_module.step()

        loss_total += loss_curr.item()
        interval = 100
        if b % interval == 0 and b > 0:
            loss_interval = loss_total / interval
            time_delta = time.time() - time_start
            print(f"epoch {ep}, {b}/{len(training_data)//max_seq_len} batches, training loss {loss_interval:.2f}, training perplexity {math.exp(loss_interval):.2f}")
            loss_total = 0
            time_start = time.time()

def eval_model(eval_model_obj, eval_data_source):
    eval_model_obj.eval() 
    loss_total = 0.
    num_tokens = len(TEXT.vocab.stoi)
    with torch.no_grad():
        for j in range(0, eval_data_source.size(0) - 1, max_seq_len):
            eval_data, eval_label = return_batch(eval_data_source, j)
            op = eval_model_obj(eval_data)
            op_flat = op.view(-1, num_tokens)
            loss_total += len(eval_data) * loss_func(op_flat, eval_label).item()
    return loss_total / (len(eval_data_source) - 1)


# 모델 훈련 루프 실행
min_validation_loss = float("inf")
eps = 5
best_model_so_far = None

for ep in range(1, eps + 1):
    ep_time_start = time.time()
    train_model()
    validation_loss = eval_model(transformer_model, validation_data)
    print()
    print(f"epoch {ep:}, validation loss {validation_loss:.2f}, validation perplexity {math.exp(validation_loss):.2f}")
    print()

    if validation_loss < min_validation_loss:
        min_validation_loss = validation_loss
        best_model_so_far = transformer_model

    sched_module.step()

epoch 1, 100/1018 batches, training loss 8.50, training perplexity 4901.66
epoch 1, 200/1018 batches, training loss 7.16, training perplexity 1286.24
epoch 1, 300/1018 batches, training loss 6.76, training perplexity 865.43
epoch 1, 400/1018 batches, training loss 6.55, training perplexity 702.21
epoch 1, 500/1018 batches, training loss 6.45, training perplexity 631.90
epoch 1, 600/1018 batches, training loss 6.31, training perplexity 548.01
epoch 1, 700/1018 batches, training loss 6.25, training perplexity 516.28
epoch 1, 800/1018 batches, training loss 6.11, training perplexity 450.42
epoch 1, 900/1018 batches, training loss 6.09, training perplexity 441.72
epoch 1, 1000/1018 batches, training loss 6.08, training perplexity 436.78

epoch 1, validation loss 5.82, validation perplexity 336.19

epoch 2, 100/1018 batches, training loss 5.98, training perplexity 394.64
epoch 2, 200/1018 batches, training loss 5.90, training perplexity 364.08
epoch 2, 300/1018 batches, training loss 5.82, training perplexity 337.72
epoch 2, 400/1018 batches, training loss 5.78, training perplexity 324.68
epoch 2, 500/1018 batches, training loss 5.82, training perplexity 335.50
epoch 2, 600/1018 batches, training loss 5.77, training perplexity 319.43
epoch 2, 700/1018 batches, training loss 5.78, training perplexity 322.60
epoch 2, 800/1018 batches, training loss 5.65, training perplexity 283.28
epoch 2, 900/1018 batches, training loss 5.67, training perplexity 291.07
epoch 2, 1000/1018 batches, training loss 5.71, training perplexity 300.54

epoch 2, validation loss 5.53, validation perplexity 251.09

epoch 3, 100/1018 batches, training loss 5.67, training perplexity 288.79
epoch 3, 200/1018 batches, training loss 5.59, training perplexity 268.81
epoch 3, 300/1018 batches, training loss 5.55, training perplexity 257.23
epoch 3, 400/1018 batches, training loss 5.52, training perplexity 249.65
epoch 3, 500/1018 batches, training loss 5.55, training perplexity 257.02
epoch 3, 600/1018 batches, training loss 5.52, training perplexity 249.50
epoch 3, 700/1018 batches, training loss 5.53, training perplexity 252.90
epoch 3, 800/1018 batches, training loss 5.39, training perplexity 219.61
epoch 3, 900/1018 batches, training loss 5.44, training perplexity 230.41
epoch 3, 1000/1018 batches, training loss 5.49, training perplexity 241.15

epoch 3, validation loss 5.37, validation perplexity 215.04

epoch 4, 100/1018 batches, training loss 5.46, training perplexity 235.42
epoch 4, 200/1018 batches, training loss 5.40, training perplexity 220.81
epoch 4, 300/1018 batches, training loss 5.36, training perplexity 213.61
epoch 4, 400/1018 batches, training loss 5.34, training perplexity 208.66
epoch 4, 500/1018 batches, training loss 5.37, training perplexity 213.88
epoch 4, 600/1018 batches, training loss 5.35, training perplexity 210.60
epoch 4, 700/1018 batches, training loss 5.36, training perplexity 213.75
epoch 4, 800/1018 batches, training loss 5.21, training perplexity 183.18
epoch 4, 900/1018 batches, training loss 5.26, training perplexity 193.41
epoch 4, 1000/1018 batches, training loss 5.32, training perplexity 205.22

epoch 4, validation loss 5.31, validation perplexity 202.42

epoch 5, 100/1018 batches, training loss 5.31, training perplexity 202.77
epoch 5, 200/1018 batches, training loss 5.25, training perplexity 189.64
epoch 5, 300/1018 batches, training loss 5.22, training perplexity 184.80
epoch 5, 400/1018 batches, training loss 5.20, training perplexity 181.18
epoch 5, 500/1018 batches, training loss 5.22, training perplexity 185.54
epoch 5, 600/1018 batches, training loss 5.21, training perplexity 182.95
epoch 5, 700/1018 batches, training loss 5.22, training perplexity 185.69
epoch 5, 800/1018 batches, training loss 5.07, training perplexity 158.79
epoch 5, 900/1018 batches, training loss 5.13, training perplexity 169.36
epoch 5, 1000/1018 batches, training loss 5.19, training perplexity 179.63

epoch 5, validation loss 5.23, validation perplexity 186.53


testing_loss = eval_model(best_model_so_far, testing_data)
print(f"testing loss {testing_loss:.2f}, testing perplexity {math.exp(testing_loss):.2f}")

---------------------------------------------------------------------------
NameError                                 Traceback (most recent call last)
Cell In[2], line 1
----> 1 testing_loss = eval_model(best_model_so_far, testing_data)
      2 print(f"testing loss {testing_loss:.2f}, testing perplexity {math.exp(testing_loss):.2f}")

NameError: name 'eval_model' is not defined

[파이토치 딥러닝 프로젝트] 언어 모델링을 위한 트랜스포머 모델

언어 모델링

트랜스포머 모델 아키텍처

트랜스포머 모델의 다양한 요소

<Two self-Attention : Multi-head-Attention> 구현 : Pytouch

트랜스포모 모델 훈련¶