【Datawhale AI夏令营】基于术语词典干预的机器翻译挑战赛 - TASK1
2301_79072904 2024-07-27 17:01:02 阅读 58
一、项目概述与个人体验
今天,我根据项目文档进行了代码的运行,对项目的运行逻辑以及关键参数的作用有了初步的了解。通过这次实践,我对序列到序列(Seq2Seq)模型和门控循环单元(GRU)模型有了基本的认识,并且掌握了数据处理的基本思路。为了优化结果,我调整了N(选择数据集的前N个样本进行训练)和N_EPOCHS(一次epoch是指将所有数据训练一遍的次数)两个参数。目前,项目运行顺利,没有遇到太大的问题,整体体验良好,为后续深入研究奠定了基础。
二、Baseline概念解析
在数据科学和机器学习领域,Baseline指的是一个简单的模型或解决方案,用于作为比较的标准。对于初次参加Datawhale夏令营的小伙伴来说,Baseline通常是完成比赛或项目的第一个代码实现,其算法相对简单,更侧重于基础功能的实现。本次项目的Baseline是构建和训练一个基于PyTorch的序列到序列(Seq2Seq)机器翻译模型。
三、数据处理
1.1 TranslationDataset类
TranslationDataset类是数据处理的核心,它负责读取数据、制作词典、处理特殊词以及数字化准备。以下是该类的主要功能:
读取数据:从文件中读取英语和中文句子对。制作词典:收集所有英语词和中文字,并给它们编号。特殊词处理:确保专业术语被包含在词典中。数字化准备:创建从单词到数字的映射。
<code>class TranslationDataset(Dataset):
def __init__(self, filename, terminology):
self.data = []
with open(filename, 'r', encoding='utf-8') as f:code>
for line in f:
en, zh = line.strip().split('\t')
self.data.append((en, zh))
self.terminology = terminology
# 创建词汇表
self.en_tokenizer = get_tokenizer('basic_english')
self.zh_tokenizer = list # 使用字符级分词
en_vocab = Counter(self.terminology.keys())
zh_vocab = Counter()
for en, zh in self.data:
en_vocab.update(self.en_tokenizer(en))
zh_vocab.update(self.zh_tokenizer(zh))
# 添加特殊标记和常用词到词汇表
self.en_vocab = ['<pad>', '<sos>', '<eos>'] + list(self.terminology.keys()) + [word for word, _ in en_vocab.most_common(10000)]
self.zh_vocab = ['<pad>', '<sos>', '<eos>'] + [word for word, _ in zh_vocab.most_common(10000)]
self.en_word2idx = { word: idx for idx, word in enumerate(self.en_vocab)}
self.zh_word2idx = { word: idx for idx, word in enumerate(self.zh_vocab)}
1.2 collate_fn函数
collate_fn函数的作用是将不同长度的句子整理成一批,以便于模型处理。它主要包括以下步骤:
1.收集一批数据中的英语和中文句子。
2. 将它们填充到相同的长度,便于计算机处理。
四、模型架构
2.1 编码器(Encoder)
编码器负责理解输入的英语句子。其主要组件包括:
Embedding:将英语单词转换为数字向量。RNN(GRU):理解整个句子的含义。Dropout:防止模型过拟合。
2.2 解码器(Decoder)
解码器负责生成中文翻译。其主要组件包括:
1.Embedding:处理中文字。RNN(GRU):记住之前翻译的内容。fc_out:预测下一个中文字。
实例代码如下:
class Decoder(nn.Module):
def __init__(self, output_dim, emb_dim, hid_dim, n_layers, dropout):
super().__init__()
self.output_dim = output_dim
self.embedding = nn.Embedding(output_dim, emb_dim)
self.rnn = nn.GRU(emb_dim, hid_dim, n_layers, dropout=dropout, batch_first=True)
self.fc_out = nn.Linear(hid_dim, output_dim)
self.dropout = nn.Dropout(dropout)
def forward(self, input, hidden):
input = input.unsqueeze(1)
embedded = self.dropout(self.embedding(input))
output, hidden = self.rnn(embedded, hidden)
prediction = self.fc_out(output.squeeze(1))
return prediction, hidden
2.3 Seq2Seq模型
Seq2Seq模型将编码器和解码器组合在一起,实现完整的翻译功能。该模型使用"教师强制"策略(由teacher_forcing_ratio控制)来指导翻译过程。
五、BLEU评分函数
BLEU是一种广泛使用的机器翻译评估方法,通过比较机器翻译结果与人工翻译的参考文本来评估翻译质量。BLEU的评估过程包括:
准备工作:加载源语言句子和参考翻译句子。翻译过程:使用模型翻译源语言句子。计算BLEU分数:比较模型的翻译和人工翻译,给出0到100之间的分数。
实例代码如下:
from sacrebleu.metrics import BLEU
def evaluate_bleu(model, dataset, src_file, ref_file, terminology, device):
model.eval()
src_sentences = load_sentences(src_file)
ref_sentences = load_sentences(ref_file)
translated_sentences = []
for src in src_sentences:
translated = translate_sentence(src, model, dataset, terminology, device)
translated_sentences.append(translated)
bleu = BLEU()
score = bleu.corpus_score(translated_sentences, [ref_sentences])
return score
BLEU通过精确度检查、完整性检查、长度惩罚和N-gram匹配等方式来评估翻译质量。通过BLEU评分,我们可以客观地评估翻译模型性能,并比较不同模型或跟踪模型训练过程中的进步。
声明
本文内容仅代表作者观点,或转载于其他网站,本站不以此文作为商业用途
如有涉及侵权,请联系本站进行删除
转载本站原创文章,请注明来源及作者。