0 简述 Transformer改进了RNN最被人诟病的训练慢的缺点,利用self-attention机制实现快速并行。 ...

关注我们的公众号

微信公众号