L2正则项与早停止(Early Stop)之间的数学联系

最近在看Goodfellow和Bengio等人的大作《Deep Learning》(以下简称DL Book)。 这本书从数学本质分析了很多我们认为“理所应当”、甚至是认为“很工程”的算法。 这篇文章主要就是介绍Early Stop这个算法和\(L^2\)正则项之间的联系。早停止算法在DL Book的第七章第八节中介绍的。 仔细研读之后发现很有收获。收货有二: 了解到了哪怕像早停止这种看起来简单粗暴纯工程的方法,其背后都是有深厚的数学依托来证明其合理性的。 学习到了一种寻找事物内在联系的方法:近似。当我们怀疑二者之间有联系,而二者之间的解析形式明显不同的时候,我们可以用相同的近似理论来将这二者“统一”到一个相同的形式然后去寻找他们的联系。 下面我就按照原书中的脉络,从“定性”和“定量”

[翻译] WILDML RNN系列教程 第三部分 BPTT算法和梯度扩散

翻译自WILDML博客文章: Recurrent Neural Networks Tutorial, Part 3 - Backpropagation Through Time and Vanishing Gradients 这份教程是比较通俗易懂的RNN教程,从基本知识到RNN的实现,再到GRU/LSTM等变种均有详述。但是原帖中由于渲染的问题,很多LaTeX的公式都显示不了。本文初衷是为了归档这个系列的教程,并解决公式显示的问题。而后索性将其译为中文,方便以后重新回顾。 笔者才疏学浅,翻译过程中难免有误,请见谅,亦烦请勘误。 文中部分术语会按照笔者所认为之惯用词语进行翻译,英文原词亦包括其中,以供参考。 在之前的教程中,我们从无到有实现了一个RNN,

[翻译] WILDML RNN系列教程 第二部分 使用Python,NumPy,Theano实现一个RNN

翻译自WILDML博客文章: Recurrent Neural Networks Tutorial, Part 2 - Implementing a RNN with Python, NumPy and Theano 这份教程是比较通俗易懂的RNN教程,从基本知识到RNN的实现,再到GRU/LSTM等变种均有详述。但是原帖中由于渲染的问题,很多LaTeX的公式都显示不了。本文初衷是为了归档这个系列的教程,并解决公式显示的问题。而后索性将其译为中文,方便以后重新回顾。 笔者才疏学浅,翻译过程中难免有误,请见谅,亦烦请勘误。 文中部分术语会按照笔者所认为之惯用词语进行翻译,英文原词亦包括其中,以供参考。

[翻译] WILDML RNN系列教程 第一部分 RNN简介

翻译自WILDML博客文章: Recurrent Neural Networks Tutorial, Part 1 - Introduction to RNNs 这份教程是比较通俗易懂的RNN教程,从基本知识到RNN的实现,再到GRU/LSTM等变种均有详述。但是原帖中由于渲染的问题,很多LaTeX的公式都显示不了。本文初衷是为了归档这个系列的教程,并解决公式显示的问题。而后索性将其译为中文,方便以后重新回顾。 笔者才疏学浅,翻译过程中难免有误,请见谅,亦烦请勘误。 文中部分术语会按照笔者所认为之惯用词语进行翻译,英文原词亦包括其中,以供参考。 Recurrent Neural Networks (RNNs) 是一类比较流行的模型,