💬 观点Andrej Karpathy

Deep Neural Nets: 33 years ago and 33 years from now — Karpathy 复现 33 年前的经典神经网络论文，探讨深度学习进步的本质。

Karpathy 复现 33 年前的经典神经网络论文，探讨深度学习进步的本质。

2022-03-14原文

本文为要点摘要，完整细节以原文为准。

Andrej Karpathy 通过复现 Yann LeCun 等人 1989 年的手写邮编识别论文，进行了一次关于深度学习进展的案例研究。

论文的现代性：尽管数据集和网络规模极小，但该论文的结构（数据集、架构、损失函数、优化、实验结果）与当今的深度学习论文高度相似，展现了其前瞻性。这对开发者意味着，核心的研究范式具有长久的生命力。
复现的挑战与速度飞跃：由于原始数据集丢失等细节模糊，精确复现几乎不可能。但硬件和软件（如 PyTorch）的进步使得训练时间从当年的 3 天缩短至约 90 秒。这揭示了工具链的演进为实验迭代带来了革命性的加速。
“时间旅行”式改进：利用现代知识（如交叉熵损失、AdamW 优化器、数据增强）可以显著提升原模型的性能，降低测试误差。这表明，过去三十多年的算法与工程积累，是推动性能边界的关键，而不仅仅是算力。

原文：Deep Neural Nets: 33 years ago and 33 years from now · 作者 Andrej Karpathy