懒懒洋洋的blog

发表于2025-09-22

质能方程的表达是 E=mc2E = mc^2E=mc2，这是一个伟大的发现。块级公式： ∫−∞∞e−x2dx=π\int_{-\infty}^{\infty} e^{-x^2} dx = \sqrt{\pi} ∫−∞∞e−x2dx=π μ=1n∑i=1nxiσ=1n∑i=1n(xi−μ)2+ε（加上一个小常数 ε 以防除零）归一化:x^i=xi−μσ\begin{aligned} \mu &= \frac{1}{n}\sum_{i=1}^{n} x_i \\ \sigma &= \sqrt{\frac{1}{n}\sum_{i=1}^{n} (x_i-\mu)^2 + \varepsilon} \qquad \text{（加上一个小常数 $\varepsilon$ 以防除零）} \\ \text{归一化:}\quad \hat{x}_i &= \frac{x_i -...

RNN 全面详解与 PyTorch 实战（含 LSTM/GRU）

发表于2025-09-21|机器学习深度学习

这是一篇面向自我复习/长期查阅的笔记式教程，覆盖 RNN 基础原理、BPTT、梯度问题、LSTM/GRU 结构与 PyTorch 代码示例，可直接用于 Hexo 博客（已含 YAML Front‑Matter、Mermaid 图与公式）。目录为什么需要 RNN RNN 工作原理前向传播与 BPTT 梯度消失/爆炸与常见对策 LSTM：长短期记忆网络 GRU：门控循环单元 RNN / LSTM / GRU 对比双向 RNN 与 Seq2Seq 扩展 PyTorch 实战代码清单训练与调参清单总结为什么需要 RNN 许多真实数据是序列：文本、语音、时间序列（股价/气温/用电负荷）等。普通前馈网络缺少“记忆”，难以利用上下文依赖。循环神经网络（RNN）通过在时间维度引入隐藏状态并复用参数，让模型具备“把过去带到现在”的能力，从而建模时间依赖。 RNN 工作原理给定长度为 T 的输入序列 (x_1,\dots,x_T)，基本 RNN...

Transformer 全面指南：从原理到实践（含 PyTorch 实现）

发表于2025-09-21|AINLP

Transformer 架构分词(Tokenization) 目标：将一串连续的、人类可读的自然语言文本，切分成一个个模型能够理解的“单元”，并为每个单元分配一个唯一的数字 ID 。 1. 选择分词器(Tokenizer) 现代 Transformer （如 BERT ， GPT ）通常使用子词分词法（ Subword Tokenization ），例如 WordPiece （ BERT ）、 Byte-Pair Encoding (BPE)（ GPT ）、 SentencePiece 等。这种方法的好处是能很好地平衡词汇表大小与未登录词（ OOV ）问题。它可以将陌生长词拆分成已知的、更小的子词甚至字符。 2.执行分词例如，使用 BERT 的 WordPiece 分词器对句子进行分词：原始文本： “I love natural language processing.” 分词后： [“I”, “love”, “natural”, “language”, “processing”,...

<span style="color:#d14;font-weight:bold">Transformer</span>

发表于2025-09-21|AINLP

Transformer 架构分词(Tokenization) 目标：将一串连续的、人类可读的自然语言文本，切分成一个个模型能够理解的“单元”，并为每个单元分配一个唯一的数字 ID 。 1. 选择分词器(Tokenizer) 现代 Transformer （如 BERT ， GPT ）通常使用子词分词法（ Subword Tokenization ），例如 WordPiece （ BERT ）、 Byte-Pair Encoding (BPE)（ GPT ）、 SentencePiece 等。这种方法的好处是能很好地平衡词汇表大小与未登录词（ OOV ）问题。它可以将陌生长词拆分成已知的、更小的子词甚至字符。 2.执行分词例如，使用 BERT 的 WordPiece 分词器对句子进行分词：原始文本： “I love natural language processing.” 分词后： [“I”, “love”, “natural”, “language”, “processing”,...

Transformer

发表于2025-09-21|AINLP

一、前言 2017 年 Google 提出的论文《Attention Is All You Need》引入了 Transformer 架构，如今几乎所有主流的 AI 模型（如 OpenAI 的 ChatGPT、Google 的 Bard、Meta 的 LLaMA 等等）都基于 Transformer。Transformer 由于能够同时处理局部和长程依赖，并且支持高效的并行化训练，一经问世便逐步取代了过去的 RNN 和 CNN，成为 NLP 领域新的标准范式。不仅如此，在计算机视觉（CV）领域，纯基于注意力机制的 Vision Transformer 也展现出媲美甚至超越 CNN 的性能，引发了图像识别方法的新一轮变革。 Transformer 的崛起源于对序列建模瓶颈的突破。相比 RNN 模型存在梯度消失且难以捕获长程依赖、且无法在时间步并行处理训练样本，以及 CNN 模型只能擅长局部模式难以处理长距离信息——Transformer 的自注意力机制允许模型“全局看待”序列中任意距离的元素关系，并在不使用循环的情况下直接并行计算序列表示。这种革命性的特性，使得...

CNN 全面详解（含计算过程与图示）

发表于2025-09-21|机器学习计算机视觉

目标：写给未来的自己，每次回看都能从概念→公式→实现→调参一条龙回忆起来。 ✅ 公式与详细计算过程（输出尺寸、参数量、FLOPs、感受野） ✅ ASCII/mermaid 图示（卷积滑窗、网络结构、残差块） ✅ PyTorch 代码（可直接跑：模型、训练、评估、形状追踪） ✅ 经典 CNN 架构清单（LeNet、AlexNet、VGG、ResNet） ✅ 常见坑与调参 checklist 1. 卷积到底在做什么？（直觉 + 数学） 1.1 直觉卷积核（filter/kernel）像一个可学习的模板，在图像上滑动，计算局部“相似度”，输出特征图（feature map）。两个关键理念：局部连接（只看小窗口）+ 参数共享（同一核在全图复用）。 1.2 符号与公式（二维卷积）给定输入张量 (X\in\mathbb{R}^{H\times W\times C_{in}})，卷积核 (W\in\mathbb{R}^{k\times k\times C_{in}\times C_{out}})，步幅 (S)，填充...