Test Math
质能方程的表达是 E=mc2E = mc^2E=mc2,这是一个伟大的发现。 块级公式: ∫−∞∞e−x2dx=π\int_{-\infty}^{\infty} e^{-x^2} dx = \sqrt{\pi} ∫−∞∞e−x2dx=π μ=1n∑i=1nxiσ=1n∑i=1n(xi−μ)2+ε(加上一个小常数 ε 以防除零)归一化:x^i=xi−μσ\begin{aligned} \mu &= \frac{1}{n}\sum_{i=1}^{n} x_i \\ \sigma &= \sqrt{\frac{1}{n}\sum_{i=1}^{n} (x_i-\mu)^2 + \varepsilon} \qquad \text{(加上一个小常数 $\varepsilon$ 以防除零)} \\ \text{归一化:}\quad \hat{x}_i &= \frac{x_i -...
RNN 全面详解与 PyTorch 实战(含 LSTM/GRU)
这是一篇面向自我复习/长期查阅的笔记式教程,覆盖 RNN 基础原理、BPTT、梯度问题、LSTM/GRU 结构与 PyTorch 代码示例,可直接用于 Hexo 博客(已含 YAML Front‑Matter、Mermaid 图与公式)。 目录 为什么需要 RNN RNN 工作原理 前向传播与 BPTT 梯度消失/爆炸与常见对策 LSTM:长短期记忆网络 GRU:门控循环单元 RNN / LSTM / GRU 对比 双向 RNN 与 Seq2Seq 扩展 PyTorch 实战代码清单 训练与调参清单 总结 为什么需要 RNN 许多真实数据是序列:文本、语音、时间序列(股价/气温/用电负荷)等。普通前馈网络缺少“记忆”,难以利用上下文依赖。循环神经网络(RNN)通过在时间维度引入隐藏状态并复用参数,让模型具备“把过去带到现在”的能力,从而建模时间依赖。 RNN 工作原理 给定长度为 T 的输入序列 (x_1,\dots,x_T),基本 RNN...
Transformer 全面指南:从原理到实践(含 PyTorch 实现)
Transformer 架构 分词(Tokenization) 目标:将一串连续的、人类可读的自然语言文本,切分成一个个模型能够理解的“单元”,并为每个单元分配一个唯一的数字 ID 。 1. 选择分词器(Tokenizer) 现代 Transformer (如 BERT , GPT )通常使用子词分词法( Subword Tokenization ),例如 WordPiece ( BERT )、 Byte-Pair Encoding (BPE)( GPT )、 SentencePiece 等。 这种方法的好处是能很好地平衡词汇表大小与未登录词( OOV )问题。它可以将陌生长词拆分成已知的、更小的子词甚至字符。 2.执行分词 例如,使用 BERT 的 WordPiece 分词器对句子进行分词: 原始文本: “I love natural language processing.” 分词后: [“I”, “love”, “natural”, “language”, “processing”,...
<span style="color:#d14;font-weight:bold">Transformer</span>
Transformer 架构 分词(Tokenization) 目标:将一串连续的、人类可读的自然语言文本,切分成一个个模型能够理解的“单元”,并为每个单元分配一个唯一的数字 ID 。 1. 选择分词器(Tokenizer) 现代 Transformer (如 BERT , GPT )通常使用子词分词法( Subword Tokenization ),例如 WordPiece ( BERT )、 Byte-Pair Encoding (BPE)( GPT )、 SentencePiece 等。 这种方法的好处是能很好地平衡词汇表大小与未登录词( OOV )问题。它可以将陌生长词拆分成已知的、更小的子词甚至字符。 2.执行分词 例如,使用 BERT 的 WordPiece 分词器对句子进行分词: 原始文本: “I love natural language processing.” 分词后: [“I”, “love”, “natural”, “language”, “processing”,...
Transformer
一、前言 2017 年 Google 提出的论文《Attention Is All You Need》引入了 Transformer 架构,如今几乎所有主流的 AI 模型(如 OpenAI 的 ChatGPT、Google 的 Bard、Meta 的 LLaMA 等等)都基于 Transformer。Transformer 由于能够同时处理局部和长程依赖,并且支持高效的并行化训练,一经问世便逐步取代了过去的 RNN 和 CNN,成为 NLP 领域新的标准范式。不仅如此,在计算机视觉(CV)领域,纯基于注意力机制的 Vision Transformer 也展现出媲美甚至超越 CNN 的性能,引发了图像识别方法的新一轮变革。 Transformer 的崛起源于对序列建模瓶颈的突破。相比 RNN 模型存在梯度消失且难以捕获长程依赖、且无法在时间步并行处理训练样本,以及 CNN 模型只能擅长局部模式难以处理长距离信息——Transformer 的自注意力机制允许模型“全局看待”序列中任意距离的元素关系,并在不使用循环的情况下直接并行计算序列表示。这种革命性的特性,使得...
CNN 全面详解(含计算过程与图示)
目标:写给未来的自己,每次回看都能 从概念→公式→实现→调参 一条龙回忆起来。 ✅ 公式与详细计算过程(输出尺寸、参数量、FLOPs、感受野) ✅ ASCII/mermaid 图示(卷积滑窗、网络结构、残差块) ✅ PyTorch 代码(可直接跑:模型、训练、评估、形状追踪) ✅ 经典 CNN 架构清单(LeNet、AlexNet、VGG、ResNet) ✅ 常见坑与调参 checklist 1. 卷积到底在做什么?(直觉 + 数学) 1.1 直觉 卷积核(filter/kernel)像一个可学习的模板,在图像上滑动,计算局部“相似度”,输出 特征图(feature map)。 两个关键理念:局部连接(只看小窗口)+ 参数共享(同一核在全图复用)。 1.2 符号与公式(二维卷积) 给定输入张量 (X\in\mathbb{R}^{H\times W\times C_{in}}),卷积核 (W\in\mathbb{R}^{k\times k\times C_{in}\times C_{out}}),步幅 (S),填充...

