统计语言模型，神经网络模型, 预训练模型

1 绪论(了解)

自然语言处理(NLP)的定义是什么?

自然语言处理（Natural Language Processing，NLP）是人工智能领域的一个重要分支，专注于通过计算机技术实现人类自然语言的理解、解析、生成和交互。其核心目标是使计算机能够像人类一样处理语言数据，从而支持机器翻译、情感分析、文本摘要、问答系统等实际应用。

NLP发展的四个阶段:

初创期
理性主义时代
经验主义时代
深度学习时代

1. 初创期（1950s-1970s）

特点：基于规则和符号逻辑，依赖语言学理论。

技术：手工编写语法规则（如上下文无关文法）、词典和语义模板。

局限：规则覆盖范围有限，难以处理复杂语言现象（如歧义、隐喻）。

代表成果：机器翻译（如Georgetown-IBM实验）、ELIZA聊天机器人。

2. 理性主义时代（1980s-1990s）

特点：引入统计方法和概率模型，但仍结合语言学知识。

技术：隐马尔可夫模型（HMM）、上下文无关文法增强版、词汇化语法。

突破：统计机器翻译（如IBM Model系列）、词性标注和句法分析取得进展。

局限：依赖专家设计的特征工程，数据稀疏问题突出。

3. 经验主义时代（1990s-2010s）

特点：数据驱动，统计学习主导，弱化人工规则。

技术：支持向量机（SVM）、最大熵模型、条件随机场（CRF），以及基于大规模语料库的统计方法。

突破：搜索引擎、垃圾邮件过滤、浅层语义分析（如情感分类）。

关键转变：从“规则编码”转向“从数据中学习”，但特征仍需人工设计。

4. 深度学习时代（2010s至今）

特点：端到端学习，自动提取特征，模型复杂度显著提升。

技术：神经网络（RNN、LSTM）、注意力机制、Transformer（如BERT、GPT）、预训练-微调范式。

突破：机器翻译（如Google Neural MT）、文本生成、问答系统，模型参数量达万亿级（如GPT-3）。

挑战：计算资源需求高、可解释性差、伦理与偏见问题。

总结

NLP的发展从规则驱动到数据驱动，再到表示学习驱动，体现了从“人工设计”到“自动学习”的范式迁移。未来可能向多模态、低资源、可解释性等方向演进。

NLP的基本问题:

形态学
语法学syntax
语义学Semantics
语音学Phonetics
语用学Pragmatics

NLP面临的困难

歧义现象:结构歧义词义歧义语音歧义词语切分歧义指代歧义和省略歧义语用歧义

未知的语音现象:新词汇新含义新用法新句型等层出不穷

自然语言处理（NLP）面临的核心困难可归纳为两大类：语言本身的复杂性和动态变化的挑战。以下是具体分析：

一、歧义现象（Ambiguity）

语言歧义贯穿所有层面，是NLP的最大障碍之一：

结构歧义

同一句子可能有多种语法解析（如“Flying planes can be dangerous”可理解为“驾驶飞机危险”或“飞行的飞机危险”）。

词义歧义

多义词依赖上下文消歧（如“苹果”指水果还是公司？）。

语音歧义

同音词（如“to/two/too”）或口音差异导致语音识别错误。

词语切分歧义

无空格语言（如中文）的分词难题（如“美国会”可切分为“美/国会”或“美国/会”）。

指代歧义与省略

代词（如“他”“它”）指代不明，或省略主语（如“看完电影了，[我]觉得不错”）。

语用歧义

隐含意图或讽刺（如“这主意真棒”可能是褒义或反讽）。

影响：模型需结合上下文、常识和世界知识才能准确理解，但当前系统仍易被歧义误导。

二、未知语言现象（Dynamic Language）

语言是动态演变的，NLP需持续适应：

新词汇

网络用语（如“绝绝子”）、专业术语、外来词（如“元宇宙/Metaverse”）不断涌现。

新含义与新用法

旧词新义（如“下头”从动作变为形容失望），或语法变异（如“很男权”）。

新句型与表达

新兴句式（如“栓Q”表感谢）、缩写（如“yyds”）、混合语言（如“笑skr人”）。

挑战：

传统静态语料库和词典难以覆盖新现象。

预训练模型（如GPT-4）虽能部分捕捉新词，但依赖实时数据更新，且可能生成错误内容。

三、其他关键挑战

数据偏差：训练数据中的文化、性别等偏见会被模型放大。

资源稀缺：小语种或领域专用数据不足。

常识与推理：语言隐含的常识（如“人用脚走路”）难以系统化建模。

总结：NLP的困难本质是语言的非确定性与人类认知的复杂性的结合。尽管深度学习提升了泛化能力，但彻底解决这些问题仍需突破多模态理解、动态适应和因果推理等方向。

2 数据基础

2.1 概率论基础

条件概率全概率贝叶斯激活函数最大似然估计梯度下降

以下是自然语言处理（NLP）和机器学习中几个核心概念的简要说明：

1. 条件概率（Conditional Probability）

定义：事件A在事件B已发生条件下的概率，记为 $P(A|B)$。

公式：
$$ P(A|B) = \frac{P(A \cap B)}{P(B)} \quad (P(B) \neq 0) $$

应用：NLP中的语言模型（如n-gram）、词性标注（根据上下文推测词性）。

2. 全概率公式（Law of Total Probability）

定义：若事件 $B_1, B_2, \dots, B_n$ 互斥且完备（覆盖所有可能），则：
$$ P(A) = \sum_{i=1}^n P(A|B_i)P(B_i) $$

应用：复杂事件的概率分解（如分类任务中计算边缘概率）。

3. 贝叶斯定理（Bayes’ Theorem）

定义：基于条件概率的反向推理：
$$ P(B|A) = \frac{P(A|B)P(B)}{P(A)} $$

应用：

垃圾邮件分类（根据词频反推邮件类别）
医学诊断（从症状反推疾病概率）

4. 激活函数（Activation Function）

作用：为神经网络引入非线性，决定神经元是否激活。

常见类型：

Sigmoid：输出范围 $(0,1)$，用于二分类（易梯度消失）
ReLU：$\max(0,x)$，解决梯度消失，广泛用于隐藏层
Softmax：多分类输出归一化为概率分布

应用：深度学习模型（如BERT、LSTM）的核心组件。

5. 最大似然估计（MLE）

在所有可能的参数中，选择让当前观测数据出现概率最大的那个参数

定义：通过最大化似然函数 $\mathcal{L}(\theta | X)$ 估计参数 $\theta$（假设数据i.i.d.）：
$$ \hat{\theta} = \arg\max_\theta P(X|\theta) $$

应用：统计语言模型训练、逻辑回归参数学习。

6. 梯度下降（Gradient Descent）

目标：最小化损失函数 $J(\theta)$。

更新规则：
$$ \theta_{t+1} = \theta_t – \eta \nabla_\theta J(\theta) $$
其中 $\eta$ 为学习率。

变体：

SGD：单样本更新，速度快但震荡
Adam：自适应学习率，结合动量

应用：训练神经网络、优化可微模型（如Word2Vec）。

比如线性回归要求模型参数theta 和 b

使得损失函数(均方误差)最小化使用的办法就是梯度下降法

要找二元函数最值(通常是最小值) 为什么可以用梯度下降法? 原理是什么

同样的对二元函数的梯度下降法可以推广到任意多维无非是对每个要求的参数求偏导

总结

概率基础：条件概率、全概率、贝叶斯是统计NLP的基石
优化工具：MLE提供参数估计理论，梯度下降实现实际优化
神经网络核心：激活函数决定非线性能力，梯度下降驱动参数学习

这些概念共同支撑了从传统统计方法到现代深度学习的NLP技术演进。

2.2 信息论基础

熵条件熵互信息相对熵 KL散度交叉熵困惑度双字耦合度与互信息

以下是关于信息论中核心概念的详细分述，结合定义、公式、计算示例及NLP应用场景：

1. 熵（Entropy）

定义：
$$H(X) = -\sum_{x \in \mathcal{X}} p(x) \log p(x)$$
示例（公平硬币）：
$$H(X) = -[0.5 \log 0.5 + 0.5 \log 0.5] = 1 \text{ bit}$$

2. 条件熵（Conditional Entropy）

定义：
$$H(X|Y) = \sum_{y \in \mathcal{Y}} p(y) H(X|Y=y) = -\sum_{x,y} p(x,y) \log p(x|y)$$
示例（天气影响外出）：
$$H(X|Y) = 0.6 \cdot H(0.8) + 0.4 \cdot H(0.1) \approx 0.49 \text{ bit}$$

3. 互信息（Mutual Information, MI）

定义：
$$I(X;Y) = \sum_{x,y} p(x,y) \log \frac{p(x,y)}{p(x)p(y)} = H(X) – H(X|Y)$$
示例（词共现分析）：
$$I = 0.008 \log \frac{0.008}{0.01 \times 0.02} \approx 0.263 \text{ bit}$$

4. KL散度（相对熵）

定义：
$$D_{KL}(P | Q) = \sum_{x} p(x) \log \frac{p(x)}{q(x)}$$
示例（分布差异）：
$$D_{KL}(P | Q) = 0.9 \log \frac{0.9}{0.8} + 0.1 \log \frac{0.1}{0.2} \approx 0.058$$

5. 交叉熵（Cross-Entropy）

定义：
$$H(P, Q) = -\sum_{x} p(x) \log q(x) = H(P) + D_{KL}(P | Q)$$
示例（分类损失）：
$$H(P, Q) = -1 \cdot \log 0.9 – 0 \cdot \log 0.1 \approx 0.105$$

6. 困惑度（Perplexity）

定义：
$$\text{PP}(Q) = 2^{H(P,Q)} = \prod_{i=1}^N \frac{1}{q(x_i)^{1/N}}$$
示例（句子概率）：
$$\text{PP} = 0.01^{-1/10} \approx 1.58$$

7. 双字耦合度（Bigram MI）

定义：
$$\text{MI}(w_1, w_2) = \log \frac{p(w_1, w_2)}{p(w_1)p(w_2)}$$
示例（短语提取）：
$$\text{MI} = \log \frac{0.0008}{0.001 \times 0.002} \approx 2.0$$

公式关系总结

交叉熵与KL散度：
$$H(P, Q) = H(P) + D_{KL}(P | Q)$$
互信息与熵：
$$I(X;Y) = H(X) – H(X|Y) = H(Y) – H(Y|X)$$

对比总结

概念	核心意义	对称性	NLP应用场景
熵	单变量的不确定性	–	词表复杂度评估
条件熵	已知条件下的剩余不确定性	非对称	上下文相关的词性预测
互信息	变量间的共享信息量	对称	词对相关性分析
KL散度	分布差异	非对称	模型评估、VAE损失
交叉熵	用错误分布编码真实分布的成本	非对称	分类任务损失函数
困惑度	模型预测不确定性的直观度量	–	语言模型性能比较
双字耦合度	相邻词的共现强度	对称	短语识别、分词

通过理解这些概念的联系与差异，可以更高效地设计NLP特征工程、模型评估和优化策略。

3 语料库和语言知识库

语料库语言学研究的内容
区分 “平衡语料库” 与 “平行语料库”
典型的语料库有哪些

语料库语言学研究内容

语料库语言学（Corpus Linguistics）是基于大规模真实文本数据（语料库）进行语言研究的学科，主要研究内容包括：

语言现象统计：词频、搭配、句法模式等定量分析。
语言变异研究：不同领域、时期、群体的语言差异（如学术vs.口语）。
词典编纂：基于真实用例提取词义和搭配（如COBUILD词典）。
自然语言处理（NLP）：训练语言模型、词向量、句法分析器等。
语言演变分析：历时语料库中的语法或词汇变化（如Google Ngram）。

平衡语料库 vs. 平行语料库

平衡语料库是通过科学抽样方法构建的，旨在覆盖目标语言或领域中的多样性（如文体、主题、时间、地域等），避免数据偏向某一特定类型，从而保证语言模型的泛化能力。

平行语料库由双语或多语对齐的文本组成，通常以句子或段落为单位一一对应，用于机器翻译、跨语言研究等任务

类型	定义	特点	用途
平衡语料库	按比例覆盖不同文体、领域、时间等，代表语言全貌（如新闻、小说、口语等）。	强调多样性和代表性	语言整体规律研究、词典编纂
平行语料库	同一内容的多语言对照文本（如中英对照的联合国文件）。	文本对齐（句子/段落级）	机器翻译、跨语言研究

示例：

平衡语料库：BNC（英国国家语料库）包含口语、学术、新闻等多种文体。
平行语料库：Europarl（欧洲议会演讲平行文本）含21种语言对齐。

典型语料库举例

1. 通用语料库（平衡性）

BNC (British National Corpus)：1亿词次，英语书面语和口语。
COCA (Corpus of Contemporary American English)：10亿词次，美国英语多领域文本。
现代汉语平衡语料库（中国台湾）：涵盖文学、新闻、学术等。

2. 平行语料库

Europarl：欧洲议会多语言平行文本，支持机器翻译研究。
UN Parallel Corpus：联合国官方文件，中英法等6种语言对齐。
OPUS：开源多语言平行语料库集合（含电影字幕、圣经等）。

3. 领域专用语料库

PubMed：生物医学论文摘要，用于术语抽取。
Twitter语料库：社交媒体语言分析（如情感分析）。

4. 历时语料库

Google Books Ngram：1800-2019年书籍词频历时数据。
CLMET (Corpus of Late Modern English Texts)：1710-1920年英语演变研究。

应用场景对比

平衡语料库：适合研究语言普遍规律（如汉语词频统计）。
平行语料库：适合跨语言任务（如训练翻译模型）。
领域语料库：优化专业领域NLP模型（如医疗问答系统）。

语料库的选择需根据研究目标（通用性、跨语言、专业性）决定。

4 语言模型

统计语言模型的核心目标
N-gram模型(n元文法模型)
最大似然估计Maximun Likelihood Estimation
加1平滑,Good-Turing平滑 GT平滑先统计r=1,2,3(出现1次,2次,3次….的bigrams有几个)然后使用公式进行求取 r->r’ 最后能得到平滑后频次.
统计语言模型评价指标

统计语言模型的核心目标

考点：

核心目标：建模自然语言的概率分布，计算词序列的联合概率（如句子概率）。
应用场景：机器翻译、语音识别、拼写纠错等任务中评估句子的合理性。
关键问题：数据稀疏性（低频词/长尾词概率估计困难）与计算效率（长序列概率分解）。

N-gram模型（n元文法模型）

考点：

基本假设：马尔可夫性（当前词概率仅依赖前n-1个词）。
常见变体：
- Unigram（独立假设）、Bigram（一阶依赖）、Trigram（二阶依赖）。
优缺点：
- 优点：简单高效，易于训练。
- 缺点：长距离依赖缺失（n较小时）；数据稀疏问题显著。

最大似然估计（MLE）如果数据已经平滑或者没有0词频问题可以用MLE思想

考点：

定义：通过频率计数估计概率（如Bigram概率：P(w_i|w_{i-1}) = \frac{\text{count}(w_{i-1},w_i)}{\text{count}(w_{i-1})}）。
局限性：
- 未登录词（OOV）概率为0；
- 对低频词过拟合（高频词主导模型）。

平滑技术（加1平滑 & Good-Turing平滑）

考点：

加1平滑（Laplace）：
- 方法：所有词频+1，避免零概率。
- 问题：高频词概率被过度稀释，实际效果差。

1John 2read 3Moby 4Dick 5Mary 6a 7different 8book 9She 10by 11Cher 一共11个词汇

+1 平滑前词出现的数量+V

Good-Turing平滑：
- 核心思想：用低频词的频率重新分配未登录词概率（如“出现1次的词”概率由“出现2次的词”数量估计）。
- 适用场景：处理长尾分布，常用于低资源语料。

语料库中有大量句子

从数据中统计所有bigrams的频次（Nr = 出现r次的bigrams的数量）

r=0 没有这种bigram出现过 r’=(r+1)N1/N=(0+1)N1/N总

r=1代表这种组合出现过一次(明显感觉得到出现一次的频次是很高的)

有点贝叶斯的感觉

Good-Turning原理是高频挪用适当的空间给低频词使得低频词有相比于加一平滑更合理的词频

统计语言模型评价指标

考点：

困惑度（Perplexity）：
- 定义：模型对测试集的平均逆概率（几何均值），值越小越好。
- 计算：$\exp\left(-\frac{1}{N}\sum_{i=1}^N \log P(w_i|w_{<i})\right)$ 取了个指数
其他指标：
- 交叉熵（Cross-Entropy）：与困惑度等价，反映信息量。
- 任务相关指标：如拼写纠错的准确率、翻译的BLEU分数（间接评估）。

不好算

5 神经网络语言模型

词向量(Word2Vec):CBOW和Skip-grams
梯度消失和梯度爆炸
预训练语言模型(ELMO GPT和Bert)
大语言模型 LLM

词向量（Word2Vec）：CBOW 和 Skip-gram

考点：

核心思想：
- CBOW（Continuous Bag-of-Words）：用上下文词预测当前词（适合高频词）。
- Skip-gram：用当前词预测上下文词（适合低频词）。
训练方式：
- 基于负采样（Negative Sampling）或层次Softmax优化计算效率。
优缺点：
- 优点：捕捉语义/语法相似性（如“king – man + woman ≈ queen”）。
- 缺点：无法处理多义词（静态向量）；窗口大小固定，无法建模长距离依赖。

梯度消失和梯度爆炸

考点：

梯度消失：
- 原因：深层网络中，反向传播时梯度连乘（如Sigmoid/Tanh的导数<1），导致浅层参数更新缓慢。
- 影响：RNN/LSTM 难以学习长序列依赖。

梯度趋近于0 无法更新

梯度爆炸：
- 原因：梯度连乘过大（如ReLU激活+权重初始化不当）。
- 表现：参数剧烈震荡，模型无法收敛。

梯度太大来回震荡无法收敛

梯度消失（Vanishing Gradients）和梯度爆炸（Exploding Gradients）本质上是神经网络模型的固有缺陷，但人为的设计选择（如模型结构、初始化、超参数）会显著影响其严重程度

解决方案：
- 梯度裁剪（Gradient Clipping）。
- 改进网络结构（LSTM/GRU、残差连接）。
- 权重初始化（Xavier/He）。

预训练语言模型（ELMo、GPT、BERT）

考点：

ELMo（2018）：
- 特点：双向LSTM，生成上下文相关的词向量。
- 局限：非端到端训练，特征拼接方式低效。
GPT（2018）：
- 特点：单向Transformer（仅左上下文），生成式预训练+微调。
- 应用：文本生成、摘要等单向任务。
BERT（2018）： Bidirectional Encoder Representations from Transformers
- 特点：双向Transformer，MLM（掩码语言模型）+ NSP（下一句预测）任务。
- 优势：上下文双向建模，适用于分类/问答等任务。
对比：
- 单向 vs 双向：GPT生成能力强，BERT理解能力强。
- 微调方式：BERT需任务特定结构，GPT可零样本生成。

ELMo：双向LSTM，动态词向量。
GPT：单向Transformer，生成任务。
BERT：双向Transformer，理解任务。

大语言模型（LLM）

考点：

核心特点：
- 参数量巨大（百亿至万亿级），基于Transformer架构。
- 训练方式：自监督预训练（如GPT-3的“预测下一个词”）+ 指令微调/RLHF（如ChatGPT）。
关键技术：
- 缩放定律（Scaling Laws）：模型性能随数据/参数规模提升。
- 上下文学习（In-context Learning）：少样本提示即可完成任务。
挑战：
- 计算成本高，存在幻觉（生成错误事实）。
- 对齐问题（Alignment）：如何使模型符合人类价值观。

总结：

Word2Vec：静态词向量基础，区分CBOW/Skip-gram目标。
梯度问题：理解原因及解决方案（如LSTM/Transformer的改进）。
预训练模型：掌握ELMo/GPT/BERT的架构差异与适用场景。
LLM：关注规模效应、训练范式（自监督+微调）及社会影响。

简洁版回答

Word2Vec：
- 静态词向量（一词一义），通过CBOW（上下文→目标词）和Skip-gram（目标词→上下文）学习词嵌入。
梯度问题：
- 原因：RNN的梯度消失/爆炸（长序列依赖）。
- 解决：LSTM/GRU（门控机制）、Transformer（自注意力+残差连接）。
预训练模型：
- ELMo：双向LSTM，动态词向量（上下文相关）。
- GPT：单向Transformer，生成任务（自回归）。
- BERT：双向Transformer，理解任务（MLM+NSP）。

适用场景：

ELMo：轻量级上下文词向量。
GPT：文本生成、续写。
BERT：分类、问答等理解任务。

6 隐马尔可夫模型与条件随机场

马尔可夫模型
隐马尔可夫模型 (HMM的三个核心问题以及对应算法)
条件随机场(比较CRF 与HMM的优缺点)
前后向算法
Viterbi搜索算法

6.1 马尔可夫链

6.2 Hidden Markov Model

HMM教学案例：天气预测与冰淇淋观测

前向传播

隐马尔可夫模型（HMM）的三个核心问题是：

评估问题（Evaluation Problem）：
给定一个HMM模型（包括状态转移概率、观测概率和初始状态分布）和一个观测序列，计算该观测序列出现的概率。通常使用前向算法（Forward Algorithm）或后向算法（Backward Algorithm）解决。
解码问题（Decoding Problem）：
给定一个HMM模型和一个观测序列，找出最有可能生成该观测序列的隐藏状态序列。通常使用维特比算法（Viterbi Algorithm）来寻找最优状态序列。
学习问题（Learning Problem）：
给定一个观测序列（或多个观测序列），估计HMM模型的参数（状态转移概率、观测概率和初始状态分布），使模型最优。通常使用Baum-Welch算法（一种期望最大化算法）来解决。 Expectation-Maximization EM算法

这三个问题是HMM理论和应用的基石，分别对应概率计算、状态推断和模型训练。

第二个后向算法

说实话这个后向算法跟前向算法本质没有区别,而且感觉不过是从前往后推导和从后往前的区别不用担心,只需搞懂一个即可

如果说前向后向是用来评估(评估某种序列出现的概率)

那么维特比算法就是用来解码(找出最优状态序列) 有趣

第三个维特比算法

参数学习 EM期望值最大算法

还是要用到最大似然估计收敛到参数theta

总结

Conditional Random Fields CRFs 条件随机场

自动分词

分词面临难点
汉语分词中歧义(组合型歧义AB A B和交集型ABC AB BC歧义)
分词性能评价查准率查全率以及f1score P和R的调和平均 2xy/(x+y)
自动分词的基本算法:FMM BMM MM
词性标注

分词考点

1. 分词面临的难点

未登录词识别：新词（如网络用语、专有名词）的发现与切分
歧义消解：同一字符串存在多种切分方式（核心难点）

2. 汉语分词歧义类型

交集型结合成分子合成成分 ABC AB BC

门把手弄坏了

3. 分词性能评价指标

准确率 (Precision)：正确切分词数 / 系统输出总词数
召回率 (Recall)：正确切分词数 / 标准答案总词数
F1值：准确率与召回率的调和平均（2×P×R/(P+R)）

4. 自动分词基本算法

算法	全称	切分方向	特点
FMM	正向最大匹配	从左到右	贪心匹配最长词，可能忽略局部最优
BMM	反向最大匹配	从右到左	对右边界歧义处理优于FMM
MM	双向最大匹配	结合FMM+BMM	综合两者结果，按规则选择最优解
考点：词典大小对效果的影响、时间复杂度分析（O(n)）

FMM forward maximum match

从前往后,从词典中找最长的匹配的, 如果句子中没有,那么从词典中找第二长的词以此类推.

例如中国人民大学 (词典:中国人民中国人民人民大学大学 )

先找4个字,匹配到中国人民然后剩大学得到中国人民/大学

BMM backword maximum match

类似的从后往前匹配最大的

中国人民大学

先匹配人民大学再中国

中国/人民大学

Bi-directional MM 双向匹配算法

若FMM和BMM结果一致则直接输出,否则输出分词少的

(意味着能够先匹配到的优先匹配)

5. 词性标注

任务目标：为分词后的词语标注词性（如动词、名词等）
核心方法：
基于规则：人工制定词性消歧规则（覆盖有限）
基于统计：HMM/CRF（利用上下文词性转移概率）
深度学习：BiLSTM+CRF、BERT等端到端模型
评价指标：词性标注准确率（与人工标注对比）

8 句法分析

形式语言:定义终结符/非终结符推导(最左/最右推导) 正则文法与L(G)关系

上下文无关文法（CFG） context free grammars

能够得到L(G)

短语结构分析:线图分析法 CYK分析法概率上下文无关法概率上下文无关文法(PCFG) 及三个问题句法分析器性能评估

依存句法分析:依存语法公理依存分析算法(移进-归约,Arc-eager) 依存句法分析器性能评价
短语结构与依存结构的关系:中心词提取规则

总结表格

符号	缩写来源	含义	示例（数学表达式文法）
G	Grammar	形式文法本身	G=(N,Σ,P,S)
N	Non-terminal symbols	非终结符集合	{E,T,F}
Σ	Terminal symbols	终结符集合	{a,+,∗,(,)}
P	Production rules	产生式规则集合	E→E+T∣T
S	Start symbol	开始符号	E