NLP 框架 CQU

统计语言模型,神经网络模型, 预训练模型

1 绪论(了解)

自然语言处理(NLP)的定义是什么?

  • 自然语言处理(Natural Language Processing,NLP)是人工智能领域的一个重要分支,专注于通过计算机技术实现人类自然语言的​​理解、解析、生成和交互​​。其核心目标是使计算机能够像人类一样处理语言数据,从而支持机器翻译、情感分析、文本摘要、问答系统等实际应用。

NLP发展的四个阶段:

  • 初创期
  • 理性主义时代
  • 经验主义时代
  • 深度学习时代

​1. 初创期(1950s-1970s)​

  • ​特点​​:基于规则和符号逻辑,依赖语言学理论。
  • ​技术​​:手工编写语法规则(如上下文无关文法)、词典和语义模板。
  • ​局限​​:规则覆盖范围有限,难以处理复杂语言现象(如歧义、隐喻)。
  • ​代表成果​​:机器翻译(如Georgetown-IBM实验)、ELIZA聊天机器人。

​2. 理性主义时代(1980s-1990s)​

  • ​特点​​:引入统计方法和概率模型,但仍结合语言学知识。
  • ​技术​​:隐马尔可夫模型(HMM)、上下文无关文法增强版、词汇化语法。
  • ​突破​​:统计机器翻译(如IBM Model系列)、词性标注和句法分析取得进展。
  • ​局限​​:依赖专家设计的特征工程,数据稀疏问题突出。

​3. 经验主义时代(1990s-2010s)​

  • ​特点​​:数据驱动,统计学习主导,弱化人工规则。
  • ​技术​​:支持向量机(SVM)、最大熵模型、条件随机场(CRF),以及基于大规模语料库的统计方法。
  • ​突破​​:搜索引擎、垃圾邮件过滤、浅层语义分析(如情感分类)。
  • ​关键转变​​:从“规则编码”转向“从数据中学习”,但特征仍需人工设计。

​4. 深度学习时代(2010s至今)​

  • ​特点​​:端到端学习,自动提取特征,模型复杂度显著提升。
  • ​技术​​:神经网络(RNN、LSTM)、注意力机制、Transformer(如BERT、GPT)、预训练-微调范式。
  • ​突破​​:机器翻译(如Google Neural MT)、文本生成、问答系统,模型参数量达万亿级(如GPT-3)。
  • ​挑战​​:计算资源需求高、可解释性差、伦理与偏见问题。

​总结​

NLP的发展从​​规则驱动​​到​​数据驱动​​,再到​​表示学习驱动​​,体现了从“人工设计”到“自动学习”的范式迁移。未来可能向多模态、低资源、可解释性等方向演进。

NLP的基本问题:

  • 形态学
  • 语法学syntax
  • 语义学Semantics
  • 语音学Phonetics
  • 语用学Pragmatics

NLP面临的困难

  • 歧义现象:结构歧义 词义歧义 语音歧义 词语切分歧义 指代歧义和省略歧义 语用歧义
  • 未知的语音现象:新词汇 新含义 新用法 新句型等层出不穷

自然语言处理(NLP)面临的核心困难可归纳为两大类:​​语言本身的复杂性​​和​​动态变化的挑战​​。以下是具体分析:


​一、歧义现象(Ambiguity)​

语言歧义贯穿所有层面,是NLP的最大障碍之一:

  1. ​结构歧义​
    • 同一句子可能有多种语法解析(如“Flying planes can be dangerous”可理解为“驾驶飞机危险”或“飞行的飞机危险”)。
  2. ​词义歧义​
    • 多义词依赖上下文消歧(如“苹果”指水果还是公司?)。
  3. ​语音歧义​
    • 同音词(如“to/two/too”)或口音差异导致语音识别错误。
  4. ​词语切分歧义​
    • 无空格语言(如中文)的分词难题(如“美国会”可切分为“美/国会”或“美国/会”)。
  5. ​指代歧义与省略​
    • 代词(如“他”“它”)指代不明,或省略主语(如“看完电影了,[我]觉得不错”)。
  6. ​语用歧义​
    • 隐含意图或讽刺(如“这主意真棒”可能是褒义或反讽)。

​影响​​:模型需结合上下文、常识和世界知识才能准确理解,但当前系统仍易被歧义误导。


​二、未知语言现象(Dynamic Language)​

语言是动态演变的,NLP需持续适应:

  1. ​新词汇​
    • 网络用语(如“绝绝子”)、专业术语、外来词(如“元宇宙/Metaverse”)不断涌现。
  2. ​新含义与新用法​
    • 旧词新义(如“下头”从动作变为形容失望),或语法变异(如“很男权”)。
  3. ​新句型与表达​
    • 新兴句式(如“栓Q”表感谢)、缩写(如“yyds”)、混合语言(如“笑skr人”)。

​挑战​​:

  • 传统静态语料库和词典难以覆盖新现象。
  • 预训练模型(如GPT-4)虽能部分捕捉新词,但依赖实时数据更新,且可能生成错误内容。

​三、其他关键挑战​

  1. ​数据偏差​​:训练数据中的文化、性别等偏见会被模型放大。
  2. ​资源稀缺​​:小语种或领域专用数据不足。
  3. ​常识与推理​​:语言隐含的常识(如“人用脚走路”)难以系统化建模。

​总结​​:NLP的困难本质是​​语言的非确定性​​与​​人类认知的复杂性​​的结合。尽管深度学习提升了泛化能力,但彻底解决这些问题仍需突破多模态理解、动态适应和因果推理等方向。

2 数据基础

2.1 概率论基础

条件概率 全概率 贝叶斯 激活函数 最大似然估计 梯度下降

以下是自然语言处理(NLP)和机器学习中几个核心概念的简要说明:

1. 条件概率(Conditional Probability)

定义:事件A在事件B已发生条件下的概率,记为 $P(A|B)$。

公式
$$ P(A|B) = \frac{P(A \cap B)}{P(B)} \quad (P(B) \neq 0) $$

应用:NLP中的语言模型(如n-gram)、词性标注(根据上下文推测词性)。


2. 全概率公式(Law of Total Probability)

定义:若事件 $B_1, B_2, \dots, B_n$ 互斥且完备(覆盖所有可能),则:
$$ P(A) = \sum_{i=1}^n P(A|B_i)P(B_i) $$

应用:复杂事件的概率分解(如分类任务中计算边缘概率)。


3. 贝叶斯定理(Bayes’ Theorem)

定义:基于条件概率的反向推理:
$$ P(B|A) = \frac{P(A|B)P(B)}{P(A)} $$

应用

  • 垃圾邮件分类(根据词频反推邮件类别)
  • 医学诊断(从症状反推疾病概率)

4. 激活函数(Activation Function)

作用:为神经网络引入非线性,决定神经元是否激活。

常见类型

  • Sigmoid:输出范围 $(0,1)$,用于二分类(易梯度消失)
  • ReLU:$\max(0,x)$,解决梯度消失,广泛用于隐藏层
  • Softmax:多分类输出归一化为概率分布

应用:深度学习模型(如BERT、LSTM)的核心组件。


5. 最大似然估计(MLE)

在所有可能的参数中,选择让当前观测数据出现概率最大的那个参数

定义:通过最大化似然函数 $\mathcal{L}(\theta | X)$ 估计参数 $\theta$(假设数据i.i.d.):
$$ \hat{\theta} = \arg\max_\theta P(X|\theta) $$

应用:统计语言模型训练、逻辑回归参数学习。


6. 梯度下降(Gradient Descent)

目标:最小化损失函数 $J(\theta)$。

更新规则
$$ \theta_{t+1} = \theta_t – \eta \nabla_\theta J(\theta) $$
其中 $\eta$ 为学习率。

变体

  • SGD:单样本更新,速度快但震荡
  • Adam:自适应学习率,结合动量

应用:训练神经网络、优化可微模型(如Word2Vec)。

比如线性回归 要求模型参数theta 和 b

使得损失函数(均方误差)最小化 使用的办法就是梯度下降法

要找二元函数最值(通常是最小值) 为什么可以用梯度下降法? 原理是什么

同样的 对二元函数的梯度下降法可以推广到任意多维 无非是对每个要求的参数求偏导


总结

  • 概率基础:条件概率、全概率、贝叶斯是统计NLP的基石
  • 优化工具:MLE提供参数估计理论,梯度下降实现实际优化
  • 神经网络核心:激活函数决定非线性能力,梯度下降驱动参数学习

这些概念共同支撑了从传统统计方法到现代深度学习的NLP技术演进。


2.2 信息论基础

熵 条件熵 互信息 相对熵 KL散度 交叉熵 困惑度 双字耦合度与互信息

以下是关于信息论中核心概念的详细分述,结合定义、公式、计算示例及NLP应用场景:


1. 熵(Entropy)

定义
$$H(X) = -\sum_{x \in \mathcal{X}} p(x) \log p(x)$$
示例(公平硬币):
$$H(X) = -[0.5 \log 0.5 + 0.5 \log 0.5] = 1 \text{ bit}$$


2. 条件熵(Conditional Entropy)

定义
$$H(X|Y) = \sum_{y \in \mathcal{Y}} p(y) H(X|Y=y) = -\sum_{x,y} p(x,y) \log p(x|y)$$
示例(天气影响外出):
$$H(X|Y) = 0.6 \cdot H(0.8) + 0.4 \cdot H(0.1) \approx 0.49 \text{ bit}$$


3. 互信息(Mutual Information, MI)

定义
$$I(X;Y) = \sum_{x,y} p(x,y) \log \frac{p(x,y)}{p(x)p(y)} = H(X) – H(X|Y)$$
示例(词共现分析):
$$I = 0.008 \log \frac{0.008}{0.01 \times 0.02} \approx 0.263 \text{ bit}$$


4. KL散度(相对熵)

定义
$$D_{KL}(P | Q) = \sum_{x} p(x) \log \frac{p(x)}{q(x)}$$
示例(分布差异):
$$D_{KL}(P | Q) = 0.9 \log \frac{0.9}{0.8} + 0.1 \log \frac{0.1}{0.2} \approx 0.058$$


5. 交叉熵(Cross-Entropy)

定义
$$H(P, Q) = -\sum_{x} p(x) \log q(x) = H(P) + D_{KL}(P | Q)$$
示例(分类损失):
$$H(P, Q) = -1 \cdot \log 0.9 – 0 \cdot \log 0.1 \approx 0.105$$


6. 困惑度(Perplexity)

定义
$$\text{PP}(Q) = 2^{H(P,Q)} = \prod_{i=1}^N \frac{1}{q(x_i)^{1/N}}$$
示例(句子概率):
$$\text{PP} = 0.01^{-1/10} \approx 1.58$$


7. 双字耦合度(Bigram MI)

定义
$$\text{MI}(w_1, w_2) = \log \frac{p(w_1, w_2)}{p(w_1)p(w_2)}$$
示例(短语提取):
$$\text{MI} = \log \frac{0.0008}{0.001 \times 0.002} \approx 2.0$$


公式关系总结

  1. 交叉熵与KL散度
    $$H(P, Q) = H(P) + D_{KL}(P | Q)$$
  2. 互信息与熵
    $$I(X;Y) = H(X) – H(X|Y) = H(Y) – H(Y|X)$$

​对比总结​

概念核心意义对称性NLP应用场景
单变量的不确定性词表复杂度评估
条件熵已知条件下的剩余不确定性非对称上下文相关的词性预测
互信息变量间的共享信息量对称词对相关性分析
KL散度分布差异非对称模型评估、VAE损失
交叉熵用错误分布编码真实分布的成本非对称分类任务损失函数
困惑度模型预测不确定性的直观度量语言模型性能比较
双字耦合度相邻词的共现强度对称短语识别、分词

通过理解这些概念的联系与差异,可以更高效地设计NLP特征工程、模型评估和优化策略。

3 语料库和语言知识库

  1. 语料库语言学研究的内容
  2. 区分 “平衡语料库” 与 “平行语料库”
  3. 典型的语料库有哪些

​语料库语言学研究内容​

语料库语言学(Corpus Linguistics)是基于大规模真实文本数据(语料库)进行语言研究的学科,主要研究内容包括:

  1. ​语言现象统计​​:词频、搭配、句法模式等定量分析。
  2. ​语言变异研究​​:不同领域、时期、群体的语言差异(如学术vs.口语)。
  3. ​词典编纂​​:基于真实用例提取词义和搭配(如COBUILD词典)。
  4. ​自然语言处理(NLP)​​:训练语言模型、词向量、句法分析器等。
  5. ​语言演变分析​​:历时语料库中的语法或词汇变化(如Google Ngram)。

​平衡语料库 vs. 平行语料库​

平衡语料库是通过科学抽样方法构建的,旨在覆盖目标语言或领域中的​​多样性​​(如文体、主题、时间、地域等),避免数据偏向某一特定类型,从而保证语言模型的泛化能力。

平行语料库由​​双语或多语对齐的文本​​组成,通常以句子或段落为单位一一对应,用于机器翻译、跨语言研究等任务

​类型​​定义​​特点​​用途​
​平衡语料库​按比例覆盖不同文体、领域、时间等,代表语言全貌(如新闻、小说、口语等)。强调多样性和代表性语言整体规律研究、词典编纂
​平行语料库​同一内容的多语言对照文本(如中英对照的联合国文件)。文本对齐(句子/段落级)机器翻译、跨语言研究

​示例​​:

  • 平衡语料库:BNC(英国国家语料库)包含口语、学术、新闻等多种文体。
  • 平行语料库:Europarl(欧洲议会演讲平行文本)含21种语言对齐。

​典型语料库举例​

​1. 通用语料库(平衡性)​

  • ​BNC (British National Corpus)​​:1亿词次,英语书面语和口语。
  • ​COCA (Corpus of Contemporary American English)​​:10亿词次,美国英语多领域文本。
  • ​现代汉语平衡语料库​​(中国台湾):涵盖文学、新闻、学术等。

​2. 平行语料库​

  • ​Europarl​​:欧洲议会多语言平行文本,支持机器翻译研究。
  • ​UN Parallel Corpus​​:联合国官方文件,中英法等6种语言对齐。
  • ​OPUS​​:开源多语言平行语料库集合(含电影字幕、圣经等)。

​3. 领域专用语料库​

  • ​PubMed​​:生物医学论文摘要,用于术语抽取。
  • ​Twitter语料库​​:社交媒体语言分析(如情感分析)。

​4. 历时语料库​

  • ​Google Books Ngram​​:1800-2019年书籍词频历时数据。
  • ​CLMET (Corpus of Late Modern English Texts)​​:1710-1920年英语演变研究。

​应用场景对比​

  • ​平衡语料库​​:适合研究语言普遍规律(如汉语词频统计)。
  • ​平行语料库​​:适合跨语言任务(如训练翻译模型)。
  • ​领域语料库​​:优化专业领域NLP模型(如医疗问答系统)。

语料库的选择需根据研究目标(通用性、跨语言、专业性)决定。

4 语言模型

  1. 统计语言模型的核心目标
  2. N-gram模型(n元文法模型)
  3. 最大似然估计Maximun Likelihood Estimation
  4. 加1平滑,Good-Turing平滑 GT平滑先统计r=1,2,3(出现1次,2次,3次….的bigrams有几个)然后使用公式进行求取 r->r’ 最后能得到平滑后频次.
  5. 统计语言模型评价指标

统计语言模型的核心目标

​考点​​:

  1. ​核心目标​​:建模自然语言的概率分布,计算词序列的联合概率(如句子概率)。
  2. ​应用场景​​:机器翻译、语音识别、拼写纠错等任务中评估句子的合理性。
  3. ​关键问题​​:数据稀疏性(低频词/长尾词概率估计困难)与计算效率(长序列概率分解)。

N-gram模型(n元文法模型)

​考点​​:

  1. ​基本假设​​:马尔可夫性(当前词概率仅依赖前n-1个词)。
  2. ​常见变体​​:
    • Unigram(独立假设)、Bigram(一阶依赖)、Trigram(二阶依赖)。
  3. ​优缺点​​:
    • 优点:简单高效,易于训练。
    • 缺点:长距离依赖缺失(n较小时);数据稀疏问题显著。

最大似然估计(MLE) 如果数据已经平滑 或者没有0词频问题 可以用MLE思想

​考点​​:

  1. ​定义​​:通过频率计数估计概率(如Bigram概率:P(w_i|w_{i-1}) = \frac{\text{count}(w_{i-1},w_i)}{\text{count}(w_{i-1})})。
  2. ​局限性​​:
    • 未登录词(OOV)概率为0;
    • 对低频词过拟合(高频词主导模型)。

平滑技术(加1平滑 & Good-Turing平滑)

​考点​​:

  1. 加1平滑(Laplace)​​:
    • 方法:所有词频+1,避免零概率。
    • 问题:高频词概率被过度稀释,实际效果差。

1John 2read 3Moby 4Dick 5Mary 6a 7different 8book 9She 10by 11Cher 一共11个词汇

+1 平滑 前词出现的数量+V

  1. ​Good-Turing平滑​​:
    • 核心思想:用低频词的频率重新分配未登录词概率(如“出现1次的词”概率由“出现2次的词”数量估计)。
    • 适用场景:处理长尾分布,常用于低资源语料。

语料库中有大量句子

从数据中统计所有bigrams的频次(Nr​ = 出现r次的bigrams的数量)

r=0 没有这种bigram出现过 r’=(r+1)N1/N=(0+1)N1/N总

r=1代表这种组合出现过一次(明显感觉得到出现一次的频次是很高的)

有点贝叶斯的感觉

Good-Turning原理是高频挪用适当的空间给低频词 使得低频词有相比于加一平滑更合理的词频


统计语言模型评价指标

​考点​​:

  1. ​困惑度(Perplexity)​​:
    • 定义:模型对测试集的平均逆概率(几何均值),值越小越好。
    • 计算:$\exp\left(-\frac{1}{N}\sum_{i=1}^N \log P(w_i|w_{<i})\right)$ 取了个指数
  2. ​其他指标​​:
    • 交叉熵(Cross-Entropy):与困惑度等价,反映信息量。
    • 任务相关指标:如拼写纠错的准确率、翻译的BLEU分数(间接评估)。

不好算

5 神经网络语言模型

  1. 词向量(Word2Vec):CBOW和Skip-grams
  2. 梯度消失和梯度爆炸
  3. 预训练语言模型(ELMO GPT和Bert)
  4. 大语言模型 LLM

​词向量(Word2Vec):CBOW 和 Skip-gram​

​考点​​:

  1. ​核心思想​​:
    • ​CBOW(Continuous Bag-of-Words)​​:用上下文词预测当前词(适合高频词)。
    • ​Skip-gram​​:用当前词预测上下文词(适合低频词)。
  2. ​训练方式​​:
    • 基于​​负采样(Negative Sampling)​​或​​层次Softmax​​优化计算效率。
  3. ​优缺点​​:
    • 优点:捕捉语义/语法相似性(如“king – man + woman ≈ queen”)。
    • 缺点:无法处理多义词(静态向量);窗口大小固定,无法建模长距离依赖。

​梯度消失和梯度爆炸​

​考点​​:

  1. ​梯度消失​​:
    • ​原因​​:深层网络中,反向传播时梯度连乘(如Sigmoid/Tanh的导数<1),导致浅层参数更新缓慢。
    • ​影响​​:RNN/LSTM 难以学习长序列依赖。

梯度趋近于0 无法更新

  1. ​梯度爆炸​​:
    • ​原因​​:梯度连乘过大(如ReLU激活+权重初始化不当)
    • ​表现​​:参数剧烈震荡,模型无法收敛。

梯度太大 来回震荡 无法收敛

梯度消失(Vanishing Gradients)和梯度爆炸(Exploding Gradients)​​本质上是神经网络模型的固有缺陷​​,但人为的设计选择(如模型结构、初始化、超参数)会显著影响其严重程度

  1. ​解决方案​​:
    • 梯度裁剪(Gradient Clipping)。
    • 改进网络结构(LSTM/GRU、残差连接)。
    • 权重初始化(Xavier/He)。

​预训练语言模型(ELMo、GPT、BERT)​

​考点​​:

  1. ​ELMo(2018)​​:
    • ​特点​​:双向LSTM,生成​​上下文相关​​的词向量。
    • ​局限​​:非端到端训练,特征拼接方式低效。
  2. ​GPT(2018)​​:
    • ​特点​​:单向Transformer(仅左上下文),生成式预训练+微调。
    • ​应用​​:文本生成、摘要等单向任务。
  3. ​BERT(2018)​​: Bidirectional Encoder Representations from Transformers
    • ​特点​​:双向Transformer,MLM(掩码语言模型)+ NSP(下一句预测)任务。
    • ​优势​​:上下文双向建模,适用于分类/问答等任务。
  4. ​对比​​:
    • ​单向 vs 双向​​:GPT生成能力强,BERT理解能力强。
    • ​微调方式​​:BERT需任务特定结构,GPT可零样本生成。
  • ​ELMo​​:双向LSTM,动态词向量。
  • ​GPT​​:单向Transformer,生成任务。
  • ​BERT​​:双向Transformer,理解任务。

​大语言模型(LLM)​

​考点​​:

  1. ​核心特点​​:
    • 参数量巨大(百亿至万亿级),基于Transformer架构。
    • 训练方式:自监督预训练(如GPT-3的“预测下一个词”)+ 指令微调/RLHF(如ChatGPT)。
  2. ​关键技术​​:
    • ​缩放定律(Scaling Laws)​​:模型性能随数据/参数规模提升。
    • ​上下文学习(In-context Learning)​​:少样本提示即可完成任务。
  3. ​挑战​​:
    • 计算成本高,存在幻觉(生成错误事实)。
    • 对齐问题(Alignment):如何使模型符合人类价值观。

​总结​​:

  • ​Word2Vec​​:静态词向量基础,区分CBOW/Skip-gram目标。
  • ​梯度问题​​:理解原因及解决方案(如LSTM/Transformer的改进)。
  • ​预训练模型​​:掌握ELMo/GPT/BERT的架构差异与适用场景。
  • ​LLM​​:关注规模效应、训练范式(自监督+微调)及社会影响。

​简洁版回答​

  1. ​Word2Vec​​:
    • ​静态词向量​​(一词一义),通过​​CBOW​​(上下文→目标词)和​​Skip-gram​​(目标词→上下文)学习词嵌入。
  2. ​梯度问题​​:
    • ​原因​​:RNN的梯度消失/爆炸(长序列依赖)。
    • ​解决​​:​​LSTM/GRU​​(门控机制)、​​Transformer​​(自注意力+残差连接)。
  3. ​预训练模型​​:
    • ​ELMo​​:双向LSTM,动态词向量(上下文相关)。
    • ​GPT​​:单向Transformer,生成任务(自回归)。
    • ​BERT​​:双向Transformer,理解任务(MLM+NSP)。

​适用场景​​:

  • ​ELMo​​:轻量级上下文词向量。
  • ​GPT​​:文本生成、续写。
  • ​BERT​​:分类、问答等理解任务。

6 隐马尔可夫模型与条件随机场

  1. 马尔可夫模型
  2. 隐马尔可夫模型 (HMM的三个核心问题以及对应算法)
  3. 条件随机场(比较CRF 与HMM的优缺点)
  4. 前后向算法
  5. Viterbi搜索算法

6.1 马尔可夫链

6.2 Hidden Markov Model

​HMM教学案例:天气预测与冰淇淋观测​

前向传播

隐马尔可夫模型(HMM)的三个核心问题是:

  1. 评估问题(Evaluation Problem):
    给定一个HMM模型(包括状态转移概率、观测概率和初始状态分布)和一个观测序列,计算该观测序列出现的概率。通常使用前向算法(Forward Algorithm)或后向算法(Backward Algorithm)解决。
  2. 解码问题(Decoding Problem):
    给定一个HMM模型和一个观测序列,找出最有可能生成该观测序列的隐藏状态序列。通常使用维特比算法(Viterbi Algorithm)来寻找最优状态序列。
  3. 学习问题(Learning Problem):
    给定一个观测序列(或多个观测序列),估计HMM模型的参数(状态转移概率、观测概率和初始状态分布),使模型最优。通常使用Baum-Welch算法(一种期望最大化算法)来解决。 Expectation-Maximization EM算法

这三个问题是HMM理论和应用的基石,分别对应概率计算、状态推断和模型训练。

第二个后向算法

说实话这个后向算法跟前向算法本质没有区别,而且感觉不过是从前往后推导和从后往前的区别 不用担心,只需搞懂一个即可

如果说前向后向是用来 评估(评估某种序列出现的概率)

那么维特比算法就是用来 解码(找出最优状态序列) 有趣

第三个 维特比算法

参数学习 EM期望值最大算法

还是要用到最大似然估计 收敛到参数theta

总结

Conditional Random Fields CRFs 条件随机场

自动分词

  1. 分词面临难点
  2. 汉语分词中歧义(组合型歧义AB A B和交集型ABC AB BC歧义)
  3. 分词性能评价 查准率 查全率 以及f1score P和R的调和平均 2xy/(x+y)
  4. 自动分词的基本算法:FMM BMM MM
  5. 词性标注

分词考点

1. 分词面临的难点

  • 未登录词识别:新词(如网络用语、专有名词)的发现与切分
  • 歧义消解:同一字符串存在多种切分方式(核心难点)

2. 汉语分词歧义类型

交集型 结合成分子 合成 成分 ABC AB BC

门 把 手 弄坏了

门把手 弄坏了

3. 分词性能评价指标

  • 准确率 (Precision):正确切分词数 / 系统输出总词数
  • 召回率 (Recall):正确切分词数 / 标准答案总词数
  • F1值:准确率与召回率的调和平均(2×P×R/(P+R))

4. 自动分词基本算法

算法全称切分方向特点
FMM正向最大匹配从左到右贪心匹配最长词,可能忽略局部最优
BMM反向最大匹配从右到左对右边界歧义处理优于FMM
MM双向最大匹配结合FMM+BMM综合两者结果,按规则选择最优解
考点:词典大小对效果的影响、时间复杂度分析(O(n))

FMM forward maximum match

从前往后,从词典中找最长的匹配的, 如果句子中没有,那么从词典中找第二长的词 以此类推.

例如 中国人民大学 (词典:中国 人民 中国人民 人民大学 大学 )

先找4个字,匹配到中国人民 然后剩大学 得到 中国人民/大学

BMM backword maximum match

类似的 从后往前匹配最大的

中国人民大学

先匹配人民大学 再中国

中国/人民大学

Bi-directional MM 双向匹配算法

若FMM和BMM结果一致则直接输出,否则输出分词少的

(意味着能够先匹配到的 优先匹配)

5. 词性标注

  • 任务目标:为分词后的词语标注词性(如动词、名词等)
  • 核心方法
  • 基于规则:人工制定词性消歧规则(覆盖有限)
  • 基于统计:HMM/CRF(利用上下文词性转移概率)
  • 深度学习:BiLSTM+CRF、BERT等端到端模型
  • 评价指标:词性标注准确率(与人工标注对比)

8 句法分析

  • 形式语言:定义 终结符/非终结符 推导(最左/最右推导) 正则文法与L(G)关系

​上下文无关文法(CFG) context free grammars

能够得到L(G)

  • 短语结构分析:线图分析法 CYK分析法 概率上下文无关法 概率上下文无关文法(PCFG) 及三个问题 句法分析器性能评估

  • 依存句法分析:依存语法公理 依存分析算法(移进-归约,Arc-eager) 依存句法分析器性能评价
  • 短语结构与依存结构的关系:中心词提取规则

总结表格​

符号缩写来源含义示例(数学表达式文法)
GGrammar形式文法本身G=(N,Σ,P,S)
NNon-terminal symbols非终结符集合{E,T,F}
ΣTerminal symbols终结符集合{a,+,∗,(,)}
PProduction rules产生式规则集合EE+TT
SStart symbol开始符号E

句法分析考点详解

看懂了其实也就还好 无非是最左推导和最右推导来推形式语法四元组

A 考虑最左推导会卡壳 所以采用最右推导 并且过程中要考虑n次方问题

有以下文法:G=({S,B,C},{a,b,c},P,S),其中:
P:S→aSBC/abC ;СВ→ВС ; bВ→bb ; bC->bc ;cС→cc
求L(G)=?

同样有最左推导和最右推导两个方法

  • 短语结构分析:线图分析法 CYK分析法 概率上下文无关法 概率上下文无关文法(PCFG) 及三个问题 句法分析器性能评估

线图分析法

CYK

PCFG的三个核心问题:

  • 依存句法分析:依存语法公理 依存分析算法(移进-归约,Arc-eager) 依存句法分析器性能评价
  • 短语结构与依存结构的关系:中心词提取规则

PCFG

9 语义分析

  • 词汇语义理论
  • 语义表示 谓词逻辑表示 框架表示 语义网表示 分布式表示
  • 词义消歧
  • 语义角色标注
本技术内容仅供学习和交流使用,如有疑问请联系qq2014160588并注明来意。请确保在使用过程中遵守相关法律法规。任何因使用本技术内容而导致的直接或间接损失,作者概不负责。用户需自行承担因使用本技术内容而产生的所有风险和责任。请勿将本技术内容用于任何非法用途。
上一篇
下一篇