
NLP 框架 CQU

统计语言模型,神经网络模型, 预训练模型 1 绪论(了解) 自然语言处理(NLP)的定义是什么? 自然语言处理(Natural Language Processing,NLP)是人工智能领域的一个重要分支,专注于通过计算机技术实现人类自然语言的理解、解析、生成和交互。其核心目标是使计算机能够像人类一样处理语言数据,从而支持机器翻译、情感分析、文本摘要、问答系统等实际应用。 NLP发展的四个阶段: 初创期 理性主义时代 经验主义时代 深度学习时代 1. 初创期(1950s-1970s) 特点:基于规则和符号逻辑,依赖语言学理论。 技术:手工编写语法规则(如上下文无…

NLP ppt

统计语言模型, 神经网络 模型和预训练模型 1 绪论 1. 基本概念 (p.1) 1.1 术语定义 ▪️ 计算语言学(CL)、自然语言处理(NLP)、自然语言理解(NLU)常被视为同义概念▪️ 刘颖(2002)专著中将三者直接等同【需确认】是否所有文献都接受这种等同关系 1.2 HLT发展历史 ▪️ 1946年ENIAC计算机诞生标志着技术起点▪️ 关键人物:Warren Weaver(信息论先驱)、A.D.Booth(计算机科学家)▪️ Norbert Wiener首次提出机器翻译设想 2. 发展历程 (p.3) 2.1 初创期(1950s-1960s) 2.1.1 学术里程碑 ▪️ 195…

大数据计算 ppt

1 绪论 1.1 什么是大数据 定义与背景 维基百科:无法用常规软件工具处理的数据集合 《大数据时代》:采用所有数据(非抽样)进行分析 Gartner:需新处理模式的海量、高增长率、多样化信息资产 背景: 数据量迅猛增长(如2001年全年流量在2013年仅需一天) 数据可挖掘的高价值(社会需求驱动精细化管理) 特点(4V) Volume:规模大,资源消耗高 Velocity:产生速度快,实时性要求高 Variety:来源与形式多样 Value:价值密度低但总量大 1.2 哪里有大数据 来源: 互联网(社交网络、日志、富媒体) 事业单位/政府(医疗影像、电网信息) 大型设备(波音787飞行数据、…

CQU大数据计算 第四次实验 SparkSQL结构化数据分析与处理/Spark 结构化流处理

1 SparkSQL结构化数据分析与处理 1.1 SparkSQL简单使用 1.1.1 第1关:SparkSQL初识 sparksql/src/main/java/com/educoder/bigData/sparksql/Test1.java package com.educoder.bigData.sparksql; import org.apache.spark.sql.AnalysisException; import org.apache.spark.sql.Dataset; import org.apache.spark.sql.Row; import org.apache.spa…

大数据计算 实验3 Spark Core 核心 RDD

概述:本次实验中,在搭建Spark Standalone模式分布式集群时花了大量时间,除此之外,按照教程没遇到任何问题,都能成功简单复现. Standalone 分布式集群搭建遇到的麻烦 ulimit -f 1024000 cd /home 注意到wrapdocker会出现iptable相关错误,并且尝试更新,修复模块失败(推测是禁止了外网网络连接)所以采用禁止iptable方式启动docker sudo dockerd --iptables=false > /var/log/docker.log 2>&1 & 加载镜像 docker load -i hbase-ssh2_v1…

NLP 实验3 FAQ 政务问答
训练模型 构建索引 测试性能 检测服务api情况 实际效果受制于训练数据集和训练参数,模型效果针对不同问题参差不齐 政务问答 FAQ 系统 基于 SimCSE 和 WR 策略的无监督政务问答检索系统,能够高效处理政府工作人员日常政策解读工作。 项目特色 低门槛 无需相似 Query-Query 标注数据 使用无监督对比学习构建语义检索系统 效果好 采用预训练语言模型 BERT 作为基础编码器 集成 WR(Word Repetition)策略增强语义表示 性能快 基于 FAISS 高效向量检索 轻量级 API 服务快速部署 环境要求 Python 3.8+ PyTorch 2.0+ FAISS …