年度归档: 2025 年

92 篇文章

thumbnail
NLP ppt
统计语言模型, 神经网络 模型和预训练模型 1 绪论 1. 基本概念 (p.1) 1.1 术语定义 ▪️ 计算语言学(CL)、自然语言处理(NLP)、自然语言理解(NLU)常被视为同义概念▪️ 刘颖(2002)专著中将三者直接等同【需确认】是否所有文献都接受这种等同关系 1.2 HLT发展历史 ▪️ 1946年ENIAC计算机诞生标志着技术起点▪️ 关键人物:Warren Weaver(信息论先驱)、A.D.Booth(计算机科学家)▪️ Norbert Wiener首次提出机器翻译设想 2. 发展历程 (p.3) 2.1 初创期(1950s-1960s) 2.1.1 学术里程碑 ▪️ 195…
thumbnail
大数据计算 ppt
1 绪论 1.1 什么是大数据 定义与背景 维基百科:无法用常规软件工具处理的数据集合 《大数据时代》:采用所有数据(非抽样)进行分析 Gartner:需新处理模式的海量、高增长率、多样化信息资产 背景: 数据量迅猛增长(如2001年全年流量在2013年仅需一天) 数据可挖掘的高价值(社会需求驱动精细化管理) 特点(4V) Volume:规模大,资源消耗高 Velocity:产生速度快,实时性要求高 Variety:来源与形式多样 Value:价值密度低但总量大 1.2 哪里有大数据 来源: 互联网(社交网络、日志、富媒体) 事业单位/政府(医疗影像、电网信息) 大型设备(波音787飞行数据、…
thumbnail
CQU大数据计算 第四次实验 SparkSQL结构化数据分析与处理/Spark 结构化流处理
1 SparkSQL结构化数据分析与处理 1.1 SparkSQL简单使用 1.1.1 第1关:SparkSQL初识 sparksql/src/main/java/com/educoder/bigData/sparksql/Test1.java package com.educoder.bigData.sparksql; import org.apache.spark.sql.AnalysisException; import org.apache.spark.sql.Dataset; import org.apache.spark.sql.Row; import org.apache.spa…
thumbnail
大数据计算 实验3 Spark Core 核心 RDD
概述:本次实验中,在搭建Spark Standalone模式分布式集群时花了大量时间,除此之外,按照教程没遇到任何问题,都能成功简单复现. Standalone 分布式集群搭建遇到的麻烦 ulimit -f 1024000 cd /home 注意到wrapdocker会出现iptable相关错误,并且尝试更新,修复模块失败(推测是禁止了外网网络连接)所以采用禁止iptable方式启动docker sudo dockerd --iptables=false > /var/log/docker.log 2>&1 & 加载镜像 docker load -i hbase-ssh2_v1…
thumbnail
NLP 实验3 FAQ 政务问答
训练模型 构建索引 测试性能 检测服务api情况 实际效果受制于训练数据集和训练参数,模型效果针对不同问题参差不齐 政务问答 FAQ 系统 基于 SimCSE 和 WR 策略的无监督政务问答检索系统,能够高效处理政府工作人员日常政策解读工作。 项目特色 低门槛 无需相似 Query-Query 标注数据 使用无监督对比学习构建语义检索系统 效果好 采用预训练语言模型 BERT 作为基础编码器 集成 WR(Word Repetition)策略增强语义表示 性能快 基于 FAISS 高效向量检索 轻量级 API 服务快速部署 环境要求 Python 3.8+ PyTorch 2.0+ FAISS …
thumbnail
云计算实验2 -重庆天气数据爬取与空气质量预测系统实验报告
重庆2022-2024年天气数据分析实验报告 一、实验目的 1.1 技术目标 掌握使用Python进行网络爬虫的技术,从指定网站爬取重庆2022-2024年的天气数据。 学习数据预处理方法,包括处理缺失值、标准化数值特征和编码分类变量。 应用机器学习算法(逻辑回归、随机森林、支持向量机)进行空气质量分类预测。 熟悉模型评估方法,生成混淆矩阵、ROC曲线,并分析模型性能。 1.2 实践目标 提升数据分析能力,整合爬虫、预处理和机器学习的全流程。 通过可视化工具(混淆矩阵、ROC曲线)直观展示模型效果。 总结实验中的问题并提出改进方案,培养解决实际问题的能力。 二、实验要求 2.1 数据采集 从t…
thumbnail
CQU CV Project4 人物检测
基于 HOG 特征的人物检测系统讲解 1. 项目概述 1.1 项目背景 人物检测是计算机视觉领域的一个基础问题,具有广泛的应用场景,如智能监控、人流统计、智能驾驶等。在众多人物检测算法中,基于 HOG 特征的检测方法因其良好的检测效果和相对较低的计算复杂度而被广泛应用。本项目基于 OpenCV 实现了一个完整的人物检测系统,支持图像检测、批量处理和参数调优等功能。 1.2 系统功能 本系统主要功能包括: 单图像人物检测:检测单张图像中的人物并显示结果 批量图像处理:批量处理多张图像,使用不同参数组合测试检测效果 参数自定义:支持配置 HOG 检测器的关键参数 结果可视化:将检测结果直观地显示并…
thumbnail
CQU CV Projects3 基于LK光流法的目标追踪
TO DO opencv\samples\cpp\lkdemo.cpp 代码加注释 目标跟踪示例的算法流程图 光流法目标跟踪的基本原理 用不同的测试数据进行实验,分析结果的性能(对光照,仿射,遮挡的鲁棒性);并指出结果中的不足与处理流程中的算法有何关系;若能力优秀尝试进行改进 注释 lkdemo_commented.cpp Lucas-Kanade 光流法目标跟踪分析 1. 算法流程图 +---------------------+ | 开始                | +----------+-------…
thumbnail
大数据技术计算实验一 (关联分析)
1 实验目的 理解 Apriori 和 FP-growth 算法的基本原理学会用 python 实现 Apriori 算法进行关联分析学会用 python 实现 FP-growth 算法进行关联分析 手写/调库 实现Apriori/FP-growth 算法 在给定置信度,支持度,数据的情况下计算频繁项集,关联规则 2 开发环境 编程软件:anconda/spyder/pycharm环境:python3.6 以上、numpy、pandas、sklearn、Jupyter Notebook 等 3 实验内容及代码 3.1 Apriori 算法 3.1.1 手写 """ Apriori算法纯Pyth…
thumbnail
CQU CV Project2 特征点匹配 基于opencv
opencv/samples/cpp/generic_descriptor_match.cpp at 2.4 · opencv/opencv samples\cpp\generic_descriptor_match.cpp 多种描述符匹配算法,提取图像特征点 #include "opencv2/opencv_modules.hpp" #include <cstdio> // 检查是否包含OpenCV的非自由模块,如果没有则输出错误信息 #ifndef HAVE_OPENCV_NONFREE int main(int, char​**​) { printf("The sample r…