分类: 大数据

7 篇文章

数据挖掘DataMining
数据挖掘(Data Mining)主要讲述了以下内容: 数据预处理:包括数据清洗、数据集成、数据变换和数据归约等步骤,以确保数据质量和一致性。 模式发现:通过算法和技术从数据中提取有用的模式和知识,如关联规则、频繁模式、序列模式等。 分类和预测:使用分类算法(如决策树、支持向量机、神经网络等)对数据进行分类,并使用回归分析等方法进行预测。 聚类分析:将数据分组,使得同一组内的数据对象相似度高,不同组间的对象相似度低。常用算法有K-means、层次聚类等。 异常检测:识别数据中的异常或异常模式,这在欺诈检测、网络安全等领域非常重要。 数据可视化:通过图形和图表展示数据和挖掘结果,帮助理解和解释数…
thumbnail
Machine Learning Project1
0、前期准备 配置anaconda3的环境变量 使用anaconda3 作为python包管理器,把包都存在统一集成环境中,后续在IDE中使用anaconda3的python解释器即可 在创建项目时,使用已有conda的python解释器 1、实现线性回归算法 自己构造数据集 1.1、代码 import numpy as np import matplotlib.pyplot as plt # 设置中文字体,否则图片上的中文会显示成方框 plt.rcParams['font.sans-serif'] = ['SimHei'] # 使用黑体 plt.rcParams['a…
thumbnail
机器学习
有数据 整理数据 选择模型 跑模型 评价模型 优化模型 超参 预测 —————————————————————————— 推荐书目 机器学习-周志华 机器学习公式详解 统计学习方法 李航 机器学习理论导引 Main content 涉及 matlab python 回归模型 线性回归 对数几率回归 降维方法 主成分分析 线性判别分析 支持向量机 决策树 神经网络 K均值聚类 1模型评估与选择 第一章略讲,介绍了假设空间 1.2、基本术语 1.3、假设空间 2模型评估与选择 前三节较为重要 数据为王,数据量越大越好 2.1经验误差与过拟合 2.1.1留出法(划分为两部分) 留出法是一种简单的模型…
thumbnail
多元统计分析
一些废话 涉及线代 矩阵 概率论 多元随机变量 数字特征 期望 相关系数 推荐书目 应用多元统计分析 --王学民 数据统计分析 统计学习方法 李航 1 矩阵代数(基础) 1.1 定义 1.2 矩阵的运算 1.3 行列式 1.4 矩阵的逆 1.5 矩阵的秩 1.6 特征值、特征向量、矩阵的迹 1.7 正定矩阵和非负定矩阵 1.8 特征值的极值问题 2 随机向量 多元分布 数字特征 欧氏距离、马氏距离 随机向量的变换 特征函数 3 多元正态分布 3.1 定义 3.2 性质 3.3 极大似然估计以及估计量的性质 3.4 复相关系数和偏相关系数 3.5 $\overline{x}$和 (n-1)S 的…
thumbnail
重庆大学软件学院python+hadoop实验3
数据科学导论实验报告 实验三 重庆大学软院 一、    实验目的: 为后续上机实验做准备,熟悉常用的Linux 操作和Hadoop 操作 二、    实验要求 见实验内容 三、    开发环境: Windows下Vmware虚拟机搭载Linux Ubunto 64位 四、    实验内容: (一) 熟悉常用的Linux 操作 请按要求上机实践如下linux 基本命令。 cd 命令:切换目录 (1)切换到目录/usr/local (2)去到目前的上层目录 (3)回到自己的主文件…
thumbnail
数据科学导论笔记
数据科学导论 ppt1 概述 有几个 数据:? 数据科学:? 英文为Data Science,简称DS 是关于对(数据进行分析、抽取信息和知识的过程)提供指导和支持的基本原则和方法 三次信息化浪潮 基本标志 1、个人计算机 2、互联网 3、物联网云计算大数据 数据产生方式的变革促成大数据时代的来临 运营式系统阶段数据库 到 用户原创内容阶段web2.0 到感知式系统阶段 大数据发展的三个阶段 大数据的特点 不仅是大量化 而且包含快速化 多样化 价值化4V volume大量 velocity快速 variety多样 value价值化 价值密度低,商业价值高 不仅 ... 而且..... 大数据对…