编辑评论:
R语言与大数据编程实战pdf是一本关于R语言的入门书籍,主要讲述R语言在大数据中的应用,原始数据的探索与预处理,以及R数据可视化, R 中的方差分析、R 中的广义线性回归模型等。
>
R语言与大数据编程实践pdf内容
这本书是对 R 语言的介绍。旨在帮助读者快速搭建数据分析相关的知识体系,学习如何使用R软件实现数据分析方法。无论有没有编程基础或数学基础,本书都能帮助读者成长为一名合格的数据分析师。本书全面介绍了统计分析、机器学习、人工智能等领域的多种数据分析算法。在解释相关的R代码时,还讨论了这些算法的原理、优缺点和适用背景。本书按照章节主题从易到难的原则组织,读者将获得最佳的阅读体验。通过阅读本书,读者将全面了解R语言在数据分析领域的应用。这种理解不受特定行业的限制,任何行业的读者都可以使用本书介绍的数据分析方法解决所在行业的数据分析问题。
电子书作者信息
李千星:毕业于西南大学统计学专业,在数据挖掘、机器学习、人工智能等领域有深入研究。主持翻译《通信中的大数据:发展与不足》、《一个新兴领域的大数据、误解、方法和概念》、《数据挖掘揭示负面反馈》等数十篇前沿科技文章差评造成的循环》文章并发表在PPV类社区。
电子书内容
第一章? R 1 的基本介绍
1.1?强大的R1
1.2? R语言在大数据中的应用2
1.2.1? R语言用户行为分析2
1.2.2? R语言处理金融大数据3
1.2.3? R语言天气数据可视化4
1.2.4? R语言医学大数据分析4
1.3?R安装与启动5
1.3.1?安装并启动 R6
1.3.2?安装并启动 IDE7
1.4? R 的向量、矩阵和数组 8
1.4.1?向量的操作方法和固有属性8
1.4.2?矩阵运算和运算10
1.4.3?数组中的维度函数 13
1.5? R的列表和数据框14
1.5.1?列表的特点和编辑 14
1.5.2?数据框创建和基本操作17
1.6? R数据文件加载和卸载19
1.6.1?结构化纯文本文件的读取和输出 19
1.6.2?其他文件的读取和输出 22
1.7?将包 23 安装到 R
第 2 章?原始数据的探索与预处理26
2.1?测量数据集的浓度 26
2.2?测量数据集的分散程度 27
2.2.1?极值、方差和标准差 27
2.2.2?标准误、偏度系数、峰度系数 29
2.3?创建数字汇总表 30
2.4?异常值的观察与解释32
2.4.1?使用箱线图观察异常值并处理32
2.4.2?异常值检测的其他情况及说明34
2.5?缺失值的填充与处理35
2.5.1?去除缺失值或简单地估算36
2.5.2?根据相关性填补空缺 38
第 3 章? R 40 中的数据可视化
3.1?plot()函数及常用图形参数40
3.1.1?在plot()函数中设置参数40
3.1.2?修改散点图坐标并添加标签 43
3.2?经典的基本图形及其用途 45
3.2.1?线图45
3.2.2?直方图 49
3.2.3?箱线图和茎叶图 52
3.3?结合图形55
3.4?更多高级图形函数 57
3.5?更常用的绘图命令 59
第 4 章? R 62中参数的估计和测试
4.1?使用 R 进行点和区间估计 62
4.1.1?简单点和区间估计 62
4.1.2?估计单边置信区间 65
4.2?与正常人群相关的参数检验 68
4.3?列联表和独立性检验71
4.4?测试数据分布的几个函数 72
4.5?非正态总体的区间估计和检验 75
4.5.1?非正态总体的区间估计75
4.5.2?非参数检验中的符号检验 76
4.5.3?非参数检验中的秩检验 78
第 5 章? R 80 中的方差分析
5.1? ANOVA模型80的建立
5.2?单向方差分析 81
5.2.1?单向方差分析81的数学思想和模型
5.2.2?检验样本是否满足方差分析的假设 82
5.2.3?构建单向方差分析模型 84
5.3?多元方差分析 87
5.3.1?多元方差分析的数学思想与模型87
5.3.2?不考虑交互作用的双向 ANOVA 88
5.3.3?考虑交互作用的双向方差分析 89
5.4?秩检验与协方差分析91
5.4.1?将秩检验法应用于控制变量91
5.4.2?协方差分析的假设和应用92
第 6 章? R 94 中的相关性和回归分析
6.1?各种相关系数的测量与分析94
6.1.1?简单相关系数94的计算与检验
6.1.2?散点矩阵图和偏相关系数 96
6.1.3?典型相关分析 98
6.2?线性回归分析及其一般参数99
6.2.1?预处理数据 100
6.2.2?构建第一个回归模型 101
6.2.3?修正方程并检验残差 102
6.3?使用逐步回归筛选自变量 104
6.3.1?逐步回归的思路与分类104
6.3.2?建立逐步回归模型 105
6.4?虚拟变量和逻辑回归 107
6.4.1?虚拟变量和逻辑回归的思想107
6.4.2?将虚拟变量108纳入线性回归模型
第 7 章?更高级的数据可视化 110
7.1?基础图形的扩展和扩展110
7.1.1?绘制分类散点图并添加图标 110
7.1.2?绘制多类密度分布图112
7.1.3?复合和堆积条形图 114
7.2?多元分布函数的特殊图形117
7.2.1?明星和 Facebook 117
7.2.2?配置文件 120
7.2.3?谐波曲线122
7.3?创建最简单的 3D 图形 123
7.4?如何让图形更漂亮125
7.5?更多绘图包和系统 128
第 8 章? R 129 中的聚类分析和判别分析
8.1?几种聚类分析的异同129
8.2?使用R实现KNN聚类130
8.2.1? KNN算法的思想和模型130
8.2.2?使用R实现KNN聚类131
8.3?使用R实现系统聚类133
8.3.1?系统发育聚类的思想和模型133
8.3.2?使用R实现系统发育聚类134
8.4?使用R实现快速聚类136
8.4.1?快速聚类的思想与模型136
8.4.2?使用R实现快速聚类137
8.5?几种判别分析模型概述 140
8.5.1?距离判别模型 140
8.5.2? Fisher判别模型142
第 9 章? R 145 中的主成分分析和因子分析
9.1?主成分分析的实现与应用145
9.1.1? PCA 145 的模型假设和数据处理
9.1.2?构建主成分分析模型147
9.1.3?计算主成分的综合得分 149
9.2?因子分析的初步构建与改进150
9.2.1?构建一个简单的因子分析模型 150
9.2.2?计算因子得分并分析 152
9.3?因子分析模型的修改153
9.3.1?将因子分析模型中的因子个数修改为153
9.3.2?基于主成分法和主轴因子法的因子分析155
9.4?基于降维分析的回归分析和聚类分析157
9.4.1?基于降维分析的回归分析157
9.4.2?基于降维分析的聚类分析160
第 10 章? R 162 中的广义线性回归模型
10.1?通用广义线性回归模型 162
10.1.1?使用二次函数拟合线性回归模型 162
10.1.2?拟合更广义的线性模型 164
10.1.3?比较线性模型的优缺点 166
10.2?逻辑线性回归模型 168
10.2.1? Logistic模型168的原理及构建方法
10.2.2?Logistic模型170的显着性检验和优势比
10.2.3?更正了被警告的 Logistic Model 171
10.3?泊松回归分析模型173
10.3.1?拟合第一个泊松回归模型 174
10.3.2?泊松回归模型的过度扩展检验 176
10.4?广义线性模型的交叉验证 178
第 11 章? R 180 中的时间序列建模
11.1?将数据转换为时间序列格式 180
11.1.1?使用ts()函数转换数据格式,绘制时间序列曲线180
11.1.2?使用zoo()函数转换数据格式,绘制时序曲线182
11.2?分解时间序列并检验时间序列的自相关性185
11.2.1?使用经典方法分解时间序列 185
11.2.2?使用STL方法分解时间序列186
11.3?探索时间序列188的自相关
11.3.1?使用月度图和季度图探索自相关 188
11.3.2?使用散点图探索自相关 189
11.4?构建时间序列和预测 191
11.4.1?均值预测、简单预测和漂移 192
11.4.2?不考虑长期趋势和季节性波动的简单指数平滑 195
11.4.3?在指数平滑中添加长期趋势和季节性波动 196
11.4.4?自回归移动平均模型 198
第 12 章? R中的优化问题201
12.1?优化问题简述201
12.2?黄金分割202
12.2.1?黄金分割和局部最优解 202
12.2.2?使用R实现黄金分割203
12.3?牛顿优化法205
12.3.1?牛顿法的算法原理206
12.3.2?一维实现牛顿迭代法207
12.3.3?在多维情况下实现牛顿迭代法209
12.4?最快上升法210
12.4.1?使用梯度求解最快上升的相邻点 210
12.4.2?构造最快的上升函数并测试212
12.5? R 213 中的优化函数
第 13 章?带有 R 216 的地理信息图形
13.1?测绘世界、国家、省市216
13.1.1?使用map()函数绘制地图216
13.1.2?另一种绘制地图的方法 218
13.1.3?按省市绘制地图220
13.2?为地图添加颜色 222
13.2.1?为地图添加颜色前的准备工作 222
13.2.2?为地图添加颜色 224
13.3?向地图添加标签和线条 226
13.3.1?向地图添加标签前的准备工作 226
13.3.2?在地图上添加标签 228
13.3.3?向地图添加线条 230
13.4?使用其他文件格式优化地图 232
第 14 章?使用 R 236 构建支持向量机
14.1?构建一个简单的支持向量机 236
14.1.1?支持向量机的算法原理236
14.1.2?构建一个简单的支持向量机 238
14.1.3?使用其他内核函数构建 SVM 241
14.2?优化SVM参数243
14.2.1?优化参数degree244
14.2.2?优化参数cost247
14.2.3?优化参数gamma249
14.3?比较支持向量机和逻辑回归 252
14.4?比较SVM和KNN聚类算法的优缺点255
第 15 章?实现更高效的流控制和高级循环 257
15.1? R中的流控制257
15.1.1? if语句的多种实现方法257
15.1.2? ifelse 语句和花括号的组合 258
15.1.3?适合多分支情况的switch语句260
15.2? R 262 中的 for 循环、while 循环和重复循环
15.2.1? R 262 中的 for 和 while 循环
15.2.2? R 264 中的重复循环
15.3? apply 系列中的循环函数 266
15.3.1? R 266 中的 apply() 函数
15.3.2? R 269 中的 lapply() 和 sapply() 函数
15.3.3? R 271 中的 tapply() 函数
15.3.4? R 274 中的 mapply() 函数
15.4?更高级的循环函数 276
15.4.1? R 276 中的 replicate() 和 sweep() 函数
15.4.2? R 279 中的 aggregate() 函数
第 16 章? R Code 282的调试与优化
16.1? R 代码 282 的常见信息和警告
16.1.1? R代码的正常信息和警告282
16.1.2? R代码284中的警告处理方法
16.2? R Code 285 中的错误和错误处理
16.2.1?使用 try() 函数处理错误信息 285
16.2.2?将 try() 函数与循环结合 287
16.3?调试R代码288
16.3.1?查看调用堆栈或挂起代码 288
16.3.2?修改错误选项290
16.4?向量化编程方法291
16.4.1?向量化编程思想291
16.4.2?比较循环和向量的速度 292
第 17 章?构建电影评分预测模型 295
17.1?获取数据并探索 295
17.2?使用Recommenderlab包处理数据297
17.3?建模和评估 299
17.3.1?模型选择与建立299
17.3.2? 301模型之间的比较与评估
第 18 章?贝叶斯垃圾邮件过滤器模型 303
18.1?贝叶斯模型中的条件概率 303
18.2?复杂数据预处理304
18.2.1?使用 for 循环读取多封电子邮件的正文 304
18.2.2?使用tm包进一步转换数据格式306
18.2.3?将 TDM 转换为真正有用的数据帧 307
18.3?使用出现值构造分类器 309
18.3.1?完成理论准备和处理测试邮件和普通邮件309
18.3.2?创建函数
文件目录
/学习智库8/R语言与大数据编程实战
| ├──R语言与大数据编程实战_14310397.pdf 68.0MB
声明:本站所有资源版权均属于原作者所有,这里所提供资源均只能用于参考学习用,请勿直接商用。若由于商用引起版权纠纷,一切责任均由使用者承担。如若本站内容侵犯了原着者的合法权益,可联系我们进行处理。
暂无评论内容