数据是 R 的主要工作对象,而数据转换是进行数据处理分析的关键步骤,也是能够判断出工作者对数据分析熟练程度的指标之一。
数据是 R 的主要工作对象,而数据转换是进行数据处理分析的关键步骤,也是能够判断出工作者对数据分析熟练程度的指标之一。
在使用 R 进行数据处理前,需要对 R 的工作流进行了解。而首先要了解的就是基础部分。
数据可视化是 R 的主要应用之一。有许多 R 包可以实现该功能,ggplot2
是其中之一。ggplot2
实现了图形语法,即用来描述和构建图形的连贯性语法规则。而 ggplot2
包是 tidyverse
包的核心 R 包,因此需要下载并加载该包才能使用对应函数。
当 R 函数存在打印等操作时(类似于 C++ 中函数的副作用),使用该函数给 R 对象赋值时只会接收函数的值。而使用这种方法赋值的对象在之后的调用中并不会执行原来的函数中的那些打印等操作。为了解决这些问题,R 实现了 S3 系统。
R 环境是 R 运行的基本载体,类似于 C++ 的命名空间和 MATLAB 的工作区。
R 对象中的元素在部分应用场景中是不需要更改的,但在某些应用场景中,需要(甚至经常需要)修改元素中的值。
R 对象中值的选取是 R 应用的重要组成部分。而 R 的记号体系是最适合完成这项工作的系统。
R 的主要操作内容是 R 对象,其作用类似于 C++ 等语言中的变量。
在数据科学领域,有两个工具是及其常用的:重复和可视化。而其中的部分功能是不包含在 R 自带的函数之中的,需要通过 R 包来使用。R 包是 R 函数、数据、预编译代码以一种定义完善的格式组成的集合,包括R程序,运行该程序的其他语言(例如 C 语言),解释这个程序功能、方法的帮助文档,例子、测试数据等。