Al finalizar el curso, se espera que el alumno sea capaz de:
R es muchas cosas:
Es una simple calculadora.
Es un programa para el análisis de datos, que dispone de procedimientos específicos para:
* Estadística descriptiva.
* Inferencia estadística.
* Ajuste de Modelos.
* Estadística espacial.
* Epidemiología.
* Análisis de señales.
* Genética
* Econometría
* Series Temporales
* Ecuaciones estructurales
* Métodos bayesianos
…
Es una herramienta de cálculo numérico con procedimientos para el álgebra lineal, las ecuaciones diferenciales, la optimización, etc.
Es un lenguaje de programación con las siguientes características:
* Actúa como interfaz para procedimientos computacionales muy diversos.
* Es interactivo.
* Su modelo de programación es funcional.
* Es orientado a objetos. Todo en R es un “objeto”.
* Es modular, construido a partir de mútiples “piezas” ajustadas a un formato estándar.
* Es colaborativo: es software libre, abierto a la participación de quien desee aportar su conocimiento y experiencia.
Es sobre todo un entorno de trabajo en el que se pueden manipular múltiples elementos: archivos de datos, gráficos, accesos a internet, etc. Este entorno de trabajo cuenta con la indiscutible ventaja de ser idéntico en los tres grandes sistemas operativos: Linux, Windows y Mac.
R es un lenguaje con una curva de aprendizaje compleja, pero muy robusto y efectivo para el manejo de datos estadísticos. Es un lenguaje orientado a objetos. Además, R es un lenguaje de programación que está en constante evolución y del que se dispone de una amplia documentación. Hay una gran comunidad viva y colaborativa.
Cuando un programador maneja volúmenes de datos muy elevados, gran parte del tiempo se dedica a preparar la información para la visualización de la que se pueden extraer conclusiones. Con R esa preparación es relativamente sencilla, en gran medida porque automatiza muchos procesos mediante la programación de ´scripts´.
R es muy flexible, puede trabajar con datos procedentes de todo tipo de archivos: un .txt, un .csv, un JSON o un EXCEL.
R es un lenguaje que permite la implementación de paquetes adicionales que le dan una capacidad de gestión de datos enorme. En proyectos de gran volumen, la escalabilidad es un elemento clave.
Si eres programador y quieres empezar con R, esto es un detalle importante. No hay limitaciones. El código está en cualquier repositorio de plataformas de desarrollo colaborativo como GitHub´ o foros de dudas para desarrolladores como
Stackoverflow´. Hay librerías y paquetes adicionales para impulsar proyectos, cuyo código se puede modificar para implementar nuevas funcionalidades. Y gratis.
El curso consiste en la lectura y estudio del material escrito. Las clases presenciales seguirán estas guías y se intercambiarán ejercicios.
Para afianzar los contenidos, se recomienda vivamente probar los conceptos con datos reales. Para eso, por ejemplo, se puede instalar el paquete datasets
:
library(datasets)
Aquí encontrarás un listado de los data.frames que contiene el paquete.
Habitualmente, el lenguaje R se utiliza con la ayuda de una interfaz gráfica llamada Rstudio. Como en este curso utilizaremos R a través de Rstudio, tendrás que instalar R, y luego Rstudio.
R es software libre y por tanto no es necesario pagar para adquirirlo. Se puede descargar directamente desde la web www.r-project.org.
Click en download R y seleccionar el servidor para Argentina. Luego tendrás que clickear el link que corresponda a tu sistema operativo.
Una vez que tienes el lenguaje R instalado, estas en condiciones de instalar la interfaz gráfica. La versión Open Source puede descargarse libremente desde www.rstudio.com. Se recomienda descargar la versión gratuita de “RStudio Desktop”. Deberás clickear sobre el “installer” acorde a tu sistema operativo.
La interfaz de Rstudio permite un acceso más cómodo a la edición de código, los resultados, los gráficos, la descarga de librerías, los objetos en memoria, etc. Además permite generar muy fácilmente informes con los procedimientos y resultados de nuestros análisis en varios formatos (html, pdf y word).
En los últimos años Rstudio ha experimentado un notable desarrollo y se ha convertido, de facto, en la GUI por excelencia para R. Dispone de versiones (idénticas en su funcionamiento) para Linux, Mac y Windows.
Abre Rstudio para empezar a trabajar. Luego File -> New file -> R Script. La pantalla debería ser similar a esto:
Esta pantalla contiene las cuatro áreas de trabajo de Rstudio:
Probemos las áreas:
a<-1
Con esta instrucción estamos creando una variable llamada “a”, y le estamos cargando el valor “1”. Esa variable se podrá ver en el área “Environment”.
En la consola también puedes escribir, por ejemplo:
Puedes probar con múltiples funciones: raiz cuadrada (sqrt), cuadrado ( ^ 2), logaritmo, etc:
Puedes asignar valores a variables:
Una variable puede contener muchos valores; en tal caso la variable puede expresarse como un vector de dimensión n, que se construye mediante la función de concatenación, ´c()´:
Las operaciones con variables n-dimensionales se realizan término a término:
Hasta ahora hemos ejecutados instrucciones en R en la consola. Ahora bien, cuando cerremos Rstudio,no quedará rastro de lo que hemos estado haciendo. Para eso es que debemos trabajar con scripts.
En muchas ocasiones nos interesará guardar los comandos que hemos empleado, por múltiples razones:
Vamos a crear nuestro primer script. En el area de “Untitled1” pegar el siguiente código:
mensaje<-"Hola mundo"
fecha<-date()
repeticiones<-5
print(fecha)
## [1] "Mon Jun 29 17:32:14 2020"
for (i in 1:repeticiones){
print(mensaje)
}
## [1] "Hola mundo"
## [1] "Hola mundo"
## [1] "Hola mundo"
## [1] "Hola mundo"
## [1] "Hola mundo"
Cuando programamos un script, las intrucciones no se ejecutan como sucede en la consola (que se ejecutan automáticamente luego de presionar enter). Tenemos dos maneras de ejecutarlas:
Te conviene ejectuar todas las instrucciones de tu scripts. Por ese motivo, selecciona todas las líneas de código y luego, click en “Run”. En la consola podrás ver el resultado de tu primer programa.
Características de un buen scripts:
En la actualidad, numerosas plataformas de enseñanza online ofrecen cursos de R, o cursos de estadística que emplean R como herramienta para el análisis de datos:
Leyendo libros y documentación en internet
Curso de introducción a R. Recomendado. Varias clases y ejemplos de este curso, se tomaron de este sitio.