1 Objetivos del curso

Al finalizar el curso, se espera que el alumno sea capaz de:

2 ¿Qué es R?

R es muchas cosas:

Es sobre todo un entorno de trabajo en el que se pueden manipular múltiples elementos: archivos de datos, gráficos, accesos a internet, etc. Este entorno de trabajo cuenta con la indiscutible ventaja de ser idéntico en los tres grandes sistemas operativos: Linux, Windows y Mac.

3 ¿Por qué R se ha convertido en una opción tan interesante?

  1. Lenguaje robusto.

R es un lenguaje con una curva de aprendizaje compleja, pero muy robusto y efectivo para el manejo de datos estadísticos. Es un lenguaje orientado a objetos. Además, R es un lenguaje de programación que está en constante evolución y del que se dispone de una amplia documentación. Hay una gran comunidad viva y colaborativa.

  1. Facilidad en la preparación de los datos.

Cuando un programador maneja volúmenes de datos muy elevados, gran parte del tiempo se dedica a preparar la información para la visualización de la que se pueden extraer conclusiones. Con R esa preparación es relativamente sencilla, en gran medida porque automatiza muchos procesos mediante la programación de ´scripts´.

  1. R funciona con cualquier tipo de archivo.

R es muy flexible, puede trabajar con datos procedentes de todo tipo de archivos: un .txt, un .csv, un JSON o un EXCEL.

  1. Gestión de un gran volumen de datos.

R es un lenguaje que permite la implementación de paquetes adicionales que le dan una capacidad de gestión de datos enorme. En proyectos de gran volumen, la escalabilidad es un elemento clave.

  1. Es de código abierto y gratuito.

Si eres programador y quieres empezar con R, esto es un detalle importante. No hay limitaciones. El código está en cualquier repositorio de plataformas de desarrollo colaborativo como GitHub´ o foros de dudas para desarrolladores comoStackoverflow´. Hay librerías y paquetes adicionales para impulsar proyectos, cuyo código se puede modificar para implementar nuevas funcionalidades. Y gratis.

4 Metodología del curso

El curso consiste en la lectura y estudio del material escrito. Las clases presenciales seguirán estas guías y se intercambiarán ejercicios.

Para afianzar los contenidos, se recomienda vivamente probar los conceptos con datos reales. Para eso, por ejemplo, se puede instalar el paquete datasets:

library(datasets)

Aquí encontrarás un listado de los data.frames que contiene el paquete.

5 ¿Cómo puedo descargar R?

Habitualmente, el lenguaje R se utiliza con la ayuda de una interfaz gráfica llamada Rstudio. Como en este curso utilizaremos R a través de Rstudio, tendrás que instalar R, y luego Rstudio.

5.1 Instalación de R

R es software libre y por tanto no es necesario pagar para adquirirlo. Se puede descargar directamente desde la web www.r-project.org.

Click en download R y seleccionar el servidor para Argentina. Luego tendrás que clickear el link que corresponda a tu sistema operativo.

5.2 Instalación de Rstudio

Una vez que tienes el lenguaje R instalado, estas en condiciones de instalar la interfaz gráfica. La versión Open Source puede descargarse libremente desde www.rstudio.com. Se recomienda descargar la versión gratuita de “RStudio Desktop”. Deberás clickear sobre el “installer” acorde a tu sistema operativo.

La interfaz de Rstudio permite un acceso más cómodo a la edición de código, los resultados, los gráficos, la descarga de librerías, los objetos en memoria, etc. Además permite generar muy fácilmente informes con los procedimientos y resultados de nuestros análisis en varios formatos (html, pdf y word).

En los últimos años Rstudio ha experimentado un notable desarrollo y se ha convertido, de facto, en la GUI por excelencia para R. Dispone de versiones (idénticas en su funcionamiento) para Linux, Mac y Windows.

5.3 Primer ingreso a Rstudio

Abre Rstudio para empezar a trabajar. Luego File -> New file -> R Script. La pantalla debería ser similar a esto:

Esta pantalla contiene las cuatro áreas de trabajo de Rstudio:

  • Script: Aquí es donde se escriben los programas en r. Son scripts, o sea, archivos que contienen instrucciones en R. Aquí es donde vamos a escribir algoritmos o conjuntos de instrucciones para, luego, ejecutarlas. Para ejecutar un script, antes, hay que nombrarlo y grabarlo. En nuestro caso, el script figura como “Untitled1” porque está recién creado, vacío y todavía no le pusimos nombre.
  • Console: Es una línea de comando. En esta área se pueden ejecutar instrucciones individuales en R.
  • Enviroment/History/Connections: Dependiendo de la pestaña, esta área muestra: las variables/objetos/funciones en memoria o los comandos ya ejecutados (History). Connections se utiliza para la gestión de repositorios o trabajo colaborativo entre varios programadores.
  • File/Plots/Packages/Help/Viewer: Esta área la iremos viendo a medida que avancemos en el curso.

Probemos las áreas:

  • En la consola escribir:
a<-1

Con esta instrucción estamos creando una variable llamada “a”, y le estamos cargando el valor “1”. Esa variable se podrá ver en el área “Environment”.

En la consola también puedes escribir, por ejemplo:

Puedes probar con múltiples funciones: raiz cuadrada (sqrt), cuadrado ( ^ 2), logaritmo, etc:

Puedes asignar valores a variables:

Una variable puede contener muchos valores; en tal caso la variable puede expresarse como un vector de dimensión n, que se construye mediante la función de concatenación, ´c()´:

Las operaciones con variables n-dimensionales se realizan término a término:

Hasta ahora hemos ejecutados instrucciones en R en la consola. Ahora bien, cuando cerremos Rstudio,no quedará rastro de lo que hemos estado haciendo. Para eso es que debemos trabajar con scripts.

En muchas ocasiones nos interesará guardar los comandos que hemos empleado, por múltiples razones:

  • Porque el análisis de datos se prolonga durante varios días.
  • Porque nos interesa documentar todo lo que hacemos con nuestros datos para futuras referencias o reanálisis.
  • Porque los comandos que hemos empleado para este análisis pueden ser reutilizados para analizar otros datos distintos.
  • Porque tenemos colaboradores a los que queremos mostrar exactamente la forma en que hemos llevado a cabo el análisis de datos.
  • Simplemente porque el análisis de los datos es parte del proceso de investigación científica. Tradicionalmente, al publicar un trabajo el investigador suele ser muy cuidadoso en la descripción del material y métodos empleados, ya que esta es la forma de conseguir que el trabajo se pueda reproducir y se puedan confirmar (o no) los hallazgos realizados. Pero tan importante como la descripción del material y métodos es la comunicación más fiel y exacta posible del análisis estadístico realizado.

5.3.1 Ejecución de scripts con R

Vamos a crear nuestro primer script. En el area de “Untitled1” pegar el siguiente código:

mensaje<-"Hola mundo"
fecha<-date()
repeticiones<-5

print(fecha)
## [1] "Mon Jun 29 17:32:14 2020"
for (i in 1:repeticiones){
  print(mensaje)
}
## [1] "Hola mundo"
## [1] "Hola mundo"
## [1] "Hola mundo"
## [1] "Hola mundo"
## [1] "Hola mundo"

Cuando programamos un script, las intrucciones no se ejecutan como sucede en la consola (que se ejecutan automáticamente luego de presionar enter). Tenemos dos maneras de ejecutarlas:

  • Ejecución línea a línea: ubicarse en la línea a ejecutar y hacer click en “Run”.
  • Ejecución de la región seleccionada: seleccionar el conjunto de instrucciones y hacer click en “Run”.

Te conviene ejectuar todas las instrucciones de tu scripts. Por ese motivo, selecciona todas las líneas de código y luego, click en “Run”. En la consola podrás ver el resultado de tu primer programa.

Características de un buen scripts:

  • Que pueda ser reutilizado muchas veces con distintos conjuntos de datos.
  • Que pueda ser entendible para otros programadores. Calidad de los nombres. Incluir líneas de comentarios.
  • Nombres en inglés.
  • “Atomizar” el código. El cada archivo contenga un concepto.
  • Tabular correctamente.
  • No hacer instrucciones muy largas.

6 ¿Dónde puedo encontrar más material sobre R?

En la actualidad, numerosas plataformas de enseñanza online ofrecen cursos de R, o cursos de estadística que emplean R como herramienta para el análisis de datos:

DataCamp

Code School

Leyendo libros y documentación en internet

Curso de introducción a R. Recomendado. Varias clases y ejemplos de este curso, se tomaron de este sitio.

Programming in R