Análisis de datos con el programa estadístico R

Tekst
0
Recenzje
Przeczytaj fragment
Oznacz jako przeczytane
Análisis de datos con el programa estadístico R
Czcionka:Mniejsze АаWiększe Aa


Análisis de datos con el programa estadístico R:

Una introducción aplicada

©2021, Christian Salas Eljatib

©2021, Ediciones Universidad Mayor SpA

San Pío X 2422, Pisos 1 al 6, Providencia, Santiago de Chile

Teléfono: 6003281000

www.umayor.cl

ISBN: 978-956-6086-109

ISBN digital: 978-956-6086-116

RPI: 2021-A-4608

Dirección editorial: Andrea Viu S.

Edición: Pamela Tala R.

Diseño y diagramación: Pablo García C.

Copyright @ Christian Salas Eljatib, 2021.

Sitio web del libro: www.eljatib.com/rlibro

E-mail: christian.salas@aya.yale.edu

Compilado el 6 de Agosto de 2021, Santiago, Chile.

Diagramación digital: ebooks Patagonia

info@ebookspatagonia.com www.ebookspatagonia.com

A mis hijos Josefa, Eduardo y Myriam,

y a mi amada Javiera.

Prólogo

Este libro ha sido escrito para servir como apoyo para cursos de pregrado y postgrado en donde el realizar exploración de datos y análisis estadísticos de estos son frecuentes, así como también para profesionales e investigadores que desarrollan estas tareas. El foco de esta obra es introducir el uso del software estadístico gratuito R como herramienta para manejar datos, realizar análisis exploratorio de estos y ajustar modelos estadísticos lineales. Debido al amplio uso de la estadística en diversas disciplinas como la ingeniería, ecología, agronomía, medicina, economía, ciencias ambientales y psicología, se espera que el libro pueda proveer una herramienta útil desde la cual diversos usuarios puedan organizar y desarrollar la aplicación de análisis estadísticos. Después de varios años de docencia en estadística y modelos cuantitativos, el autor se ha dado cuenta que cualquier ecuación se entiende mejor con datos y ejemplos, y es por eso que el manejo de un software potente en lo estadístico, pero también en programación, como R resulta crucial.

El libro está organizado en tres partes, partiendo desde aspectos básicos del software R hasta paulatinamente moverse al ajuste de diversos modelos estadísticos. La primera parte se enfoca en introducir el uso de R desde aspectos relacionados a su origen e instalación para su correcto funcionamiento (Cap. 1), sintaxis (Cap. 2) y describir los diferentes tipos de objetos (Cap. 3). La segunda parte cubre la exploración y análisis descriptivo de datos, abordando desde la lectura de archivos (Cap. 4), exploración de datos (Cap. 5) y confección de gráficos (Cap. 6). Finalmente, la tercera parte se aboca a aplicar los conocimientos previos en el ajuste de modelos estadísticos, desde modelos de regresión lineal simple y múltiple (Cap. 7), hasta los modelos y pruebas comúnmente utilizadas en el análisis de diseño de experimentos (Cap. 8).

Cada capítulo entrega información que va incrementalmente avanzando en información y alternativas de análisis de datos. Aunque un conocimiento básico de estadística es ideal y contribuye en la comprensión del material presentado, la estructura del libro es tal que es apropiado para ser usado en cursos a nivel de pregrado, y en asignaturas introductorias relacionadas a la estadística al nivel de magíster y doctorado. Afortunadamente, existen libros casi completos que tratan en mayor detalle los tópicos informáticos y estadísticos discutidos en cada capítulo, por lo tanto un lector interesado en profundizar puede luego referirse a ellos. Los archivos de datos ocupados se encuentran disponibles en el sitio web del libro www.eljatib.com/rlibro, así como también en el paquete datana de R. Además, actualizaciones y la fe de erratas aparecerán en dicho sitio web.

El libro provee, cuando se estima necesario, determinados conceptos teóricos que fundamentan algunos cálculos estadísticos y modelos, sin embargo, este se centra en la aplicación de R en el análisis de datos y ajuste de modelos estadísticos de regresión lineal. Por lo tanto, esta obra no es un tratado teórico sobre aspectos estadísticos. En este mismo sentido, si bien el texto se centra en la aplicación de conceptos computacionales para el análisis de datos, no pretende ser una colección exhaustiva de algoritmos computacionales ni en detalles informáticos que van más de alla de lo necesario para un usuario aplicado.

Finalmente, el autor quisiera agradecer el rol crítico de colegas y especialmente de estudiantes que han jugado en su apreciación por un manejo computacional eficiente para el análisis de datos y el ajuste de modelos estadísticos. El presente libro es el fruto de más de quince años dictando asignaturas sobre estadística aplicada y modelación en donde el autor ha ejemplificado algunos de sus contenidos mediante R, tanto como ayudante académico en Yale University (EEUU) y como profesor en la Universidad de La Frontera, Universidad de Chile y Universidad Mayor, experiencia que le ha permitido evaluar y ordenar los contenidos, así como la forma en que estos han sidos expuestos acá. Varios profesionales contribuyeron con ideas y sugerencias para la estructura del presente texto. Especialmente se agradece al profesor Timothy Gregoire, por su constante mentoría en la rigurosidad estadística y notación científica, y al profesor Andrew Robinson, por su entusiasmo permanente para con el uso de R. Así también el autor agradece a la gran comunidad de usuarios alrededor del mundo que contribuyen a la mejora permanente de R. Alguno de los datos empleados para el desarrollo de ejemplos han sido proveídos por colegas que han gentilmente cedido dicha información, dentro de los cuales se destaca a: Rodrigo Vargas, Daniel Soto, Jan Bannister, Anibal Pauchard y Andrés Fuentes. Asistentes de investigación en la Universidad de La Frontera y la Universidad Mayor, como Joaquín Riquelme, Nicolas Pino, Cristián Segovia, Camilo Matus, Tomas Cayul, Valeska Yaitul, Grace Floody y Camilo Flores, contribuyeron con llevar a cabo tareas asociadas con la preparación de esta obra. A todos los que han colaborado en diferentes formas, el autor les da las gracias, aunque obviamente cualquier error remanente en este trabajo es de él.

El autor puede ser contactado por email a christian.salas@aya.yale.edu y él apreciaría ser informado de cualquier error, puntos no claros, y omisiones en el libro. Sugerencias para mejorar y tópicos futuros son también bienvenidos. Tal como se indica en el sitio web del libro, profesores que utilicen la obra en sus cursos pueden contactar al autor para obtener resultados completos a los ejercicios de la presente obra.

Santiago, Chile

Christian Salas-Eljatib

Notación empleada en el libro

Esta obra considera una mezcla de notaciones computacionales y sigue una estructura lógica para introducir a usuarios a R, y que les permita poder desarrollar a estos los ejemplos expuestos. A continuación se indican ciertos aspectos respecto a la organización del documento.

•En un recuadro, o box, se han destacado los conceptos claves a rescatar de algunas secciones del documento.

•Con tipografía courier (algo como esto), aparecen las variables presentes en los datos analizados, así como también los comandos de R.

•Note que el símbolo ">", que aparece en la consola de R, representa a R esperando el ingreso de comandos por parte del usuario. Es aquí donde el usuario debe ingresar comandos, y luego apretar la tecla enter para llevarlo a cabo. Un comando es una secuencia de caracteres que el programa reconoce para ejecutar algoritmos o tareas específicas.

•Si se requiere replicar en un computador alguno de los comandos explicados, se debe escribir dichos comandos tal y como aparece en el texto. R no es sensible al espaciado entre caracteres, pero sí es sensible a las letras mayúsculas.

•Aunque los amantes del idioma castellano no estarán de acuerdo con el autor, a veces dentro del texto se ha preferido el uso de algunos términos en inglés y no los castellanos, simplemente porque dichos términos son más cortos, y son más fáciles para encontrar ayuda en internet.

•En la obra, cuando se representen comentarios de sintaxis (escritos en tipografía courier y precedidos por el símbolo #) y en algunas etiquetas de gráficos se ha omitido el uso de tildes, para así evitar problemas que a veces ocurren por la configuración del teclado en los computadores.

Índice general

I Introducción al mundo de R

1 R: ¿Qué?, ¿Cómo? y ¿Dónde?

1.1 ¿Qué es R?

1.2 ¿Cómo instalar R?

1.3 ¿Dónde interactúo con R?

1.4 Instalando paquetes

2 Introducción a la sintaxis de R

2.1 R como una calculadora

 

2.2 Funciones en R

2.2.1 Funciones matemáticas

2.2.2 Funciones de densidad de probabilidad

2.2.3 Funciones trigonométricas

2.2.4 Otras funciones útiles

2.3 Llevando un registro

2.4 Buscando ayuda sobre R

3 Objetos

3.1 Asignación

3.2 Valores escalares

3.2.1 Numérico

3.2.2 Cadena de caracteres alfanuméricos

3.2.3 Lógico

3.3 Estructura de datos

3.3.1 Vector

3.3.2 Factores

3.3.3 Matrices

3.3.4 Listas

3.3.5 Set de datos

3.4 Otras funciones útiles

3.4.1 sample()

3.4.2 rep()

3.4.3 paste()

II Explorando datos

4 Cargar y guardar datos

4.1 ¿Dónde se está trabajando en el computador?

4.2 Cargando datos

4.2.1 Desde un paquete de R

4.2.2 Desde un archivo con valores separados con coma

4.2.3 Desde un archivo ASCII

4.2.4 Desde un archivo ASCII tipo Fortran

4.2.5 Desde un archivo dBbase (.dbf)

4.2.6 Desde un archivo en internet

4.2.7 Desde un archivo .xls

4.3 Guardando datos

4.3.1 Como un archivo con valores separados con coma

4.3.2 Como un archivo ASCII

5 Exploración de datos

5.1 Cargando un set de datos

5.2 Creando variables

5.3 Seleccionar una porción de una dataframe (filtros)

5.4 Estadística descriptiva

6 Gráficos

6.1 Gráficos de distribución

6.2 Gráficos de dispersión

6.3 Algunos otros gráficos más complejos

6.4 Guardar un gráfico

6.4.1 Mediante el GUI de R

6.4.2 Con línea de comando

III Ajuste de modelos

7 Análisis de regresión

7.1 El modelo lineal: algo de teoría

7.2 Ajustando un modelo lineal simple

7.2.1 Predicción con un modelo de regresión ajustado

7.3 Ajuste de un modelo lineal múltiple

7.3.1 Revisando valores perdidos

7.3.2 Relación entre varias variables

7.3.3 Modelos ajustados

7.3.4 Comparación de modelos

8 Modelos en diseños experimentales

8.1 ANOVA: modelo de regresión con variable predictora categórica

8.2 Un factor: anova simple

8.2.1 Describiendo los datos

8.2.2 anova

8.2.3 Distribución de los residuales ("normalidad")

8.2.4 Homocedasticidad de los residuales

8.2.5 Gráficos de residuales

8.3 Comparaciones entre tratamientos

8.3.1 Comparaciones pareadas

8.3.2 Pruebas de comparación múltiple

8.3.3 Contrastes

8.4 Dos o más factores: Experimento factorial

8.4.1 Describiendo los datos

Epílogo

Referencias bibliográficas

Anexos

a GUIs para R

b La función attach

c Símbolos especiales


I Introducción al mundo de R

1 R: ¿Qué?, ¿Cómo? y ¿Dónde?

1.1 ¿Qué es R?

1.2 ¿Cómo instalar R?

1.3 ¿Dónde interactúo con R?

1.4 Instalando paquetes

2 Introducción a la sintaxis de R

2.1 R como una calculadora

2.2 Funciones en R

2.3 Llevando un registro

2.4 Buscando ayuda sobre R

3 Objetos

3.1 Asignación

3.2 Valores escalares

3.3 Estructura de datos

3.4 Otras funciones útiles

1.R: ¿Qué?, ¿Cómo? y ¿Dónde?

1.1 ¿Qué es R?

R (Ihaka & Gentleman 1996, R Core Team 2020) es un programa estadístico y un lenguaje de programación de carácter libre, de distribución gratuita y de código abierto (i.e., el código fuente del programa está disponible para los usuarios), desarrollado como un gran proyecto colaborativo de personas de diversos países y disciplinas. R es un programa basado en comandos, en el que se puede acceder a todos los procedimientos y opciones a través de sintaxis computacional. Fue oficialmente presentado en 1997 y es un software libre que se rige por la licencia general pública gpl (General Public License) de la fundación de software libre (Free Software Foundation, o gnu http://www.gnu.org). R es similar al programa estadístico S-plus (el cual no es gratuito y es distribuido por Insightful Corporation), ya que la implementación base y semántica de ambos son derivados de un lenguaje estadístico llamado S y de un lenguaje llamado Scheme (Ihaka & Gentleman 1996). Las diferencias entre R y S-plus radican en el léxico empleado, en el código para modelar y en otros aspectos técnicos computacionales que escapan al alcance de la presente obra, pero que pueden ser revisados en Hornik (2008). De todas maneras, la mayoría de los comandos de R funcionan en S-plus y viceversa.

El lenguage S se desarrolló a fines de la década del 80 (del siglo anterior) en los laboratorios de at&t1 mientras que el proyecto R partió por Robert Gentleman y Ross Ihaka del Departamento de Estadística de la University of Auckland en 1995. R ha rápidamente ganado una muy diversa audiencia, es actualmente mantenido por el equipo de desarrollo de R ("R core-development team"), un grupo internacional y multidisciplinario de colaboradores voluntarios. El sitio web del proyecto R, www.r-project.org, es la principal fuente de información sobre R.

Es importante destacar el significado de lo que realmente es un software libre. Para esto, se incluye un extracto al respecto del gnu. El "Software libre" es un asunto de libertad, no de precio. Para entender el concepto debe pensarse en "libre" como en "libertad de expresión", no como en "cerveza gratis". "Software libre" se refiere a la libertad de los usuarios para ejecutar, copiar, distribuir, estudiar, cambiar y mejorar el software. De modo más preciso, se refiere a cuatro libertades de los usuarios del software:

 

•La libertad de usar el programa, con cualquier propósito (libertad 0).

•La libertad de estudiar el funcionamiento del programa, y adaptarlo a las necesidades (libertad 1). El acceso al código fuente es una condición previa para esto.

•La libertad de distribuir copias, con lo que puede ayudar a otros (libertad 2).

•La libertad de mejorar el programa y hacer públicas las mejoras, de modo que toda la comunidad se beneficie (libertad 3). De igual forma que la libertad 1 el acceso al código fuente es un requisito previo.

Que R sea libre significa entonces que se pueden descargar ("bajar") los archivos ejecutables y el código fuente sin ningún costo y con obligaciones mínimas. El proyecto R es una comunidad de programadores, estadísticos y analizadores de datos, quienes comparten un interés común en ofrecer y emplear un ambiente de análisis estadístico de fuente abierta. R es como un lenguage de programación que ha sido optimizado para el análisis de datos y modelación estadística. Es importante destacar que R está bajo constante desarrollo.


Box 1 ¿Qué es R?• Un ambiente computacional estadístico.• Un lenguage de programación: ¡sin menús!• Una herramienta para el análisis estadístico y manejo de datos.• ¡Es un software libre, gratuito y de código abierto!• Un software al cual mucha gente contribuye.

Una comparación detallada entre R y otros dos programas estadísticos de uso común (SAS y SPSS) es dada por Salas (2008).

Beneficios

Es gratis, de código abierto y corre en todos los sistemas operativos: Unix2, MS. Windows y Mac OS.

•Tiene un potente sistema de ayuda internamente construido. Posee excelentes capacidades gráficas.

•Los usuarios pueden fácilmente migrar al programa comercial S-Plus si un programa comercial es deseado.

•El lenguage de R tiene un gran número de funciones estadísticas pre-programadas.

•El lenguage se puede extender fácilmente al emplear y modificar funciones escritas por usuarios.

•Es un lenguaje de programación computacional. Aquellos usuarios que ya sepan programar se sentiran más familiarizados con R que con otros lenguajes, y para aquellos usuarios nuevos, el siguiente paso para aprender a programar no será tan desafiante.

Potenciales desventajas

R también podría tener algunas complicaciones en comparación a otros programas, como por ejemplo:

a.Tiene una limitada interfaz gráfica o gui3. Esto significa que puede ser más difícil de aprender. No obstante existen soluciones (ver la siguiente sección).

b.No tiene un respaldo comercial. Al contrario, cuando uno usa un software comercial,4 la empresa del software es responsable por su funcionamiento y debe ofrecer respaldo.

c.El lenguaje de comandos es un lenguaje de programación, entonces los usuarios que quieran aprenderlo deben apreciar los problemas de sintaxis y temas relacionados.

. . . pero también hay soluciones

Hay soluciones para casi todos los puntos en contra de R anteriormente indicados (§1.1).

a.Aunque la interfaz gráfica por defecto de R (la cual se denomina RGui) podría ser poco amigable, existe una serie de alternativas que permiten la edición y trabajo con R de forma más amigable. Por ejemplo, una GUI de R que ha ganado adeptos en los últimos años es "Rstudio" (RStudio Team 2020). Ver Anexo A con otras GUIs.

b.Debido a que R es un software libre, no tiene un respaldo comercial. Sin embargo, existen una gran cantidad de sitios web de ayuda5 y comunidades de listas de correos electrónicos6 que ofrecen soluciones a consultas de todo tipo. Esto podría ser considerado incluso mejor.

c.El que R sea un lenguage de programación le permitiría a un usuario no tan solo realizar sus análisis estadísticos, sino que también programar otros análisis y manejar sus datos. Esto implica poder hacer uso de los datos de una forma eficiente.

Ventajas de emplear sintaxis para estadística

Las ventajas de emplear sintaxis o programar en un lenguaje comparado con un programa con menús son:

•Muchas más opciones y, por ende, flexibilidad.

•Reproducción: si tiene el código que fue empleado para el análisis de otra persona, Ud. puede saber exactamente qué procedimientos fueron usados para analizar un set de datos.

•Personalización: consigue exactamente lo que quiere, ¡y lo puede reproducir de nuevo!

•Traslado a nuevos sets de datos: es fácil de modificar un código existente a uno nuevo.

•Almacenamiento histórico: después de años de que un análisis fue realizado, se tiene por lo tanto un registro exacto del análisis que se efectuó. Esto implica una mejor trazabilidad.


Box 2 ¿Por qué usar R?• Es un software estadístico de primer nivel.• Ofrece un mayor control de cómo cada procedimiento interno es llevado a cabo.• Existe una amplia documentación disponible en forma gratuita, así como a la venta.• Es un ambiente computacional que no es tan solo adecuado para estadística, sino que para varias disciplinas donde análisis cuantitativos son requeridos.• Corre en MS. Windows, Mac OS y Unix (Linux).• Gratuito y de código abierto.

Finalmente, es importante destacar que R contribuye al acceso global y participativo de la ciencia (Evans & Reimer 2009), sobre todo porque es un software que permite análisis estadísticos que son parte importante de la gran mayoría de las investigaciones científicas. Además, los software libres en general tienen en todas las disciplinas un desarrollo muy relevante (Ince et al. 2012).

1.2 ¿Cómo instalar R?

R puede ser instalado en cualquier sistema operativo, lo cual es una gran ventaja en comparación con otros programas estadísticos (Salas 2008). La instalación de R es sencilla, al igual que cualquier otro software. El proceso se inicia al visitar el siguiente sitio web www.cran.r-project.org/mirrors.html7, y seleccionar el servidor desde donde se va a instalar el software. Existen varios servidores disponibles en el mundo, y se puede elegir el que Ud. estime conveniente. Una buena alternativa es el servidor de eth Zürich (https://stat.ethz.ch/CRAN/). Luego de seleccionar el servidor, aparecerán las versiones disponibles de R para cada sistema operativo computacional existente. La instalación en cada sistema operativo es algo diferente, y obviamente asume que el usuario sabe ocupar el sistema operativo respectivo. A continuación se resume la instalación en tres sistemas operativos.

Microsoft Windows

Luego de indicar el servidor, se debe seleccionar el subdirectorio "base", y ahí estará el archivo ejecutable8 que debe ser bajado al computador e instalado. El link directo al subdirectorio, en el servidor de eth Zürich, es https://stat.ethz.ch/CRAN/bin/windows/base y la instalación continua a partir de ahí como en cualquier otro software. Se recomienda emplear las opciones por defecto en la instalación de R.

Mac OS

Para sistemas operativos de Macintosh (o Mac OS), se debe seleccionar Mac OS en el sitio web y bajar el archivo a ser ejecutado, en este caso es el archivo R-4.1.1.pkg de 85 MB y el link directo es https://stat.ethz.ch/CRAN/bin/macosx/R-4.1.1.pkg. La instalación es común a la de otra aplicación de Mac (bajar archivo y cliquear).

Linux

Aquí se explican los pasos a seguir para la instalación de R en la distribución Ubuntu (versión Groovy) de Linux.

a.Incluir el servidor apropiado en el archivo /etc/apt/sources.list, al editar dicho archivo como sigue:

$ sudo gedit /etc/apt/sources.list

y en ese archivo agregar el servidor

deb https://cloud.r-project.org/bin/linux/ubuntu groovy-cran40/

b.Ahora, se actualiza el archivo de fuentes

$ sudo apt-get update

c.Finalmente se instala R al tipear lo siguiente en la terminal

$ sudo apt-get install r-base

1.3 ¿Dónde se interactúa con R?

Una vez instalado R en el computador, se puede iniciar el programa mediante el icono respectivo en el menú de programas9. R es un software algo distinto a lo que muchos usuarios están acostumbrados, ya que no posee opciones de menús desplegables para realizar los análisis. Esto implica que no hay "cliqueos".

La pantalla de inicio de R es una consola o terminal ("R console" en Fig. 1.1), en la cual se deben escribir comandos que deben ser interpretados por R. En la consola, se tipean comandos después del símbolo ">". Esta consola es la plataforma en la cual se puede interactuar con el programa, y el símbolo "|" parpadeando representa a R esperando instrucciones.

Aunque se pueden escribir los comandos directamente en el terminal, una vez que Ud. aprenda a usar de mejor manera R, le interesará editar los comandos y así también guardarlos para llevar un registro de estos (ver §2.3). Existe una variedad de editores (ver Anexo A), pero durante el desarrollo del libro solo emplearemos el editor por defecto de R ("R Editor" en Fig. 1.1).


Figura 1.1: La consola de R y el editor por defecto en la versión Windows. En la consola de R es donde se deben tipear comandos luego del símbolo ">", y en el editor se pueden ir almacenando los comandos. En otros sistemas operativos la estructura de la GUI es la misma, aunque cambia obviamente su despliegue visual.

1.4 Instalando paquetes

Los denominados paquetes en R son un set de funciones, datos encapsulados10 y funciones que permiten llevar a cabo algún tipo específico de análisis. Por ejemplo, el paquete spatstat (Baddeley & Turner 2005) se emplea para realizar análisis de patrones de distribución espacial de puntos. Mientras que en el paquete datana (Salas-Eljatib et al. 2021) están disponibles todos los datos usados como ejemplos en el presente libro. El paquete deSolve (Soetaert et al. 2010) entretanto se usa para el análisis de sistemas dinámicos basados en ecuaciones diferenciales.

A continuación se mostrará brevemente cómo se instalan paquetes en R, dependiendo de si el usuario tiene o no los derechos de administración del computador.

Usuario con derechos administrativos

Para instalar un paquete es necesario ocupar la función install.packages(). Es la primera vez que se habla de una función de R, sin embargo mayores detalles al respecto se revisarán más adelante (§2.2), por lo tanto, por ahora, no se definirá qué es una función y cómo se estructura.

A modo de ejemplo instalaremos el paquete spatstat mencionado anteriormente al escribir lo siguiente en la consola de R:

> install.packages("spatstat")

En algunas distribuciones de R, aparecerá el siguiente mensaje:

"--- Please select a CRAN mirror for use in this session ---"

y aparecerá una ventana con un listado de servidores. Ahí usted debe seleccionar el servidor deseado, e.g. "Switzerland" y, posteriormente, seleccionar "OK" (Fig. 1.2). En otras distribuciones de R, el servidor viene ya predeterminado, por lo tanto no será necesario que especifique uno.


Figura 1.2: Seleccionando un servidor en R. En este caso se ha seleccionado el servidor Switzerland, el cual corresponde al mantenido por la Universidad ETH Zürich (Instituto de Tecnología Federal Suizo en Zürich). Obviamente que la elección del servidor puede variar entre usuarios.

Luego de esto, R mostrará el estado del proceso de bajado e instalación del paquete, hasta que el proceso haya finalizado.


Nota 1.1 Es importante destacar que la sintaxis que se ha ocupado acá, es decir install.packages(), corresponde a una función que ya viene programada internamente en R.

Note que se puede instalar más de un paquete a la vez. Por ejemplo, si se instalan dos paquetes (o librerías): pkg1, que representa el nombre del primer paquete a instalar y pkg2 al segundo, se procede como sigue:

> install.packages(c("pkg1", "pkg2"))

Aplicando lo anterior, se instalarán los paquetes gdata (Warnes et al. 2017) y deSolve (Soetaert et al. 2010) en una sola línea, mediante

> install.packages(c("gdata","deSolve"))

Naturalmente esto puede ser extendido a cuantos paquetes se deseen instalar. Los nombres de los paquetes son sensibles a las mayúsculas, así es que se deben escribir tal cual como han sido nombrados por sus creadores.


Nota 1.2 El uso de c() es para concatenar más de un elemento en un objeto, por lo tanto, c() es una función también. La función concatenar se ocupará frecuentemente en R.


Box 3 Paquetes recomendados. Existen varios paquetes de interés, sin embargo, los que se ocuparán en el libro y son recomendables son:• datana: datos y funciones usadas en el presente libro (Salas-Eljatib et al. 2021).• foreign: leer datos en diferentes formatos.• dplyr: manejo de bases de datos (Wickham et al. 2020).• gdata: funciones para la manipulación de datos (Warnes et al. 2017).• deSolve: solución de ecuaciones diferenciales (Soetaert et al. 2010).• multcomp: tests de comparación múltiple (Hothorn et al. 2008).• agricolae: análisis de experimentos (de Mendiburu 2010).• nlme: modelos de efectos mixtos (Pinheiro et al. 2021).

Cuando necesite emplear un paquete en específico, Ud. debe hacerlo a través de la función library(). Por ejemplo, si quiere usar el paquete spatstat, debe escribir:

> library("spatstat")

Se procede de la misma forma, para las otras librerías ya instaladas gdata y deSolve.


Ejercicio 1.1 De los paquetes dados en el Box 3, instale datana, foreign, dplyr, y multcomp mediante sintaxis en la consola, y luego cargue estos paquetes a la sesión actual.


Nota 1.3 Tanto la función library() como require() sirven para cargar paquetes a una sesión de R, sin embargo, se recomienda utilizar la primera. Una librería es un directorio donde los paquetes son almacenados. Para ver qué librerías están, escriba:> .libPaths()y para revisar todos los paquetes, examine la salida de:> lapply(.libPaths(), dir)

Otra alternativa para instalar paquetes es descargar el archivo comprimido conteniendo con la fuente del paquete al computador. Este archivo se encuentra en formato tar.gz. Como ejemplo, descargue el archivo comprimido del paquete datana desde www.eljatib.com/rlibro, el cual lleva por nombre datana_1.0.0.tar.gz y almacénelo en su carpeta de descarga (se asume que se llama "Descargas"). Puede proceder a instalar el paquete en R mediante

> install.packages("~/Descargas/datana_1.0.0.tar.gz", repos=NULL,

type="source")

Usuario sin derechos administrativos

Cuando un usuario no tiene derechos administrativos de un computador, es necesario primero instalar los archivos del paquete en una carpeta física (o en cualquier ubicación donde se tengan privilegios de escritura). Por ejemplo, si se tiene una unidad USB externa (identificada en el computador como la unidad "E") donde se mantendrán los archivos del paquete multcomp. el procedimiento es como sigue:

To koniec darmowego fragmentu. Czy chcesz czytać dalej?