Introducción a los Tipos de Variables en Estadística con R

Introducción

En ciencia, para poner a prueba hipótesis y responder preguntas de investigación, medimos variables, que son elementos que pueden cambiar o variar. Estas variables pueden diferir entre personas dentro de una población (como la altura), entre lugares (como los niveles de desempleo) o con el tiempo (como el estado de ánimo a lo largo del día).

Las hipótesis generalmente se formulan en términos de dos variables: una que se propone como la causa y otra como el efecto o resultado.


Conceptos Clave

Variable Independiente (VI)

  • Es la variable que se considera la causa en una relación.
  • En experimentos, la variable independiente es aquella que se manipula deliberadamente para observar su impacto en otra variable.
  • Ejemplo: En un experimento sobre el impacto de las horas de estudio en el rendimiento académico, las “horas de estudio” serían la variable independiente.

Variable Dependiente (VD)

  • Es la variable que se cree que es afectada por la variable independiente. Es el resultado que se mide.
  • Ejemplo: Continuando con el ejemplo anterior, la “calificación en el examen” sería la variable dependiente, ya que depende de las horas de estudio.

Variable Predictora y de Resultado

  • En estudios donde no se manipulan las variables directamente (como en estudios observacionales o correlacionales), los términos “variable independiente” y “variable dependiente” pueden no ser los más adecuados.
  • En su lugar, se utilizan los términos variable predictora (equivalente a la independiente) y variable de resultado (equivalente a la dependiente). Este enfoque es útil en estudios donde una o más variables se utilizan para predecir el resultado.
  • Ejemplo: En un estudio donde se analiza si el nivel socioeconómico predice el rendimiento académico, el nivel socioeconómico sería la variable predictora, mientras que el rendimiento académico sería la variable de resultado.

Tipos de Variables

Introducción

Las variables pueden clasificarse en diferentes tipos, lo que nos ayuda a comprender mejor los datos y a aplicar las técnicas estadísticas adecuadas.

Variables Categóricas (Cualitativas)

Estas variables representan categorías o grupos. Pueden clasificarse en diferentes subtipos:

  1. Nominales:
  • No tienen un orden particular. Las categorías son solo nombres o etiquetas.
  • Ejemplo: Tipo de mascota (perro, gato, pájaro).
  1. Ordinales:
  • Tienen un orden o jerarquía, pero las diferencias entre categorías no son cuantificables o no son iguales.
  • Ejemplo: Puesto en una carrera (primero, segundo, tercero).
  • Ejemplo: Grados de satisfacción (muy insatisfecho, insatisfecho, satisfecho, muy satisfecho).

Variables Binarias (Dicotómicas)

  • Solo tienen dos categorías mutuamente excluyentes.
  • Ejemplo: Estado civil (casado/no casado), resultado de un examen (aprobado/reprobado).

Variables Cuantitativas (Numéricas)

Estas variables representan cantidades o valores numéricos. Pueden ser de dos tipos:

  1. Continuas:
  • Pueden tomar cualquier valor dentro de un rango. Es decir, entre dos valores cualesquiera, puede haber infinitos valores intermedios.
  • Ejemplo: Altura, peso, temperatura.
  1. Discretas:
  • Solo pueden tomar ciertos valores específicos, generalmente enteros.
  • Ejemplo: Número de hijos, número de autos en una familia.

Importancia de los Tipos de Variables

Es fundamental comprender el tipo de variable que estamos analizando, ya que esto influirá en las técnicas estadísticas que debemos utilizar. Por ejemplo, las pruebas aplicables a datos categóricos pueden ser diferentes de las que aplicamos a datos numéricos.

Ejercicio Práctico en R: Trabajando con Diferentes Tipos de Variables

  • Como veremos en lo que resta del curso, es importante entender qué tipo de variable estamos tratando para elegir el método de análisis adecuado.
  • Identifica los diferentes tipos de variables que tenemos en el siguiente conjunto de datos:
  • Los datos ya se encuentran cargados en el ejercicio en la variable datos_tipos_variables
  • Primero, vamos a explorar los datos con la función head() para ver las primeras filas.
  • A dimple vista, podemos determinar lo siguiente:
  • ID: Es una variable discreta.
  • Resultado_Examen: Es una variable categórica ordinal.
  • Estado_Civil: Es una variable categórica nominal.
  • Vivo_Muerto: Es una variable categórica binaria.
  • Temperatura: Es una variable continua.
  • Anxiety_Score: Es una variable continua.

Sin embargo, existen diferentes formas de explorar los tipos de datos con diferentes funciones en R.

str()

  • Podemos usar la función str() para obtener una descripción de las variables en el conjunto de datos.
  • Esta función nos proporciona información sobre el tipo de variable y los primeros valores de cada columna.
  • Observa que nos dice:
  • El número de observaciones (100).
  • El número de variables (6).
  • El nombre de las variables.
  • ID es identificada como un número entero (Int que significa integer).
  • Resultado_Examen, Estado_Civil y Vivo_Muerto son factores. Los factores son variables categóricas. También nos muestra los niveles de cada factor, que son las categorías o valores que puede tomar la variable. Por ejemplo, Resultado_Examen tiene 4 niveles: Fail, Pass, Merit, Distinction. La palabra Ord. significa que es una variable ordinal.
  • Las variables Temperatura y Anxiety_Score son numéricas (num).

summary()

  • Esta función nos proporciona un resumen de las variables en el conjunto de datos.
  • Observa que para las variables categóricas, nos muestra la frecuencia de cada nivel, es decir, cuántas veces aparece cada categoría en el conjunto de datos.
  • Para las variables numéricas, nos muestra un resumen estadístico, incluyendo la media, la mediana, los cuartiles, el mínimo y el máximo.

glimpse()

  • Podemos usar la función glimpse() del paquete dplyr para obtener un resumen de las variables en el conjunto de datos.
  • Una ventaja de ver los datos con esta función es que nos muestra el tipo de variable que R ha asignado a cada columna.
  • NOTa: en esta presentación no se alcanza a visualizar la salida completa de la función glimpse(), pero en tu computadora podrás verla completa.

sapply() y class()

  • sapply() es una función que aplica una función a cada elemento de una lista o vector.
  • class() es una función que nos permite obtener el tipo de variable de un objeto en R.
  • Podemos usar sapply() con class() para obtener el tipo de variable de cada columna en el conjunto de datos.

Cambiando el Tipo de Variable (recodificar)

  • A veces, necesitamos cambiar el tipo de variable de una columna en un conjunto de datos.
  • Por ejemplo, si una variable categórica se ha leído como numérica, necesitamos cambiarla.
  • Esto se conoce como recodificar.

Ejercicio

Ejercicio 1: Variables de Carácter

En este ejercicio, los estudiantes deben crear una variable de carácter y verificar su tipo de dato.

Instrucciones:

  1. Reemplaza el guion bajo (______) por un texto entre comillas para crear una variable de carácter.
  2. Corre el código para verificar que el tipo de dato sea correcto.

El tipo de dato debería ser character. Si el estudiante ha hecho todo correctamente, la salida de typeof(caracter) será "character".

Ejercicio 2: Variables Numéricas

En este ejercicio, los estudiantes deben crear una variable numérica y verificar su tipo de dato.

Instrucciones:

  1. Reemplaza el guion bajo (______) por un número para crear una variable numérica.
  2. Corre el código para verificar que el tipo de dato sea correcto.

El tipo de dato debería ser numeric. Si el estudiante ha hecho todo correctamente, la salida de typeof(numerica) y class(numerica) será "double" o "numeric".

Explicación:

  • En el Ejercicio 1, el objetivo es que creen una variable que contenga texto, lo que en términos de programación en R se denomina una variable de carácter. El texto siempre debe ir entre comillas dobles o simples.
  • En el Ejercicio 2, deben crear una variable que contenga un número, lo que en R se conoce como una variable numérica. En este caso, pueden usar cualquier número (decimales o enteros).