Entradas

Destacado

1.- ¿Qué es R?

 La primera pregunta que nos surge al empezar este blog es: ¿qué es R?, y de la Wikipedia obtenemos :  “ R es un entorno y lenguaje de programación enfocando al análisis estadístico.  R es una implementación de software libre del lenguaje S pero con soporte de alcance estático. Se trata de uno de los lenguajes más utilizados en investigación por la comunidad estadística, siendo además muy popular en los campos de minería de datos, investigación biomédica, la bioinformática y las matemáticas financieras. A esto contribuye la posibilidad de cargar diferentes bibliotecas o paquetes con funcionalidades de cálculo y gráficas. R es parte del sistema GNU y se distribuye bajo licencia GNU GPL. Está disponible para los sistemas operativos Windows, Macintosh, Unix y GNU/Linux. ” Resumiendo, R es un lenguaje open source script para  principalmente  el tratamiento de datos numéricos con gran flexibilidad de tratamiento de la información y su visualización.  R está disponible

11.- Vectores

Imagen
 En R los tipos de variables se llaman modos, todos los elementos en un vector deben ser del mismo modo, que puede ser entero, numérico, carácter (cadena), lógico (Booleano), complejo ...  En R los indices de los vectores empiezan con 1.  Si en un vector dado queremos introducir un elemento adicional : definimos el vector x <- c(2,3,4,5,6) introducimos un elemento adicional entre el indice 3 y el indice 4: x <-c(x[1:3],345,c[4:5]) Para obtener la longitud de un vector: length(vector)   En R las variables no necesitan declaración previa, como en otros lenguajes  En R existe algo llamado reciclado, cuando operamos entre vectores de distinta longitud el vector de menor longitud se repite hasta alcanzar la longitud requerida : operaciones con vectores  el operador : permite generar vectores v.g. 5:8 --> 5,6,7,8 existe una instrucción para generar secuencias de números (vectores) seq(from=xx, to=yy, by=zz) para repetir secuencias en un vector rep(xx, times) o rep(xx, each=yy) R n

10 .- R: Tipos de datos

 R utiliza los siguientes tipos de datos : Vectores : a partir de la instrucción c(x1, x2,... ) , todos los elementos deben ser del mismo tipo. Escalares : números, v.g:   x<-8 Cadenas de caracteres, v.g. : z<- c("hijk", "34 67j") Matrices: un grupo de vectores en varias dimensiones Listas : un contenedor de datos de diferentes tipos, v.g. y <- list(u=2, v="fgh") , cada componente de la lista se accede como y$u o y$v  Data Frame: un conjunto de de lista o elementos de diferente tipo, normalmente se crean leyendo algún fichero o base de datos. Clases : ya que R es un programa orientado a objetos, los objetos son instancias de las clases.

9.- Google Colab

Imagen
  Google ofrece un entorno para sus usuarios que se llama Colab similar a los Notebooks de  Jupyter, sin instalar nada en tu ordenador: en este entorno se puede programar en R accediendo a través de este link :  https://colab.research.google.com/#create=true&language=r,  también permite programar en una combinación de Python y R ( Enlace ).  Los cuadernos generados se pueden guardar en Google-Drive, y desde Drive cargarlos en Colab para trabajar con ellos.   Similar a Jupyter, Colab trabaja añadiendo bloques de código (donde escribimos el programa) o texto (donde escribimos la descripción necesaria):

8.- R: GGplot2

Imagen
Antes de seguir avanzando con R, me parece interesante dejar el sistema de gráficos base del lenguaje e introducir el uso de GGplot2. GGplot2 es un paquete que basado en la "gramática de los gráficos", permite dotar a nuestros análisis de unos gráficos muy potentes y detallados. El autor del paquete es  Hadley Wickam . En esta entrada presentaré un pequeño ejemplo de uso, y en las siguientes entradas iré presentando en detalle los distintos tipos de gráficos.  Como vemos en el ejemplo, se va montando el gráfico por capas que se van concatenando con el '+' cambiamos la capa gráfica a tipo jitter y le añadimos el color por el tipo de árbol y rápidamente obtenemos los resultados: como siempre nos corresponde asegurar que lo que se representa tiene un sentido y significado. Enlace a la pagina web de ggplot :  Link Enlace en el CRAN a la información de ggplot :  Link Enlace a la hoja resumen de ggplot en RStudio :  Link Un buen sitio para empe

7.- R: Packages : SixSigma, Qcc

Imagen
 Ya hemos comentado la gran cantidad de paquetes ( packages en lenguaje R) disponibles para acelerar la toma de decisiones y poder concentrarnos en la valoración de resultados ( el listado completo de paquetes está en el CRAN/Packages ). No hay que perder de vista que tratamos con software open-source, y si bien los paquetes están seguramente muy depurados, los autores son conocidos y accesibles via e-mail, hay foros, ... nos toca a nosotros tomar la ultima decisión con la información que obtenemos.  En relación con el tema de la calidad y el control estadístico de proceso, hay entre otros dos paquetes disponibles que veremos a continuación : SixSigma :  Enlace a la información en CRAN Qcc :  Enlace a la información en CRAN  Si los paquetes no están disponibles en la instalación que tengamos de R en nuestro ordenador, lo primero será instalarlos mediante install.packages(...) , como vemos a continuación : una vez tenemos SixSigma , o Qcc instalado, debe aparecer en el

6.- R : Gráficos y pastel

Imagen
Vamos a ver dos tipos adicionales de gráficos disponibles en R, el gráfico de caja (boxplot) y el gráfico de sectores. Con esto terminaré la presentación gráfica de datos en el módulo básico de R. El gráfico de caja presenta la distribución de valores de una variable, vemos un ejemplo :  la interpretación de este gráfico es como sigue :  Maximo/Mínimo : El valor máximo/mínimo de la distribución de datos. Quartil 25% y 75% : Valor que nos reparte el 25% y el 75% de la distribución. Mediana : El valor que nos reparte el 50% de la distribución. En este ejemplo a continuación hemos tomado un conjunto de datos disponible en R que tiene dos atributos, la altura y el peso medio de la mujer americana y nuestro resultado es como sigue :  Este es un buen ejemplo para mostrar que debemos prestar atención con la presentación de los datos, estamos poniendo en la misma escala el peso y la altura de la mujer ... hay que prestar atención a las consecuencias que se sacan( ¿ much

5.2.- R: cambio de tema de RStudio, paste(...), format(...), rug(...)

Imagen
Como en la entrada anterior vemos con más detalle las novedades que hemos necesitado para esta entrada.  - Cambio de tema de RStudio : Si RStudio es el IDE que usamos, podemos cambiar su aspecto (tema) de la siguiente manera (RStudio, preferencias, Apariencia) y obtenemos la siguiente pantalla donde elegir el aspecto de nuestro IDE : - paste (...)  paste(...) convierte a cadena los parámetros que se le pasan y los concatena utilizando el separador que se le pasa como parámetro. La mayor utilidad de paste(...) puede ser en salida a fichero RMarkdown donde nos puede venir bien "ocultar" el código y dejar sólo la salida o bien hacer más clara la salida por consola. Vemos a continuación un par de ejemplos : - format (...) Siguiendo con el tema del formato, en determinados casos nos puede interesar presentar los números con determinado formato, para por ejemplo presentar un determinado número  de dígitos significativos. - rug(..) rug(...) me perm