00R team. Febrero 2016

De los datos a los resultados

Procedimiento general

AnƔlisis de datos

AnƔlisis de datos: algoritmos

Diagrama de flujo

DescripciĆ³n de algoritmos: pseudocĆ³digo

Inicio

  1. Tomar los valores de A, B, C
  2. \(\Delta \leftarrow\) B^2 - 4 * A * C
  3. \(\Delta\) > 0

    • si: Devolver "No hay soluciones reales"
  4. \(\Delta\) = 0

    • si
      • X1 \(\leftarrow\) - B / ( 2 * A )
      • Devolver "La soluciĆ³n es" X1
  5. \(\Delta\) < 0

Fin

ĀæLenguaje de programaciĆ³n?

AnƔlisis de datos: preparando los datos

AnƔlisis de datos: preparando los datos

Datos y programas

Estructuras de datos y formatos

  • InfomaciĆ³n digital: ficheros de texto plano y ficheros binarios

    Extensiones: .txt, .exe

  • Documentos digitales: texto plano, texto marcado, texto como imagen, …

    Extensiones: .tex, .csv, .html, .svg, .pdf, .doc, .odt

  • ImĆ”genes: con pĆ©rdida y sin pĆ©rdida

    Extensiones: .jpeg, .webp, .png, .tif

  • InformaciĆ³n vectorial: mapas, diagramas, figuras, …

    Extensiones: .svg, .shp, .dot, .pdf

Estructuras de datos para anƔlisis estadƭstico

Manejo de observaciones univariantes o multivariantes. Valores homogĆ©neos: todos tienen la misma naturaleza (valores numĆ©ricos, cĆ³digos, …)

  • Vectores: un conjunto de valores homogĆ©neos, uno para cada observaciĆ³n
  • Matrices: conjunto homogĆ©neo de valores para cada observaciĆ³n, siempre con el mismo nĆŗmero
  • Tablas de datos: conjunto homogĆ©neo o no de valores para una observaciĆ³n, siempre con el mismo nĆŗmero
  • Listas: conjuntos heterogĆ©neos de de datos, no es necesaria la coincidencia en el nĆŗmero

Vectores

  • \(x_i\): tenemos \(n\) elementos y el valor de \(i\) va de 1 a \(n\).
  • Pueden contener textos o valores numĆ©ricos
  • El orden es relevante
  • Operaciones habituales:
    • OrdenaciĆ³n
    • ExtracciĆ³n de subconjuntos \(x_{i \in \{ 1, 3, 7 \}}\)
    • TabulaciĆ³n, sumas, sumas acumuladas, medias, …
  • MecanizaciĆ³n: con texto plano o con la ayuda de una hoja de cĆ”lculo

Matrices

  • Pueden entenderse como conjuntos de vectores homogĆ©neos
  • \(x_{i,j}\): \(i\) representa las fila, de 1 a \(n\) y \(j\) representa las columnas, de 1 a \(p\)
  • MecanizaciĆ³n: con texto plano o con la ayuda de una hoja de cĆ”lculo
  • Se pueden obtener subconjuntos (\(x_{i \in \{ 1, 3, 7 \}, j \le 4}\)) o agregar varias por filas o columnas

  • Ejemplos:

         Matriz A    Matriz B
          5 6 7 6      a b d
          8 6 5 5      d e a
          7 9 4 3      c d b

Tablas de datos

  • Se pueden considerar "matrices con columnas heterogĆ©neas"
  • Para las filas hablamos de observaciones, objetos o individuos
  • En las columnas tenemos las variables
  • Se ajustan a las necesidades reales
  • Conviene identificar con un nombre o cĆ³digo Ćŗnico tanto filas como columnas
  • Ejemplo: tres observaciones y 7 variables
          a b d 5 6 7 6 
          d e a 8 6 5 5      
          c d b 7 9 4 3

Listas

Es un mĆ©todo ventajoso para trasladar a ordenado el trabajo de construcciĆ³n de una tabla de datos

  • Para cada observaciĆ³n utilizamos un vector
  • La longitud de los vectores puede ser distinta
  • El primer elemento codifica la observaciĆ³n
  • Se optimiza el trabajo: mecanizaciĆ³n y revisiĆ³n
  • Se minimiza el esfuerzo y los requerimientos del sistema
  • Cabe utilizar parejas (trios …) de valores con distinto significado para cada elemento
  • Para crear la tabla asociada basta con identificar los cĆ³digos de filas y columnas

Listas: ejemplos

  • lista de especies: Para muestreos faunĆ­sticos, florĆ­sticos se indica el cĆ³digo de la localidad y a continuaciĆ³n los cĆ³digos de las especies presentes:
    Ā 
    localidad1 especie10 especie26
    localidad2 especie8 especie23 especie24 especie26

  • Como en caso anterior pero indicando el nĆŗmero de ejemplares avistado:
    Ā 
    localidad1 especie10 150 especie26 35
    localidad2 especie8 12 especie23 15 especie24 180 especie26 43

  • Otros: SĆ­ntomas por paciente, listas de compras, …