Unidad 1 PDF

Title	Unidad 1
Author	Anonymous User
Course	Estadística Y Tecnologías De La Información Aplicadas
Institution	Universidad Nebrija
Pages	34
File Size	1.8 MB
File Type	PDF
Total Downloads	6
Total Views	164

Preview

CLICK TO PREVIEW PDF

Summary

Profundiza en Learning Analytics...

Description

Global Campus Nebrija Justo N. Hidalgo Sanz Curso de Learning Analytics

Nota Técnica Unidad 1- Learning Analytics: Big Data, Big Education

Índice/ Tabla de contenidos 1. Introducción

3

2. Por qué Big Data, por qué ahora

3

2.1. Caso: La Web Semántica 2.2. Caso: Analítica de datos

8 10

Introducción

10

El Contexto

10

La Introducción

11

¿Qué es una métrica?

12

Los cuadros de mando son para mandar, no para mirarlos

14

El modelo de utilización de métricas para piratas

15

Algunos ejemplos de métricas útiles

17

Conclusiones

19

3. Qué es la Analítica del Aprendizaje

21

3.1. Oportunidad de negocio 3.2. Mercado EdTech 3.3. Capital riesgo

22 24 26

4. Enfoque organizativo

28

4.1. Learning Analytics y Minería de datos educacional

29

5. Análisis competitivo

30

5.1. 5.2. 5.3. 5.4.

30 31 31 32

Blackboard Analytics for Learn Blackboard Intelligence X-Ray for Learning Analytics Otras herramientas

6. Bibliografía

Curso de Learning Analytics – Unidad 1 – Introducción

33

[2]

2017

1. Introducción El ecosistema tecnológico relacionado con entornos educativos y de aprendizaje ha crecido en potencial y complejidad con la llegada de la educación online. Si ya en el pasado las universidades, como la mayor parte de las empresas en cualquier otra industria, tenían arquitecturas de procesamiento de información interna (recursos humanos, contabilidad, etc.), la necesidad de ofrecer a sus alumnos servicios online cada vez más complejos ha obligado a la creación o adquisición de nuevas herramientas, que además de las funcionalidades que sean requeridas, exigen un nivel de diseño mucho mayor. Aunque la información almacenada debido a la actividad académica lleva existiendo mucho tiempo en el ámbito docente en general y universitario en particular, la utilización de mecanismos de docencia online tanto pura como en enfoques blended (mezclando componentes presenciales y virtuales para una asignatura o curso) ha permitido que esa información crezca exponencialmente. Muchísimas acciones que el estudiante o el profesor realizan sobre los sistemas de gestión de aprendizaje pueden quedar registrados para su posterior procesamiento y análisis. Aunque la mayor parte de las instituciones no están aprovechando estos datos adecuadamente, sí que muchas de ellas ya están almacenado todo o parte, e intentando entender cómo pueden aprovechar adecuadamente este potencial conocimiento. Esta nota técnica introduce las grandes oportunidades que existen en el área de analíticas de aprendizaje en instituciones académicas y de aprendizaje, así como los desafíos subyacentes. Texto párrafo. En la Universidad Nebrija han convivido alumnos de América Latina, Europa, Estados Unidos, Rusia, Japón y Corea junto con alumnos españoles que hacen de la Universidad un lugar global y cosmopolita.

2. Por qué Big Data, por qué ahora El concepto de “Big Data” o “grandes datos” existe desde los años 90, cuando fue creado o popularizado por John Mashey, conocido experto en ciencias de la computación. El crecimiento acelerado de datos almacenados de manera digital comenzó a hacer evidente en ese momento que la gestión de los datos habría de evolucionar a la misma velocidad con la que los datos crecían. Las estadísticas utilizadas en los años 70 y 80 siguen siendo útiles en la actualidad para muchas de las necesidades corporativas y académicas, pero surgen nuevas necesidades que requieren de nuevas técnicas matemáticas, nuevo software y hardware, y nuevas metodologías que las hagan frente. Hasta hace relativamente poco tiempo, las empresas requerían soluciones internas para el almacenamiento y gestión de aquellos datos necesarios tanto para sus labores diarias (recursos humanos, finanzas, etc.) como para aquellas que le resultaban estratégicas (tendencias, información sobre competidores o de mercado, etc). El crecimiento ante una mayor cantidad de información podía Curso de Learning Analytics – Unidad 1 – Introducción

[3]

2017

realizarse verticalmente (adquiriendo máquinas más potentes) u horizontalmente (distribuyendo los datos y capacidad de procesamiento de estos en más máquinas coordinadas entre sí). En los últimos años el crecimiento de la cantidad, heterogeneidad y variabilidad de datos disponibles para cualquier tipo de institución ha sido exponencial. La telaraña mundial, internet, la publicación de cada vez más información de acceso público (ya sea gratuito o mediante un pago al gestor del servicio), y la tendencia a que parte de la información que inicialmente se encontraba en los servidores propios de las instituciones pase a almacenarse y procesarse en empresas independientes y especializadas en aspectos concretos del negocio, como Salesforce.com o Gmail ha permitido a las empresas contar con un arsenal de datos a su disposición, pero con una gestión muy complicada. Primero por su heterogeneidad en cuanto a fuente, formato y protocolo de acceso, y segundo por su tamaño. Dicho de otra manera, “Big Data” nunca se refiere a un volumen concreto de datos. Lo que podía ser “Big Data” hace años (p.e. gigabytes), es ahora lo más común, mientras que el desafío lo encontramos en la actualidad con la gestión de Petaytes (10^6 megabytes). De hecho, durante muchos años la definición más aceptada de “Big Data”, por parte del analista Gartner, utilizaba las 3 Vs: 

Volumen: los datos ocupan mucho más volume de lo que estábamos acostumbrados.



Velocidad: los datos nos llegan a altas frecuencias.



Variedad: los datos tienen estructuras complejas y diversas.

Aunque esta definición ha sido modificada en los últimos años, añadiendo conceptos como “veracidad”, “aprendizaje automático” o “huella digital”, el concepto es claro cuando lo relacionamos con el coste cada vez más bajo de los soportes de almacenamiento de memoria, y el crecimiento de datos disponibles de manera libre o restringida en internet. 

Los bajos costes en almacenamiento de memoria hacen que algunas estrategias previamente utilizadas en almacenamiento de datos, como las “lossy” (almacenamiento con pérdida, en la que los datos concretos que habíamos obtenido, tras un tiempo, se eliminaban de las bases de datos, dejando agregaciones de datos como medias, medianas, desviaciones típicas, … nada más) ya no se utilicen, o se hagan de una manera mucho más limitada. En otras palabras, incluso una pequeña empresa pueden plantearse el almacenar petabytes de datos.



Debido a la razón anterior, surgen servicios disponibles en internet anteriormente impensables, como la Wikipedia, con más de 40 millones de artículos en 293 idiomas1. Este, y otros miles de servicios se convierten en fuentes de datos para los intereses de otras empresas o instituciones.

En los últimos años se ha venido a denominar “Big Data” a aquellos conjuntos de datos de tamaño tal que no pueden ser adecuadamente gestionados por las herramientas estándar, como bases de datos relacionales, o herramientas de Business Intelligence. El analista Forrester ha llegado a diferenciar 1

Información obtenida el 25 de Julio de 2017 en https://en.wikipedia.org/wiki/Wikipedia:Size_comparisons

Curso de Learning Analytics – Unidad 1 – Introducción

[4]

2017

entre “Big Data” y “Extreme Data”, donde éste último se aplica a conjuntos de datos donde no sólo el tamaño en sí, sino la velocidad de aparición, variedad y/o variabilidad son parámetros cambiantes.

Independientemente de definiciones, pasamos de un modelo de gestión y procesamiento de datos basado principalmente en fuentes de datos internas, a otro en el que esas fuentes multiplican por 10, 100 o 1.000 los tamaños previos, y en el que esas fuentes internas se mezclan con fuentes procedentes de internet para crear un conocimiento más avanzado y complejo. Big Data se utiliza, por tanto, desde hace decenas de años. Pero es durante este siglo cuando el interés por el procesamiento de estos datos salta de unas pocas empresas como Google o Yahoo! hasta miles y decenas de miles de empresas e individuos. De hecho, concretamente podemos trazar este crecimiento al año 2003, cuando Google publica su artículo “The Google File System”, en el que la empresa describe un nuevo sistema de ficheros que resuelve algunas de las limitaciones que sus enfoques previos de almacenamiento de datos provocaban. Como respuesta a esta necesidad han surgido nuevas tecnologías (y otras han ganado interés renovado por parte de la comunidad científica y tecnológica) que intentan resolver los problemas de almacenamiento, gestión y procesamiento del ‘Big Data’. Herramientas, tecnologías y arquitecturas como Google BigTable, Apache Hadoop o bases de datos paralelas evolucionan rápidamente. Someramente, los enfoques principales se pueden dividir en dos: 1. Bases de datos paralelas. Evolución de las bases de datos relacionales que utilizan diversas estrategias de particionamiento de información para un acceso en paralelo más eficiente. 2. Enfoque MapReduce. MapReduce es un concepto de computación masiva de datos desarrollado inicialmente por Google que utiliza dos funciones básicas inspiradas en la programación funcional (Map y Reduce) y cuya mayor ventaja es la capacidad de realizar un procesamiento distribuido de estas operaciones a lo largo de un cluster de ordenadores (esto es, minimiza la necesidad de contar con datos acoplados entre sí). La idea básica es que algunas operaciones pueden dividirse en dos fases: la fase “Map”, en la que cada ordenador que tiene datos a procesar ordena localmente los objetos en cuestión. Por ejemplo, si lo que queremos es contar el número de cuadrados, triángulos, hexágonos y heptágonos que tenemos en decenas de ordenadores, la fase “Map” hace que cada ordenador las cuenta independientemente (p.e. el ordenador 1 tiene cuatro cuadrados, 3 triángulos, 2 hexágonos y 1 heptágono, mientras que el ordenador 2 tiene 2 cuadrados, ningún triángolo, 5 hexágonos y 3 heptágonos). La fase “Reduce” se centra en recibir los resultados de cada ordenador y sumar los resultados. Aunque evidentemente no toda tarea puede realizarse de esta manera, muchísimas sí. Y en esos casos, MapReduce resulta extremadamente útil y eficiente. Curso de Learning Analytics – Unidad 1 – Introducción

[5]

2017

Por otra parte, la existencia de estas tecnologías, junto con las de computación en la nube, además de la frustración por parte de las grandes empresas con respecto a la complejidad de los sistemas de gestores de bases de datos relacionales actuales en proyectos reales, ha provocado la aparición de un movimiento inicialmente denominado NoSQL que alberga aquellas tecnologías no relacionales (es decir, no sólo aquellas que no proveen una interfaz SQL), como por ejemplo aquellas que no requieren esquemas predeterminados (p.e. bases de datos clave/valor), que evitan costosas operaciones de join mediante la utilización de otras técnicas para permitir un escalado horizontal más sencillo2 , etc. Por tanto, aparecen nuevas capacidades de almacenamiento masivo y distribuido (NoSQL) y procesamiento/análisis de estos datos (MapReduce) que añadir a las ya existentes (desde las bases de datos relacionales tanto tradicionales como las paralelas, distribuidas o basadas en columnas con formatos de acceso bastante estándar, como JDBC u ODBC, como otras opciones más o menos propietarias tanto de almacenamiento como de acceso a la información (Web Services, Bases de datos XML accesibles desde XQuery, información no estructurada, etc.) Existe un gran interés por parte prácticamente todas las industrias en utilizar una, otra o ambas tecnologías para sacar más provecho a los datos existentes. Sin embargo, sigue existiendo el inconveniente de la utilización de esos datos por parte de herramientas finales como inteligencia de negocio, portales, etc., así como su aprovechamiento y combinación con aquellas otras fuentes no pertenecientes a ‘Big Data’, pero que aportan valor de negocio indiscutible. La proliferación de nuevas tecnologías causa al mismo tiempo la dificultad en la homogeneización y procesamiento de los datos de manera unificada. De hecho, se ha convertido en uno de las barreras de adopción más importantes por parte de las grandes empresas.

Reflexión: el control de los datos El verdadero valor de las redes sociales actuales no reside solamente en que podamos mandar mensajes al compañero de al lado, o podamos propagar una noticia que nos parece interesante. Un valor fundamental es que las empresas que proveen servicios sociales pueden (y de hecho, lo hacen) almacenar gran cantidad de información tanto explícita como implícita de sus usuarios. Explícita significa que los usuarios han introducido esa información (p.e. el nombre, la edad, lugar de nacimiento, grupos que les gustan, ...); implícita, que el sistema recoge a partir del comportamiento del usuario en su red (p.e. desde dónde se conecta, cuánto tiempo pasa en páginas concretas, etc.). Estas acciones, que ya se venían realizando desde hace años (Amazon fue uno de los pioneros a través de sus motores de recomendación), son aún más efectivas en redes sociales, ya que los usuarios las utilizan como herramientas de disfrute y de trabajo, y no se paran a pensar si su modo de actuación podrá ser aprovechado o no por estas empresas.

2

Kim, 2009

Curso de Learning Analytics – Unidad 1 – Introducción

[6]

2017

Esto, por supuesto, provoca algunos malestares y preocupaciones.

Ilustración 50 - Puntos de vistahttp://www.flickr.com/photos/jeremiah_owyang/5147931337/

Sobre estos miedos, recomiendo fehacientemente la visualización de esta charla de Eli Pariser realizada en TED a comienzos del año 2011. Además, muestra ejemplos concretos de utilización de Big Data por parte de grandes compañías3.

Ilustración 51 - Eli Pariser en TED

3

http://www.ted.com/talks/eli_pariser_beware_online_filter_bubbles.html

Curso de Learning Analytics – Unidad 1 – Introducción

[7]

2017

Pero sin embargo, y tal y como se ha discutido previamente en una unidad anterior, el potencial “benigno” de estas acciones es vital. Seamos utópicos: ¿y si estos sistemas fuesen realmente eficientes? ¿Y si pudiesen convertirse en “secretarios personales” que conozcan mis gustos y necesidades? ¿Y si me recomendasen contactos personales y profesionales que REALMENTE enriqueciesen mi vida? ¿Eventos? ¿Conciertos? ... Pero para que todo eso ocurra, y no se quede en gran cantidad de datos almacenados en masivas bases de datos, la utilización de técnicas avanzadas de procesamiento de datos, unida al avance en temas técnicos pero cruciales como el aprendizaje automático, se convierte en una obligatoriedad para estas empresas, y cualquiera que quiera aprovechar los grafos de datos que, en algunos casos, se encuentran disponibles para los usuarios (p.e. en Google o Facebook).

2.1. Caso: La Web Semántica Un ejemplo interesante de la utilización de los datos es la Web Semántica. La web semántica se basa en la adición (o anotación) de metadatos semánticos para su posterior procesamiento; es decir, se añade significado al contenido en crudo de manera que ese significado sea procesable de manera automática. El objetivo de esta acción es poder delegar tareas a los ordenadores que hasta ahora requerían intervención manual, o minimizar esa intervención.

La investigación sobre semántica se ha planteado sobre las siguientes áreas: 

Anotación y etiquetado semántico de datos. Se refiere a las técnicas, estándares y formatos necesarios para la adición de contenido semántico o significado a piezas de datos. Los estándares más utilizados en este ámbito son RDF y OWL, aunque en algunos ámbitos se sigue utilizando DAML y otros.



Publicación de Servicios Web Semánticos. Esta área se centra en la utilización de etiquetado semántico para desarrollar mecanismos de anotación semántica de descripciones de servicios web



Procesamiento de consultas. La metainformación provista por la etiquetación semántica ofrece amplias posibilidades para procesar consultas sobre sistemas de información.

Una vez más, ¿qué utilidad tiene esto en las redes sociales? La importancia de la web semántica aumenta en el momento en que la web, conocida en su momento como en un conjunto de páginas más o menos estáticas que se conectaban entre sí vía “hiperenlaces”, da lugar a una esfera de información y aplicaciones que permiten una mayor conversación, y, sobre todo, de participación “ciudadana” con la aparición de wikis, cuadernos de bitácora, redes sociales y microblogging. Existe cada vez más Curso de Learning Analytics – Unidad 1 – Introducción

[8]

2017

contenido, mucho de él de calidad, que se encuentra, sí, relacionado entre sí, pero de una manera totalmente “sintáctica”: sabemos cómo reconocer un enlace, pero no sabemos lo que significa. ¿Es este enlace un “voto positivo” o “negativo”? ¿La relación es efímera o debe mantenerse en el tiempo? Nos encontramos, no de repente, pero de manera rápida, con miles de millones de entidades en la web, pero no sabemos qué hacer con ellas ni cómo sacarles jugo. Ahí es cuando la web semántica entra en juego: de una manera u otra, lo que plantea la web semántica es la capacidad de proveer de significado a los nodos y enlaces entre nodos. Si sabemos que un nodo no sólo es una página web, sino que es un curriculum vitae de Pepe Sánchez, y sabemos cómo está compuesto, una aplicación de búsqueda de empleo podría procesarla automáticamente sin que Pepe tuviese que volver a rellenar su CV por vigésimocuarta vez. Si sabemos que la relación entre la página “El Caballero Oscuro” y la de “Christopher Nolan” es “dirigida por”, un sistema de recomendación podría darse cuenta de que, si Pepe ha visto esta película y le ha dado un voto positivo, podría interesarle ver “Origen” (otra película de Christopher Nolan).

Facebook lo tiene claro: la utilización de RDFa (información semántica de tipo RDF que se inserta como atributos en el código HTML de cualquier página web, dotándolo de significado) en la implementación de código abierto de su red social, OpenGraph. Este protocolo permite integrar páginas web dentro de la red social de Facebook. Para permitir esa integración, los propietarios de las páginas web han de utilizar cuatro propiedades de metadatos RDF en cada “objeto” (es decir, elementos en cada página): título, tipo, imagen y URL. Estas propiedades permiten describir qué objeto está en la página (una película, un libro, una canción, …). Esto permite que Facebook pueda interactuar de manera específica con cada tipo de objeto. Aunque se ha dicho anteriormente que Facebook utiliza RDFa, la realidad es que utiliza un subconjunto no totalmente estándar. Esto no ayuda a la compatibilidad absoluta, aunque también hay que reconocer que la utilización de RDFa por parte de Facebook ha ayudado muchísimo a su implantación. Los desafíos siguen existiendo: además de las discusiones entre el consorcio W3C (World Wide Web Consortium, que se ocupa de los diversos estándares web, RDFa entre muchos otros) y Facebook, OpenGraph sólo permite un objeto por página en la actualidad; además, si dos objetos tienen el mismo nombre, para Facebook es el mismo. Imaginemos lo que se podría realizar con la web semántica: 

Warner Brothers añade la propiedad de metadatos “dirigido por Christopher Nolan” a los nodos “El Caballero Oscuro” y “Origen” en el OpenGraph de Facebook.



Fan...