Sistemas de almacenamiento resumen PDF

Title	Sistemas de almacenamiento resumen
Course	Sistemas de almacenamiento de datos
Institution	Universidad Nacional de Rosario
Pages	46
File Size	2.2 MB
File Type	PDF
Total Downloads	8
Total Views	137

Preview

CLICK TO PREVIEW PDF

Summary

Sistemas de almacenamiento resumen...

Description

Topologías de hardware de almacenamiento de datos Evolución de los sistemas de almacenamiento corporativos: 1- Almacenamiento centralizado accedido mediante terminales de un sistema central. 2- Sistemas de almacenamiento accedidos de manera directa. Utilizan controladoras e interfaces conectadas en forma directa a los servidores implementando protocolos de comunicación específicos. EJ: Puerto iSCSI, SAS, FC El Servidor puede tener una o más tarjetas (NIC/SAS/HBA Adapter). Cada tarjeta puede tener uno o más puertos. El Storage puede tener una o más tarjetas “Host Adapter” (HA). Cada HA puede tener uno o más puertos.

3 - Cajas de discos accedidas mediante redes de almacenamiento.

SAN (Storage Area Network) Accesible mediante controladoras y puertos conocidos como HBA específicos para redes de almacenamiento con protocolos de comunicación específicos FC/FICON. El Servidor puede tener una o más tarjetas Host bus adapter (HBA). Cada tarjeta puede tener uno o más puertos. El Storage puede tener una o más tarjetas “Host Adapter” (HA). Cada HA puede tener uno o más puertos. En el medio de ellos se encuentra SAN.

4- Cajas de discos accedidas mediante redes de datos IP. NAS (Network Attached Storage)

Consiste en almacenamiento accesible por medio de redes IP de transferencia de datos. Los servicios son expuestos bajo protocolos NFS, CIFS, HTTP y FTP. • Cuadro comparativo de topologías de almacenamiento basadas en redes

* Las tarjetas TCP/IP-Offload-Engine (TOE) tienen un costo similar a una HBA 5 - Servicios de almacenamiento en la nube. Conceptos importantes Disponibilidad (Availability): posibilidad de poder continuar dando servicios de storages en el evento de una falla de hardware o software. Ejemplos: Controladoras / Fuentes de energía y ventiladores / Switches SAN redundantes, Tarjetas con dos puertos o dos tarjetas, Protección RAID, Discos de repuesto (spare) Rendimiento (Performance): Es la métrica usada para definir la velocidad de un sistema de almacenamiento. Existen 3 métodos de medición: • Input/Outputs per second (IOPS) – Bases de datos • Throughput per second (MB/sec) – Streaming media • Response Time – el tiempo que tarda en responder el almacenamiento a un pedido de la aplicación (se mide en milisegundos ms) Almacenamiento de datos: Soluciones de Resguardo On-line Vs. off-line Factores: Disponibilidad para el uso. Costos de inversión(CAPEX) y de explotación (OPEX). Off-line: Almacenamiento de datos en cintas magnéticas. LTO - Linear Tape-Open Nombre Tamaño Año

MB/s

LTO-1

100 GB 2000

20

LTO-2

200 GB 2003

40

LTO-3

400 GB 2005

80

LTO-4

800 GB 2007

120

LTO-5

1.6 TB

2010

140

LTO-6

2.5 TB

2011

160

Tipos de almacenamientos en cinta 1. Manuales: 1 cabezal de lectura/escritura; 1 cinta; Operación manual 2. Semi-automáticos (autoloader): 1 cabezal de lectura/escritura; 8 o 9 cintas; Operación automática 3. Automáticos (librerías): Varios cabezales de lectura/escritura; Varios slots para cintas; Operación automática 4. Virtuales (librerías Virtuales VTL): Backup a disco que emula tecnología LTO; Emula Varios cabezales de lectura/escritura; Emula Varios slots para cintas; Operación automática; Mejora los tiempos para realizar el backup y el restore; Utiliza técnicas de duplicación / compresión para reducir espacio Arquitecturas de discos − Factores involucrados en la selección de una arquitectura de discos: − Costos: $/Byte − Performance: Velocidad de acceso R y W − Confiabilidad: Disponibilidad de acceso a los datos − Las arquitecturas de hardware de almacenamiento toman en cuenta estos factores y clasifican a las diversas soluciones dentro de esquemas de RAID (Redundant Array of Independent Disks). RAID 0 Los datos se dividen en pequeños segmentos y se distribuyen entre varios discos. Cantidad de discos mínima: 2 unidades Ventajas: 1. Utilización en operaciones secuenciales con archivos de gran tamaño. 2. Lectura y escritura rápida (Proporcional a los ejes). Desventaja: No posee tolerancia a fallos, por lo cual podría no ser considerada estrictamente como RAID. RAID 1 Se basa en la utilización de discos adicionales sobre los que se realiza una copia bloque a bloque. Cantidad mínima: 2 unidades Ventaja: 1. Provee de tolerancia a fallos con alta disponibilidad 2. Lectura rápida. Desventaja: Muy costoso (Proporcional al nivel de redundancia)

RAID 3 Dedica un disco al almacenamiento de información de paridad. Cantidad mínima: 3 unidades Ventaja: altas tasas de transferencia y fiabilidad. Desventaja: Rendimiento de transacción pobre.

RAID 5 Utiliza bloques distribuidos para el almacenamiento de información de paridad que le permite ofrecer tolerancia a fallas. Cantidad mínima: 3 unidades Ventaja: A diferencia del RAID 3, permite la posibilidad de escrituras simultáneas. Desventaja: A priori, no presenta. Ofrece la mejor relación de precio, rendimiento y disponibilidad RAID 6 Implementa doble paridad usando dos discos Cantidad mínima: 4 unidades Ventaja: A diferencia del RAID 5, permite la falla de dos discos de manera simultánea. Desventaja: Costo de las controladoras. Aumenta la relación $/Byte por doble paridad Combinaciones de RAID

Cuadro comparativo de rendimientos/costo N: Cantidad de discos en un grupo Corto: es cuando la operación involucra a un solo bloque de entrada/Salida

Plan de contingencia y recuperación ante desastres Existen varios riesgos que pueden afectar significativamente las operaciones de IT: Desastres naturales, Pérdida del suministro eléctrico, Fallas de hardware/software, Fallas de hardware/software, Errores humanos, Etc Un Plan de Contingencias incluye las medidas técnicas, humanas y organizativas necesarias para garantizar la continuidad del negocio y las operaciones de una compañía ante un desastre. Recovery Point Objective (RPO) significa cuantos datos está dispuesta a perder la organización antes de estar disponible. Para reducir un RPO es necesario aumentar el sincronismo de réplica de datos. Tecnologías de Replicación – RPO

Recovery Time Objective (RTO): tiempo que pasará una infraestructura antes de estar disponible. Para reducirlo, se requiere que la Infraestructura (Servidores, Redes, Almacenamiento, Base de Datos, Aplicaciones, etc) esté disponible en el menor tiempo posible pasado el evento de interrupción. Tecnologías de Recuperación – RTO

Estrategias de protección de datos: ➢ Copias de resguardo en discos locales y externos • Ventajas: Rápido acceso, Integración con aplicaciones y bases de datos • Desventajas: Costo alto; No es transportable a otro datacenter; Si la falla se produce en el datacenter no puedo recuperar el dato ➢ Copias de resguardo periódicas en cinta, sin y con almacenamiento de manera externa. • Ventajas: Costo bajo; Transportable a otro datacenter • Desventajas: Requieren mayor tiempo de recupero ➢ Replicación de datos en sitio externo: • Ventajas: Permite tener un resguardo de los datos fuera del datacenter principal • Desventajas: Implica un costo en licencias de replicación; No me permite continuar la operación ante una contingencia en el datacenter principal ➢ Replicación de datos en centro de datos externo implementado como sitio de contingencia. (Para garantizar continuidad de negocio offsite): • Ventajas: Ante una contingencia en el datacenter principal se puede continuar la operación en el datacenter de contingencia; Permite volver a operar rápidamente (depende del RTO) y de forma más sencilla (comparado con backup y restore de cintas) • Desventajas: Representa un costo alto dado que se debe duplicar la infraestructura necesaria para operar; Implica un costo en licencias de replicación Medidas para la recuperación ante desastres: ➢ Medidas preventivas: acciones para evitar la ocurrencia de eventos no deseados ➢ Medidas de detección: controles para la detección de eventos no deseados ➢ Medidas correctivas: acciones para recuperar la operatoria de los sistemas

¿Qué es benchmark? Es un proceso sistemático y continuo que permite evaluar comparativamente los productos, servicios y procesos de trabajo en organizaciones. Estas mediciones son las que van a definirnos cuál es el rendimiento de lo que estamos evaluando en comparación con lo que se está analizando en la medición y así permitir la toma de decisión correspondiente. Podemos medir cualquiera sea la cualidad de lo que nos encontramos evaluando siempre y cuando comparemos las mismas características entre todos los postulantes que están siendo sometidos a través de esta técnica. ¿Para qué sirve? La importancia del benchmarking no se encuentra en la detallada mecánica de la comparación, sino en el impacto que pueden tener estas comparaciones sobre los comportamientos. Se puede considerar como un proceso útil de cara a lograr el impulso necesario para realizar mejoras y cambios. 1- Comparar elementos a través de características claves para la solución: se estudian aquellos componentes y/o parámetros que aportan datos relevantes a la decisión que se debe tomar. 2- Obtener un resultado objetivo 3- Obtener la mejor relación costo/beneficio: toda decisión se basa en gran parte en esta ecuación que balancea el presupuesto existente vs las exigencias y necesidades 4- Comprobar si los elementos estudiados se adecuan a las necesidades: los resultados permiten conocer si un elemento estudiado cumple o no con los requerimientos que se tienen y además permite conocer su comportamiento ante determinadas situaciones (Simulaciones). Etapas del proceso 3. Determinar del elemento de estudio 1. Determinar qué se va a someter a estudio 2. Elegir los factores y variables claves 3. Seleccionar las opciones del mercado 4. Preparar entorno de prueba 1. Recopilar requerimientos del tipo de benchmark 2. Realización de tareas previas a la etapa de ejecución: Preparación del ambiente en donde se realizara la prueba. Ejemplo: creación de lotes de prueba o carga de prueba (test workload), creación de tablas, etc. 1. El armado de la carga de prueba no es algo trivial. Para que los lotes utilizados sean representativos debe analizarse la carga real de trabajo a fin de generar un modelo de la misma que será el input al método de Benchmark elegido (simulaciones, métodos analíticos, etc.) CARGA REAL REAL DE TRABAJO (Workload) (Workload) → MODELO MODELO DE LA CARGA REAL REAL → CARGA DE PRUEBA (Test Workload) Workload)

5. Realizar benchmark 1. Someter el elemento a las pruebas 2. Medir las respuestas para cada variable analizada, realizar comparaciones y obtener resultados 6. Analizar resultados

1. Descartar elementos que no cumplen con las necesidades 2. Realizar informes para mostrar los resultados 3. Determinar si se requiere recalibrar el benchmark: puede involucrar la corrección de parámetros de prueba, modificación de los lotes de prueba utilizados, etc. 4. Desarrollar planes de acción Tipos de benchmark Dado que la evaluación es de tipo comparativo y decimos que podemos realizar comparaciones de cualquier tipo, entonces deberíamos especificar los tipos de Benchmark existentes. En lo referido a sistemas, los benchmarks suelen realizarse mediante programas que miden prestaciones del hardware o de parte de él. Sintéticos: diseñados para medir el rendimiento de un componente individual del hardware, normalmente llevando el componente escogido a su máxima capacidad. Tienen la intención de medir uno o más características de un sistema, procesador, o compilador. Pueden imitar sets de instrucciones de “aplicaciones reales” o generar sets de instrucciones “artificiales”. Este tipo de benchmark es útil para el debugging o aislamiento de características en especial. Ejemplos: o Whetstone: Fue el primero de este tipo de Benchmarks. Aún se utiliza ya que provee una medida muy razonable de rendimiento de monoprocesadores de aritmética flotante. Mayorente se utiliza como parte de otros benchmarks. La unidad de medida es MWIPS: Millones de Instrucciones Whetstone Por Segundo. Una instrucción Whetstone puede definirse como una instrucción de punto flotante promedio y se calcula como: 100 * cant de iteraciones * cant de WIPS por iteración tiempo de ejecución Dhrystone: Mide la velocidad del sistema en cuanto a rendimiento no numérico. Mide la capacidad del procesador. Es el sucesor de Whetstone. La versión original fue realizada en lenguaje ADA aunque actualmente se utiliza en lenguaje C. La unidad de medida es DPS: Instrucciones Dhrystones Por Segundo. El rendimiento de Dhyrstone se calcula a partir de la siguiente fórmula: DPS = reloj del procesador * cant de iteraciones / tiempo de ejecución.} Aplicaciones: herramientas basadas en aplicaciones reales, simulan una carga de trabajo para medir el comportamiento global del equipo. Se emplean en general para la evaluación de sistemas en forma global por lo que tienen gran cantidad de código y de requerimientos de almacenamiento de datos. Responden a cuestiones como: ¿Este equipo X es más rápido que el equipo Y? o ¿Puede mi aplicación ejecutarse más rápidamente en el caso de aumentar la velocidad del procesador, o está limitada por otros subsistemas? Bajo nivel: Medir rendimiento de un componente individual. Ej: el reloj de la CPU, los tiempos de la DRAM y de la caché SRAM, tiempo de acceso medio al disco duro, latencia, tiempo de cambio de pista, etc. Alto nivel: Medir el rendimiento de la combinación componente/controlador/SO de un aspecto específico del sistema o componentes/controlador/SO/aplicación. Ej: velocidad de compresión zip

Otros: consumo de energía, Cumplimiento con estándares ambientales, contenido de materiales y manejo del final del ciclo de vida del producto, Disipación de calor, redes, reducción de ruido, trabajo compartido (mide el rendimiento en las modernas tecnologías de distribución de procesos), Servidores, Soporte técnico Benchmarks más conocidos Hint – hierarchical integration: Se exploran los límites computacionales resolviendo los límites racionales inferior y superior de . Se mide en quips (quality improvement per second). Standards performance evaluation corporation (SPEC): establece y comparte resultados de un set de benchmarks estandarizados que pueden ser aplicados a la nueva generación de computadores de alto rendimiento. Integrantes: HP, mips, sun, at&t, compaq, ibm, intel, motorola, DEC, etc. BAPCo - Business Applications Performance Corporation: Organismo integrado por: amd, apple, dell, hp, intel, microsoft, nvidia, samsung, sony, etc. Desarrolla, entre otros, el benchmark de aplicación Sysmark que se utiliza para analizar el rendimiento de programas relacionados con la creación de video, modelado 3d, etc. (macromedia dreamweaver, flash, adobe photoshop, etc.) 3dmark: es un benchmark sintético para el análisis de rendimiento 3d sobre tarjetas gráficas y ordenadores. Hay sitios web que evalúan la performance de los videojuegos en diferentes equipos base a las respuestas obtenidas por este software. Khornerstone: Es un Benchmark multipropósito que versiona las características de Dhrystone y de Whetstone. Linpack: Medición de la eficiencia de sistemas multiprocesadores. Se describe la performance para resolver un problema de matrices de diferentes tamaños. Unidad de medida: MFLOPS (millones de operaciones de coma flotante por segundo). Aquamark: Software de benchmark para la evaluación de requisitos de ejecución de juegos en ordenadores, evaluando desempeño gráfico y de procesamiento. Tpc - transaction processing performance council: Organización sin fines de lucro que define benchmarks de medición de procesamiento de transacciones en bases de datos transaccionales (oltp: on line transaction processing) y está compuesto por varios programas: TPC – E ; TPC – H TPC – C Es el benchmark de base de datos más reconocido y utilizado en el mercado. Es la evolución de benchmarks menos complejos y ya obsoletos. Su unidad de medida son transacciones por minuto (tmpc). TPC-C simula la actividad de una empresa de venta al por mayor con almacenes y distritos de ventas distribuidos geográficamente en donde los usuarios ejecutan transacciones a la base de datos. La base de datos está compuesta por 9 tipos de tablas de amplia gama de tamaño y complejidad. Simula la carga de trabajo (workload) mediante un conjunto de terminales que solicitan la ejecución de una mezcla de 5 tipos de transacciones: − − −

new-order: introduce una nueva orden. payment: pago de una orden. order-status: consulta del estado de una orden.

− −

delivery: reparto de las órdenes de un almacén. stock-level: consulta las existencias de los artículos

Para el 90% de cada tipo de transacción el tiempo requerido de respuesta es de 5 segundos o menos, excepto el nivel de stock que debe ser costo muy elevado. Disponibilidad de novatos => económico ❖ SO NO privativos: Aprendizaje más lento. Riqueza técnica superior. Software propietario y software libre El software propietario utiliza una licencia de código cerrado que limita la disponibilidad del código fuente. El software libre implementa una licencia de tipo “copyleft” (Modelo FOSS) que permite asegurar que el trabajo realizado se mantenga disponible otorgando: 0: la libertad de ejecutar el programa, para cualquier propósito; 1: de estudiar cómo trabaja el programa, y cambiarlo para que haga lo que se requiera. El acceso al fuente (OPEN SOURCE) es condición necesaria. 2: de redistribuir copias para que pueda ayudar al prójimo; 3: de mejorar el programa y publicar sus mejoras y versiones modificadas en general, para que se beneficie toda la comunidad. El acceso al fuente (OPEN SOURCE) es condición necesaria. Software open-source (OSS) y freeware El OSS se pone a disposición con el código fuente, y algunos otros derechos que normalmente son reservados por copyright con software licenciado (como por ejemplo los permisos de estudio, modificación e implementación de mejoras). El freeware es un software propietario que puede ser utilizado sin costo de licencia, o bien por un costo para poder obtener del mismo su funcionalidad de manera completa. Virtualización de sistemas

Es un modo de abstraer aplicaciones y sus componentes subyacentes del hardware que lo soporta y presentar una vista lógica o virtual de esos recursos, usualmente con uno de los siguientes objetivos: – Mayor nivel de performance, escalabilidad, confiabilidad/disponibilidad, agilidad – Creación de un dominio unificado de seguridad y gestión La virtualización se construye utilizando un excedente del poder de procesamiento, memoria, almacenamiento o ancho de banda. Puede crear una vista artificial donde varias computadoras individuales se muestran como una sola

o donde una computadora se muestra como varias individuales. Existen varias capas de tecnología que pueden virtualizar alguna porción de una infraestructura de hardware y software

De Acceso: Se trata de tecnología de hardware y software que permite que prácticamente cualquier dispositivo acceda a cualquier aplicación y viceversa, sin que ninguno tenga mucho conocimiento del otro. La virtualización de acceso se mete en la comunicación entre dispositivos tales como terminales, PCs, notebooks, tablets, smartphones, otros dispositivos en red (puntos de venta, instrumentos de laboratorio.

Empresas del Mercado de la Virtualización de Acceso Citrix: ofrece tecnologías de virtualización en diferentes niveles. Comenzó con un producto llamado Mainframe que permitía el acceso de sistemas cliente a aplicaciones Windows o Solaris. Actualmente el producto es XenApp. Microsoft: comenzó permitiendo el acceso a versiones antiguas de Windows (Win95, NT). Esta capacidad hoy se denomina Windows Terminal Services HP, IBM, Sun(Oracle) y otros proveedores de UNIX: desde hace más de 30 años X-Windows es un estándar que forma parte de los sistemas UNIX. Red Hat, SUSE y otras distribuciones de Linux: Linux ha provisto capacidades compatibles con XWindows desde que aparecieron las primeras distribuciones comerciales.

De Aplicaciones: Se trata de tecnología sof...