Por que Hadoop?

15.11.2018 García Flores

Tabla de contenido

¿Por qué Hadoop?

¿Por qué es importante Hadoop? Capacidad para almacenar y procesar grandes cantidades de cualquier tipo de datos rápidamente. Con volúmenes y variedad de datos en constante aumento, especialmente de lo que se refiere a medios de comunicación social y del Internet de las Cosas, esto es una consideración clave.

¿Qué es Spark y Hadoop y cuál es su relación con el big data?

Spark es un framework que proporciona una serie de plataformas, sistemas y normas interconectados para proyectos de Big Data. Al igual que Hadoop, Spark es un framework de código abierto y bajo el ala del Apache Software Foundation. De hecho, Spark fue el proyecto más activo de Apache el año pasado.

¿Por que usar Apache Spark?

¿Por qué es tan rápida? Apache Spark permite a los programadores realizar operaciones sobre un gran volumen de datos en clústeres de forma rápida y con tolerancia a fallos. Cuando tenemos que manejar algoritmos, trabajar en memoria y no en disco mejora el rendimiento.

¿Qué característica proporciona Apache Spark respecto a Hadoop?

Apache Spark Tiene abstracciones de programación de alto nivel y permite trabajar con lenguaje SQL. Aunque Spark cuenta también con su propio gestor de recursos (Standalone), este no goza de tanta madurez como Hadoop Yarn por lo que el principal módulo que destaca de Spark es su paradigma procesamiento distribuido.

¿Qué es Sparkml?

MLlib o Spark MLlib es la librería de Machine Learning (ML) de Apache Spark. El framework de computación distribuida que incorpora esta librería permite hacer uso de una serie de algoritmos de Machine Learning. Y la API original o Spark MLlib, que hace uso de RDDs y esta dentro del paquete mllib.

¿Qué es graphx?

Es una librería para el procesamiento distribuido de grafos. Extiende de la abstracción del RDD, para implementar Resilient Distributed Graph (RDG).

¿Qué es el RDD?

RDD (Resilient Distributed Datasets o Conjuntos distribuidos y flexibles de datos), representa una colección inmutable y particionada de elementos sobre los que se puede operar de forma paralela.

¿Qué rol cumple Spark en el ambiente de Big Data?

Spark permite además incorporar fuentes de datos externas, datos no estructurados y realizar todo tipo de análisis sobre ellos, ya sea mediante aplicaciones que utilicen Spark o consultas o algoritmos ad-hoc utilizando Spark SQL o Spark Machine Learning, para descubrir causalidad y patrones.

¿Qué lenguajes soporta Spark?

Apache Spark se puede considerar un sistema de computación en clúster de propósito general y orientado a la velocidad. Proporciona APIs en Java, Scala, Python y R. También proporciona un motor optimizado que soporta la ejecución de grafos en general.

¿Cuándo usar Spark?

¿Cuándo usar Apache Spark? Debemos contemplar Apache Spark como herramienta de procesamiento de datos distribuida cuando necesitemos implementar procesos de big data y machine learning. Estos procesos deberán beneficiarse de dividir las operaciones y de distribuir los trabajos en un cluster de varios nodos.

¿Dónde aprender big data gratis?

Cursos Para Aprender Big Data Gratis en Coursera

Introducción al uso práctico de datos masivos, por la Universitat Autònoma de Barcelona.
Introduction to Big Data, por la Universidad de California en San Diego.
Introduction to Data Science, por IBM.
Data Science Ethics, por la Universidad de Michigan.