Apache Hadoop es una solución de código abierto para la computación distribuida en big data
Big data es un término de marketing que engloba toda la idea de datos extraídos de fuentes como los motores de búsqueda, patrones de compra en el supermercado rastreados a través de tarjetas de puntos, etc. En el mundo moderno, Internet tiene tantas fuentes de datos, que la mayoría de las veces la escala los hace inutilizables sin procesar debido a que el procesamiento llevaría cantidades increíbles de tiempo por parte de cualquier servidor. Para solucionar esa situación se presenta Apache Hadoop
Menos tiempo para el procesamiento de datos
Al aprovechar la arquitectura de Hadoop para distribuir tareas de procesamiento entre múltiples máquinas en una red, los tiempos de procesamiento se reducen astronómicamente y se pueden determinar las respuestas en periodos razonables de tiempo. Apache Hadoop se divide en dos componentes diferentes: un componente de almacenamiento y un componente de procesamiento. En términos más sencillos, Hapood genera un servidor virtual a partir de múltiples máquinas físicas. En realidad, Hadoop gestiona la comunicación entre varias máquinas de forma que trabajen juntas lo suficientemente cerca como para que parezca que haya una sola máquina trabajando en los cálculos. Los datos se distribuyen entre varias máquinas para ser almacenados y las tareas de procesamiento son asignadas y coordinadas por la arquitectura Hadoop. Este tipo de sistema es un requisito para convertir los datos en bruto en información útil a la escala de las entradas de Big Data. Hay que considerar, en este sentido, la cantidad de datos que recibe Google cada segundo de los usuarios que introducen solicitudes de búsqueda. Como un bulto total de datos, no se sabría por dónde empezar, pero Hadoop reduce automáticamente el conjunto de datos en subconjuntos más pequeños y organizados y asigna estos subconjuntos manejables a recursos específicos. Todos los resultados son reportados y ensamblados en información utilizable.
Un servidor fácil de configurar
Aunque el sistema suena complejo, la mayoría de las partes móviles están ocultas detrás de la abstracción. Configurar el servidor Hadoop es bastante sencillo, puesto que basta con instalar los componentes del servidor en un hardware que cumpla con los requisitos del sistema. La parte más difícil es planificar la red de ordenadores que utilizará el servidor Hadoop para distribuir los roles de almacenamiento y procesamiento. Esto puede implicar configurar una red de área local o conectar varias redes a través de Internet. También es posible utilizar los servicios de nube existentes y pagar por un clúster de Hadoop en plataformas de nube populares como Microsoft Azure o Amazon EC2. Estas son aun más fáciles de configurar, puesto que se da la posibilidad de ponerlas en marcha ad hoc y luego desmantelar los clústeres cuando ya no sean necesarios. Estos tipos de clústeres son ideales para las pruebas, dado que solo se paga por el tiempo que el clúster Hadoop está activo.
Procesado de datos para obtener la información necesaria
El big data es un recurso extremadamente poderoso, pero los datos son inútiles a menos que puedan ser categorizados adecuadamente y se conviertan en información. En la actualidad, los clusters de Hadoop ofrecen un método extremadamente rentable para procesar estas colecciones de datos en información útil.