Herramientas para minería y análisis de información BigData

Herramientas para minería y análisis de información BigData

España es el segundo país del mundo con más penetración de smartphones, tan sólo por detrás de Singapur, (Fuente El Mundo ). Mensualmente se mueven más de 900 PetaBytes de información gracias a nuestros móviles y este dato no para de crecer. Se podría decir que, gracias al rápido crecimiento tanto de los avances en hardware de los propios dispositivos móviles cómo de la proliferación de apps en los marketplaces de Google y Apple, un nuevo mercado ha emergido en el ecosistema de las tecnologías de la información y es el relacionado con el análisis de los datos y tráfico de los dispositivos móviles, hecho éste que genera una cantidad masiva de información en tiempo real o BigData.

Este gran movimiento de información se ha alcanzado gracias a la abundancia de apps y se plantea un rico campo de actuación en lo que se refiere al análisis de la información pero también nos trae nuevos retos ya que esta información es heterogénea por naturaleza y está llena de lo que en BigData se denomina «ruido». El «ruido» es un término relacionado con la efectividad del dato recogido en BigData y que tiene que ver con que sólo una pequeña parte de la infomación enviada es considerada de valor. Para entender mejor lo que es «ruido» en BigData tomemos por ejemplo un sistema que videovigilancia de tráfico que guarda videos e imágenes cada segundo, en realidad sólo la información sobre accidentes e incumplimientos de las normas de tráfico tienen valor para su análisis, el resto es «ruido».

Herramientas para minería y análisis de información BigData

Volviendo al análisis de la información ¿cuáles son las herramientas que tenemos los consultores y programadores para la sacar partido a la minería y análisis de toda esta información?
En primer lugar, tenemos el lenguaje R.  Este lenguaje de programación, open source está especificamente creado parea la minería de datos, el análisis y la visualización de información y es practicamente desconocido entre aquellos que no se dedican al bigdata, pero en un ranking del lenguaje de programación a aprender realizado hace un par de años estaba en la primera posición como el más relevante para ser estudiado y gracias a esta popularidad fabricamentes como Oracle o Teradata lo han incluido dentro de sus nuevas versiones.

En un lugar completamente opuesto tenemos la hoja de cálculo Microsoft Excel. Aunque estamos acostumbrados a hablar de Excel como hoja de cálculo, en realidad Microsoft ha dotado a este producto ofimático de una serie de plugins que le dan a Excel alta versatilidad en lo relacionado al análisis y la estadísticas de datos. Estas herramientas se llama Analysis ToolPak and Solver y puedes encontrar más información visitando la web del producto.

Finalmente nos encontramos con KNIME que es una plataforma muy sencilla de usar que tiene como objetivo el procesamiento, la integración y el análisis de la información. KNIME está enscrito en Java y está basado en Eclipse y sus bien conocidos plugins como por ejemplo los plugins para R y Weka  KNIME puede controlar la integración, la conversión, el filtrado y el análisis de la minería de datos y la positerior visualización de la información.

Existen más herramientas también muy extendidas como Rapid-I Rapidminer  o WekaPentaho  que son también una herramientas para la minería de de datos open source y están disponibles para su descarga.

MongoDB como base datos 

El mundo del BigData, se refiere a las tecnologías y resto de iniciativas de índole tecnológica que precisa almacenar gran cantidad de información de muy diversas características, y para eso necesita motores de base de datos muy distintos a los conocidos hasta la fecha en donde todo se hace con ingeniería relacional. En eXtremaNET nos decantamos por usar MongoDB por su velocidad y agilidad y por su sencillez de uso.

El término Big Data, significa para las empresas hoy en día una oportunidad para crear valor para sus negocio, nos permite extraer información y tomar decisiones directivas en base a datos reales históricos. No sólo se refiere a tiempo real, cantidad de información y volumen, si no a todo un mundo de herramientas alrededor del dato, cuyo objetivo es la toma decisión correcta objetiva.

Elegir la base de datos correcta para las aplicaciones es muy importante, y desde nuestro punto de vista, MongoDB, ofrece un producto que evita riesgos y esfuerzos innecesarios.

 

Miguel Angel García
​​IT Consultant & M.B.A. SCRUM Manager, ITIL Expert, Team Leader
magarcia@extremanet.com
Twitter: @miguelagg

Sin comentarios

No ha comentarios en este momento

×