Herramientas para minería y análisis de información BigData

Herramientas para minería y análisis de información BigData

España es el segundo país del mundo con más penetración de smartphones, tan sólo por detrás de Singapur, (Fuente El Mundo ). Mensualmente se mueven más de 900 PetaBytes de información gracias a nuestros móviles y este dato no para de crecer. Se podría decir que, gracias al rápido crecimiento tanto de los avances en hardware de los propios dispositivos móviles cómo de la proliferación de apps en los marketplaces de Google y Apple, un nuevo mercado ha emergido en el ecosistema de las tecnologías de la información y es el relacionado con el análisis de los datos y tráfico de los dispositivos móviles, hecho éste que genera una cantidad masiva de información en tiempo real o BigData.

Este gran movimiento de información se ha alcanzado gracias a la abundancia de apps y se plantea un rico campo de actuación en lo que se refiere al análisis de la información pero también nos trae nuevos retos ya que esta información es heterogénea por naturaleza y está llena de lo que en BigData se denomina “ruido”. El “ruido” es un término relacionado con la efectividad del dato recogido en BigData y que tiene que ver con que sólo una pequeña parte de la infomación enviada es considerada de valor. Para entender mejor lo que es “ruido” en BigData tomemos por ejemplo un sistema que videovigilancia de tráfico que guarda videos e imágenes cada segundo, en realidad sólo la información sobre accidentes e incumplimientos de las normas de tráfico tienen valor para su análisis, el resto es “ruido”.

Herramientas para minería y análisis de información BigData

Volviendo al análisis de la información ¿cuáles son las herramientas que tenemos los consultores y programadores para la sacar partido a la minería y análisis de toda esta información?
En primer lugar, tenemos el lenguaje R.  Este lenguaje de programación, open source está especificamente creado parea la minería de datos, el análisis y la visualización de información y es practicamente desconocido entre aquellos que no se dedican al bigdata, pero en un ranking del lenguaje de programación a aprender realizado hace un par de años estaba en la primera posición como el más relevante para ser estudiado y gracias a esta popularidad fabricamentes como Oracle o Teradata lo han incluído dentro de sus nuevas versiones.
En un lugar completamente opuesto tenemos la hoja de cálculo Microsoft Excel. Aunque etamos acostumbrados a hablar de Excel como hoja de cálculo, en realidad Microsoft ha dotado a este producto ofimático de una serie de plugins que le dan a Excel alta versatilidad en lo relacionado al análisis y la estadísticas de datos. Estas herramientas se llama Analysis ToolPak and Solver y puedes encotrar más información visitando la web del producto.
Finalmente nos encontramos con KNIME que es una plataforma muy sencilla de usar que tiene como objetivo el procesamiento, la integración y el análisis de la información. KNIME está enscrito en Java y está basado en Eclipse y sus bien conocidos plugins como por ejemplo los plugins para R y Weka  KNIME puede controlar la integración, la conversión, el filtrado y el análisis de la minería de datos y la positerior visualización de la información.

Existen más herramientas también muy extendidas como Rapid-I Rapidminer  o WekaPentaho  que son también una herrameintas para la minería de de datos open source y están disponibles para su descarga.

No Comments

Sorry, the comment form is closed at this time.