Post on 05-Oct-2015
description
Introduccin
Lejos de toda duda, vivimos en la era de la informacin. Se estima1
que
en el ao 2012 la capacidad instalada de almacenamiento de
informacin en el mundo alcanzar los 25 zetabytes2
. El incremento de
la capacidad instalada de almacenamiento crecer en un 50% anual, lo
que llevara a alcanzar los 100 zetabytes en 2020. El almacenamiento de
la informacin en formato electrnico, adems, est comenzando a
canibalizar la almacenada en formato papel, que lleva ya ms de una
dcada decreciendo.
1 Ver The Big Data opportunity, Policicy Exchange, 2012 2 Un zetabyte es equivalente a un trilln de gigabytes
Este crecimiento exponencial del volumen de informacin electrnico
almacenado en el mundo amenaza nuestra capacidad de procesar la
misma. Las bases de datos tradicionales y el procesamiento centralizado
de la informacin se muestran como tcnicas insuficientes para a hacer
cara a este fenmeno, que ha dado lugar al concepto de Big Data,
conjuntos de datos demasiado grandes para su tratamiento con
herramientas tradicionales de gestin de base de datos3
.
El reto de hacer frente a un tratamiento efectivo de esta ingente
cantidad de informacin que permita extraer todo el valor de la misma,
afecta a todas las organizaciones, incluidas las Administraciones
Pblicas. Este artculo es una primera aproximacin a los retos y
oportunidades a los que nos enfrentamos.
Acotando el concepto de Big Data
Siempre es difcil identificar como surgen los conceptos y paradigmas
en un entorno rpidamente cambiante como el de las Tecnologas de la
Informacin. Big Data no supone una excepcin a esta regla, siendo
difcil identificar si surge como consecuencia o acompaante de otros
conceptos como el Open Data. Sin embargo, la popularizacin del
trmino viene, indudablemente, ligada al documento seminal del
concepto publicado por McKinsey Global Insitute (MGI) en Junio de
20114
, donde se define como conjuntos de datos cuyo tamao va ms
all de la capacidad de captura, almacenado, gestin y anlisis de las
herramientas de base de datos.
La definicin de Big Data facilitada por el MGI tiene una orientacin
claramente tecnolgica, que se refleja insuficiente en organizaciones
3 Definicin de Big Data facilitada en The Big Data opportunity, Policicy Exchange, 2012 4 Big Data: The next frontier for innovation, competition and opportunity, McKinsey Global Institute, 2011
que buscan la aplicacin de la tecnologa para un objetivo concreto. De
igual modo, adolece de una caracterizacin clara del problema al que
nos enfrentamos en trminos diferenciadores respecto a la situacin
previa.
Desde la presentacin del trmino por el MGI han existido diversos
intentos de acotacin del concepto. Una de las aproximaciones ms
completas, y que usaremos como punto base de este artculo es la
facilitada por Gartner5
.
Big data son activos de informacin caracterizados por su alto
volumen, velocidad y variedad, que demandan soluciones
innovadoras y eficientes de procesado para la mejora del
conocimiento y toma de decisiones en las organizaciones.
Como puede apreciarse, en la definicin facilitada se realiza una
caracterizacin de la informacin, los requerimientos tecnolgicos que
presenta y los resultados que obtendremos de superarlos. Este artculo
trata de desgranar los mismos.
Realmente hablamos de un tipo distinto de informacin?
La caracterizacin de la informacin que realiza Gartner, captura la
principal diferencia de la informacin que nuestros sistemas han de ser
capaces de procesar respecto a la que tradicionalmente se enfrentaban.
Son, sin embargo, todos ellos conceptos relativos que permiten dar
estabilidad a la definicin. Esta relativizacin es importante, ya que lo
5 The importance of Big Data: A definition, Gartner, Junio 2012
que hoy consideramos un alto volumen, gran velocidad o elevada
variedad de formatos, resultar trivial el da de maana cuando nuestros
sistemas evolucionen de acuerdo a la Ley de Moore.
El reto que presenta el Big Data no son, aun siendo importantes, tanto
las tres Vs que popularmente le caracteriza (velocidad, volumen,
variedad), sino la complejidad de tratar los mismos. Esta complejidad
viene derivada de la multiplicidad
de fuentes de informacin que
inciden sobre cualquier
organizacin y estn
caracterizadas por estas 3 V. A las
tradicionales fuentes internas, ya
complejas de combinar en las
grandes organizaciones, se suman
las provenientes del exterior en
forma de Redes Sociales, actuando
como factor multiplicador las cada vez ms ubicuas tecnologas de
movilidad. Es decir, el mayor problema no es tanto el tamao de los
conjuntos de datos, sino la complejidad derivada de la variedad de
fuentes.
En definitiva, podemos identificar cuando saltamos de un entorno
tradicional de manejo de la informacin a un entorno Big Data de
observando los siguientes parmetros
Volumen: Las capacidades de nuestros sistemas tradicionales de
almacenamiento y procesamiento se ven sobrepasadas por la
cantidad de datos a tratar
Velocidad: Parte o toda la informacin la recibimos en tiempo real,
sin poder identificar un patrn en el ritmo de recepcin de la
misma
Variedad: No podemos establecer una tipologa o estructura de la
informacin, cuyo formato y estructura desconocemos hasta el
momento de su tratamiento
Complejidad: Carencia de relacin aparente entre las fuentes de
informacin sobre la que hemos de aplicar nuevas capacidades de
anlisis, de naturaleza distribuida y proveniente de varios actores
La diferenciacin expuesta queda resumida en la siguiente tabla.
Datos tradicionales Big Data
Gigabytes/Terabytes Volumen Petabytes/Exabytes
Batch Velocidad Streaming
Estructurada
Modelo de datos
estable
Variabilidad Semiestructurada/desestructurada
Carencia de Esquemas
Centralizados
Relacin conocida
Complejidad Distribuidos
Ausencia de relacin
Es tambin importante resaltar que la informacin Big Data no queda
eximida de que realicemos controles ms tradicionales antes de
ofrecerla a los consumidores de la informacin. La calidad de la
informacin, su caducidad, clasificacin y cumplimiento con las
legislaciones diversas aplicables ha de ser mantenida dentro del entorno
de velocidad, variedad, volumen y complejidad. Slo manteniendo estos
controles en el nuevo entorno ser posible extraer todo el valor de la
informacin para las reas de negocio.
Mantener la calidad de la informacin resulta crtico en el entorno Big
Data. Una mayor disponibilidad de informacin, tanto en cantidad como
fuentes, no supone necesariamente una mayor utilidad, que slo es
cierta si sabemos mantener el balance entre cantidad y utilidad de la
informacin. En un smil con el mundo de la transmisin de la
informacin, podemos hablar de la necesidad de aumentar la seal sin
que ello signifique el aumento del ruido.
La velocidad que caracteriza al Big Data nos presenta tambin el reto de
mantener el valor temporal de la informacin.
Finalmente, las limitaciones de la legislacin son ms difciles de
mantener en este entorno. De un lado, la necesidad de mantener las
restricciones derivadas del mantenimiento de la privacidad. El temor a
su quebranto ha llevado a algunos crticos a hablar de Big Brother en
lugar de Big Data, apareciendo ciertamente nuevos dilemas ticos a raz
del aumento de las capacidades de tratamiento de la informacin. La
utilizacin para la prevencin del crimen o la aplicacin al mbito de la
investigacin en la salud, hace aparecer nuevas consideraciones en lo
referente a cundo la privacidad de los datos personales estn o no
supeditados a su valor para la comunidad. De otro lado, la variedad de
fuentes, y en muchos casos la ausencia de capacidad de control sobre el
contenido de la informacin que nos facilitan, puede llevarnos en su
tratamiento a rupturas no deseadas de las leyes de propiedad
intelectual.
El valor para el negocio
La explotacin del valor del Big Data no resulta trivial. Esta dificultad, ha
llevado a los analistas a concluir que durante el 2015 hasta el 85% de las
organizaciones del ranking Fortune 500 no sern capaces de ello6
.
Como suele suceder ante nuevos paradigmas, ello se deber en gran
medida en un desconocimiento relativo a cul es el valor que podemos
extraer del mismo.
6 From Data to Decision: Delivering value from Big Data, Gartner, Marzo 2012
La informacin slo es valiosa en la medida en la que sirva para mejorar
el negocio. Ello, como ya se indic anteriormente, implica la necesidad
de mantener la calidad en el entorno de disponibilidad de informacin
extrema que supone el Big Data. La mejora del negocio ser tanto mayor
en cuanto ms completa sea la informacin de la que disponemos,
pudiendo en caso contrario completarla con ms informacin. De no ser
as, no obtendremos la mejora de conocimiento que nos lleve a mejorar
el proceso de toma de decisiones en la organizacin, siendo los
recursos dedicados al Big Data carentes de valor.
El resultado del tratamiento del Big Data es informacin de mayor valor
aadido. Dicha informacin slo ser valiosa en la medida en que la
organizacin confe en su correccin. Es por ello necesario presentar la
misma sin ruptura en la cadena histrica de anlisis. El modelo de
informacin resultante ha de mostrarse slido en la perspectiva
histrica (hindsight), mostrndose vlido para entender el pasado; en la
perspectiva presente (insight), siendo concluyente para comprender la
situacin actual; proyectndose hacia el futuro (foresight), facilitando
modelos predictivos crebles. En la medida que seamos capaces de
mantener la continuidad entre las tres perspectivas, mantendremos la
confianza y el valor para el negocio de los resultados de la aplicacin del
paradigma Big Data.
La aplicabilidad del anlisis realizado permite a las organizaciones
obtener el valor del Big Data profundizando en los objetivos del
tratamiento de la informacin:
Mayor personalizacin: El aumento de la granularidad de la
informacin permite desplazar el rea de conclusiones del nivel
macro al nivel micro. Ello es importante, por ejemplo, en la
prestacin de cualquier servicio final al cliente, ya que facilita una
mayor personalizacin del mismo.
Ampliacin de la capacidad de resolucin de problemas: El mayor
volumen de datos junto con nuevos algoritmos permite descubrir
patrones hasta ahora ocultos en los datos. Nuevas correlaciones
que facilitan la resolucin de problemas antes irresolubles por
falta de capacidad.
Aprendizaje: La combinacin de fuentes de informacin,
especialmente las externas a las organizaciones, permite
establecer nuevos indicadores de rendimiento de las
organizaciones. El seguimiento de la evolucin de los mismos
aporta ms informacin de cmo mejorar las capacidades.
El valor para el negocio del Big Data depende en gran medida de las
caractersticas del mismo. No obstante, existen reas transversales
tradicionales de amplio espectro dnde son de aplicacin:
Motores de recomendaciones basados en cantidades masivas de
informacin de clientes, tales como los utilizados en redes
sociales y profesionales o en los vendedores online
Anlisis de sentimientos, a partir de los comentarios de un tema o
marca realizados en redes sociales
Modelizacin del riesgo, que permita el diseo de acciones
basado en datos histricos de larga serie y minimizando as las
posibilidades de fracaso
Deteccin de fraude, a partir de anlisis ms profundo de
transacciones y datos contextuales de las mismas y quien las
realiza
Marketing e influencia social, incorporando informacin de
tendencias y preferencias de mayor granularidad de un conjunto
mayor de potenciales clientes
Optimizacin y seguridad de redes de telecomunicaciones,
considerando los datos de una mayor cantidad de sondas dentro
de las herramientas de anlisis de redes y deteccin de
intrusiones
Todo el valor del Big Data depender, no obstante, de que sepamos
hacer uso de las tecnologas adecuadas y, sobre todo, adquiramos para
la organizacin las capacidades necesarias.
Nuevas tecnologas y nuevas capacidades para un nuevo paradigma
Las caractersticas especficas del Big data requiere innovaciones
tecnolgicas en todos los mbitos del tratamiento de la informacin.
Consecuentemente, nuevas herramientas en lo referente a la captura,
almacenamiento, acceso, anlisis y gestin de los datos que manejamos.
Las soluciones tecnolgicas para el procesamiento del Big data se
orientan al tratamiento paralelo de la informacin. Sobre todas ellas,
destaca Apache Hadoop, una
solucin de software libre
diseada para el tratamiento de
hasta exabytes de datos distribuidos en mltiples nodos. Hadoop se ha
convertido en un estndar de facto sobre el que se desarrollan
herramientas comerciales por compaas tradicionales.
La solucin Hadoop se basa en un desarrollo de Google del ao 2009
denominado MapReduce, y que actua en dos fases. La primera fase,
Map, introduce una query en en el sistema de nodos. Determinados en
que nodos estn los datos relevantes, se les hace llegar la query, y la
procesan en paralelo. En la fase Reduce, se recopilan las respuestas de
cada nodo individual para componer la respuesta final a la pregunta
inicial. Est respuesta es analizada con respuestas de anlisis
especficas.
El sistema de almacenamiento, dado el carcter no estructurado de la
informacin se apoya en bases de datos no relacionales, denominadas
tambin bases de datos NoSQL. Estn orientadas a almacenar
informacin dee diversa tipologa, y que no encaja con el modelo de
tablas usado en las bases de datos relacionales. Adicionalmente, se
caracterizan por su capacidad de escalado horizontal, lo que les
convierte en elemento ideal para una infraestructura Big Data. Entre las
implementaciones de software libre de bases de datos NoSQL
existentes, es acompaante habitual de Apache Hadoop la base de
datos Apache Cassandra.
No obstante, los expertos consideran ms problemtico que la
tecnologa necesaria para el despliegue de las soluciones Big Data la
disponibilidad de las capacidades para explotarla. Ms all del
conocimiento especfico de la tecnologa subyacente, siempre
problemtico cuando se produce un cambio de paradigma, las
organizaciones requieren de un nuevo perfil profesional: El analista o
cientfico de datos. El profesional del anlisis de datos debera aunar
tres caractersticas bsicas: Gestin de datos, modelado de anlisis y
anlisis de negocio. Adicionalmente, dada la diversidad de fuentes de la
que es necesario dotar a los proyectos Big Data para extraer
plenamente su valor, el perfil adecuado de este profesional debe
incorporar caractersticas propias
de los entornos de trabajo open,
tal como la comunicacin,
creatividad, colaboracin y pasin.
Es de prever inicialmente una
extrema carencia de profesionales
con el perfil adecuado para ser
analista de datos. En su estudio
seminal de la disciplina Big Data7
,
McKinsey estimaba que, en USA,
habra en el ao 2018 una carencia
7 Big Data: The next frontier for innovation, competition and opportunity, McKinsey Global Institute, 2011
del 50%-60% de la demanda de analistas de datos que sera necesario
cubrir. Este hueco entre oferta y demanda afectara tambin al nivel
directivo. Las decisiones basadas en datos, aunque ampliamente
valoradas hasta el punto que un 84% de los directivos reconocen haber
tomado alguna8
, requieren de un nuevo tipo de perfil de mando. La
formacin a futuros directivos para evitar el cuestionamiento del trabajo
de los analistas de datos resulta crtica. Dada la automatizacin de
decisiones tcticas o estratgicas de bajo alcance que puede derivarse y
que vean los mismos como una amenaza a su posicin.
Big Data y Administracin Pblica
Las Administraciones Pblicas son unas de las reas de negocio donde
se estima que el concepto Big Data tendr mayor aplicabilidad. Tres
razones existen para ello. De un lado, las Administraciones Pblicas es
uno de los sector de negocio que ms gasta en infraestructuras de
almacenamiento a nivel mundial. Es ms, se espera que la tendencia
contine, de tal modo que en el ao 2016 las Administraciones Pblicas
sean un 20% de los 43,7 billones9
de dlares de volumen de negocio que
ser para entonces este mercado.
De otro lado, las Administraciones Pblicas son, probablemente, el
sector de negocio con mayor volumen de Dark Data. Este tipo de datos
agrupa a aquellos generados en el desempeo de la actividad habitual
de negocio, que si bien no se analizan o procesan, son almacenados por
cuestiones regulatorias o por prevencin.
8 Global survey: Is Big Data producing big returns?, Avanade, Junio 2012 9 En todo el artculo, se toma como equivalencia al billn la interpretacin anglosajona de 1.000 millones
Finalmente, existen amplias sinergias entre el concepto de Big Data y
polticas pblicas ya impulsadas en un gran nmero de
Administraciones. Tanto el impulso de la reutilizacin de la informacin
del sector pblico como cmo la promocin del gobierno abierto son
dos tendencias con puntos de contacto con el Big data.
Ejemplos potenciales de aplicacin del concepto de los grandes datos en
las Administraciones Pblicas podran ser los tres siguientes:
Gestin del rendimiento en tiempo real, facilitando a los gestores
polticos datos mltiples de acciones automatizadas y no
automatizadas que suceden en la Administracin Pblica. Un
ejemplo podra ser el desarrollo de una campaa concreta de
recepcin de escritos ciudadanos por diversos medios, como
puede ser la anual campaa del IRPF
Lucha contra el fraude fiscal, combinado los datos de
declaraciones de impuestos con datos administrativos de otra
ndole (por ejemplo, pensiones o empleo) o provenientes del
mundo privado (por ejemplo, informacin capturada en webs de
ventas de activos inmobiliarios)
Salud, realizando un anlisis conjunto de historiales mdicos
anonimizados a fin de identificar tendencias y patrones en
enfermedades y epidemias
Personalizacin de servicios, realizando a los ciudadanos una
oferta proactiva de la Administracin Electrnica a partir de los
datos disponibles, aunque esto requerira para su plena
explotacin algn tipo de reforma en el marco legal de proteccin
de datos personales
El estudio seminal de McKinsey mencionado varias veces a lo largo de
este artculo, eran identificados tres grandes reas de impacto
econmico para las Administraciones Pblicas derivados de la aplicacin
del concepto Big Data. Estas reas son los ahorros derivados de una
mayor eficiencia, las reducciones en fraudes y errores, y las mejoras en
la recoleccin de impuestos. La consultora estimaba en
aproximadamente entre 150 y 300 billones de Euros los beneficios
econmicos anuales para la Unin Europea.
El impacto econmico en el caso de Espaa en estos mismos mbitos lo
calculamos siguiendo dos aproximaciones. Una primera aproximacin
es estimando que el potencial impacto econmico para Espaa sera
proporcional al peso de su PIB en la Unin Europea. De acuerdo a los
datos del Eurostat10
, en 2011 el PIB nominal de Espaa es
aproximadamente un 8,5% del PIB de la Unin Europea.
Consecuentemente, el impacto econmico sobre la Administracin
espaola sera aproximadamente entre 12,75 billones de Euros y 25,5
billones de Euros.
Una segunda aproximacin puede realizarse aplicando los mismos
multiplicadores que aplica McKinsey en su estudio a los datos
macroeconmicos espaoles, siguiendo las pautas que han sido
seguidas en informes dentro del Reino Unido11
. Ello nos lleva a una
estimacin ms modesta del potencial impacto del Big Data en la
Administracin pblica Espaola, situado entre los 6,7 billones de Euros
y los 14,8 billones de Euros.
La necesidad de crear nuevas infraestructuras y de adquirir nuevas
capacidades tecnolgicas y de anlisis, hace del Big Data un objeto
10 Ver http://epp.eurostat.ec.europa.eu/portal/page/portal/national_accounts/data/main_tables 11 The Big Data opportunity, Policy Exchange, Junio 2012
Base para anlisis (billones)
Alcance posible 20% 25% 1% 3% 5% 10%
Ahorros potenciales 15% 20% 30% 40% 10% 20%
Total (billones) 5,1 8,5 0,4 1,7 1,1 4,5 6,7 14,8
Min Max Min Max Min Max Min Max
Potencial impacto en la
Administracin espaola
Mejora de eficiencia
operativa
Reduccin de fraudes y
erroresIncremento impuestos
170,8 145,2 225,9
http://epp.eurostat.ec.europa.eu/portal/page/portal/national_accounts/data/main_tables
natural de un Centro de Competencia especfico. Ello conllevara la
ventaja de evitar duplicidad de esfuerzo en una materia novedosa y,
adems, es necesario dado que el mayor potencial valor de un proyecto
Big data es directamente proporcional a la diversidad de las fuentes de
datos utilizadas.
Conclusiones
El paradigma Big Data es una consecuencia de nuestro tiempo, del
desarrollo de ms de una dcada de la Sociedad de la Informacin. Es
quizs el fruto que ms va a contribuir a que recojamos sus beneficios.
Nuevas capacidades y tecnologas es necesario para ello, tambin
nuevos modelos organizativos, pero no explotar su potencial sera
equivalente a no realizar el sprint final en una carrera de fondo.
Big Data nos plantea nuevos retos, especialmente en el mbito de las
Administraciones Pblicas dnde tanta informacin manejamos. Pero los
beneficios anunciados exigen que los asumamos como medio de
conseguir mejores y ms eficientes organizaciones que sean capaces de
facilitar servicios ms personalizados y efectivos.