Hemos hablado del big data, sus usos y ejemplos para llevar a la acción pero… ¿cuál es el costo del big data? Es una pregunta importante que tarde o temprano llega.
En este post hablaremos del top de tecnologías para almacenamiento y procesamiento, otros costos como los de los perfiles profesionales los dejaremos para otro post.
Ten también en cuenta que para escoger un software, infraestructura o tecnología tienes que tener la consultoría de profesionales en big data que revise tus datos, tus fuentes, la calidad de datos, tus objetivos y la infraestructura actual por mencionar algunas cosas.
Soluciones Cloud (AWS, Azure, Google Cloud)
Una muy buena alternativa desde el inicio es evaluar las opciones Cloud.
Existen plantillas listas para poner en producción y empezar el almacenamiento, consulta y explotación de los datos.
Existen 3 principales competidores en este tipo de servicios.
Amazon Web Services, Microsoft Azure y Google Cloud.
Para este tipo de servicios, se cobra la maquina virtual, el entorno de configuración y sus herramientas ya instaladas (Hadoop, spark, etc), el espacio utilizado, el uso de red, las peticiones, el uso de CPU…
En todos, el costo de clúster básico para procesamiento puede estar apenas por encima de 1 USD por hora en cualquier servicio de nube, depende nuestras necesidades el proveedor a elegir.
El costo por mes suponiendo que estuvieran las 24 horas funcionando sería de: 750 horas acarreando un pago de 750 USD. Recordemos que podemos apagar el servicio cuando queramos pero no se detiene el cobro totalmente, ya que los datos siguen existiendo en la nube y detener el cobro total implicaría borrar los datos y eliminar todo el entorno ya configurado.
Infraestructura propia
Si no deseas usar soluciones en la nube y montar una infraestructura propia de cómputo, los costos del hardware dependerán de tus necesidades. Puedes empezar con maquinas básicas pero toma en cuenta que se verá afectado el rendimiento de tu almacenamiento y análisis.
En este escenario, quizá te interese más los costos del software.
Top tecnologías almacenamiento y procesamiento Big Data
Hadoop
Apache Hadoop es un framework para el sistema de archivos en clúster y el manejo de big data. Procesa conjuntos de datos mediante MapReduce.
Es un proyecto de código abierto con licencia libre. Al estar programado en Java puede funcionar en muchos sistemas operativos.
Es el más popular en el campo big data y más de la mitad de empresas Fortune 50 lo usan.
Precio: Es gratuito con licencia Apache
Cloudera
Es un todo en uno que está dirigido a soluciones empresariales y es de código abierto. Existe una distribución que incluye Hadoop, Spark, Impala entre otros.
Precio: Gratuito pero existen soluciones de clúster que van de los 1000 a los 2000 dls por nodo de 1 terabyte
Cassandra
Es una base de datos noSQL enfocada en gestionar grandes cantidades de datos en muchos servidores. Emplea su propio lenguaje (CQL) Cassandra Query Language.
Precio: Gratuito
MongoDB
Es una base de datos noSQL con características de agregación y consultas AdHoc.
Precio: Existe su versión gratuita y la de pago para empresas
Spark
Es un framework para análisis de datos, algoritmos de aprendizaje automático, machine Learning y clústers.
Precio: Gratuito con licencia Apache
R
Es un paquete de análisis muy completo, de código abierto y de múltiple paradigma. Principalmente usado por estadistas y mineros de datos.
Precio: Gratuito
Hive
Es un software que forma parte del ecosistema Hadoop y sirve para tratar las grandes cantidades de datos almacenados con Hadoop como tablas de datos tradicionales y consultarlas con un lenguaje muy parecido al SQL.
Precio: Es gratuito con licencia Apache
HPCC
Es una solución completa de big data. También se le conoce como DAS (Data Analytics Computer). Es un buen sustituto para Hadoop y otras tecnologías Big Data debido a su arquitectura Thor.
Precio: Gratuito
Tableau
Contiene 3 productos principales: Desktop (para analistas), Server (para la empresa) y Online (para la nube). Es capaz de manejar cualquier cantidad de datos y es sencillo para personal técnico y de negocio. Tiene información en tiempo real.
Precio: Para sus versiones Desktop y Server van desde 35 a los 70 USD mensuales. La versión cloud tiene un precio de 42 USD
Conclusión
Puedes empezar a implementar big data en tu empresa a partir de algunos dólares en cómputo en la nube, directo a escalar cuando sea necesario sin ningún retraso. En este escenario debes contar con uno o más perfiles profesionales que conozcan los servicios nube escogidos y las tecnologías de almacenamiento y procesamiento a usar.
Pero si aún quieres experimentar y luego pasar a la acción, puedes tener una infraestructura propia y reducir costos de almacenamiento y transferencia de datos con el mismo software libre que en la nube. En este escenario el perfil profesional sólo debe conocer la tecnología.
No es cuestión de costos, si no de visión.
Déjame saber tus comentarios
🏆Consultor en Transformación Digital e Inteligencia Artificial desarrollando proyectos en organizaciones del Gobierno Mexicano como SAT, IMSS, CFE y en el sector privado para empresas internacionales como DHL, Santillana, citiBanamex, HSBC, Softtek y Grupo Salinas.
👨🚀 Podcast: Big Data para Negocios
⭕️CoOrganizer @tedxpolanco
3 comentarios en «¿Cuál es el costo del big data?»