Se calcula que los datos existentes en nuestro planeta a principios del 2020 era de aproximadamente 44 zettabytes. Es decir, que el número de bytes en el universo digital era 40 veces mayor que el número de estrellas en el universo observable. No son números ni cosas fáciles de comparar ni imaginar. ¿Y cómo es que algo tan abundante sea tan valioso como dicen?
La verdad es que el problema no es almacenar o generar datos, si no procesarlos y tomar provecho de ellos.
Comúnmente conocidos como el “petróleo del siglo XXI” nuestros datos digitales son los protagonistas en la ciencia de datos, con beneficios incalculables en los negocios, la investigación y nuestra vida cotidiana.
Desde que empezamos con nuestra trayectoria al trabajo o nuestra reciente búsqueda en Google del Starbucks más cercano, tu publicación en Instagram sobre lo que desayunaste y no olvidemos los datos de salud de nuestro smartwatch o wearable favorito.
Son todos datos importantes de diferentes maneras. Buscando a través de enormes lagos de datos, buscando conexiones y patrones, la ciencia de los datos es la responsable de traernos nuevos productos, entregando conocimientos innovadores y haciendo mejores nuestras vidas.
¿Cómo funciona la ciencia de los datos?
La ciencia de los datos implica el conocimiento de una variedad de disciplinas y áreas para producir un conocimiento concreto, entendible y refinado a partir de los datos en bruto.
Los científicos de los datos deben ser expertos prácticamente en todo, desde la ingeniería de datos, matemáticas, estadísticas, computación avanzada y visualizaciones para poder explicar eficazmente los temas y descubrimientos vitales que ayudarán a impulsar la innovación y la eficiencia en una organización.
Ciclo de vida de la ciencia de datos
La ciencia de los datos generalmente tiene un ciclo de vida que dependiendo el autor, pueden agrupar o nombrar a las fases de otras formas. Aquí me ocuparé de insertar el ciclo de vida que recomienda Microsoft denominado TDSP.
El ciclo de vida de TDSP se compone de cinco fases principales que se ejecutan de forma iterativa.
Estas fases incluyen:
- Conocimiento del negocio: Es importante primero saber cual es la necesidad del cliente o de la organización para saber posteriormente que datos nos van a servir. Igualmente, muchas veces no existen las preguntas correctas o no se han dado cuenta de problemas existentes en la organización y es tarea del equipo de planeación darse cuenta y trazar un eje de acción con objetivos claros.
- Adquisición y comprensión de los datos: Una vez entendido el objetivo del análisis, procedemos a comprender los datos almacenados, cargarlos y transformarlos de formas que puedan ser entendibles y explotables por la siguiente fase del análisis.
- Modelado: Es el proceso donde “ocurre la magia” ya que aquí toca implementar los modelos y tras una serie de iteraciones determinar el modelo que tenga la mejor calidad de predicción.
- Implementación: Cuando ya se dispone de modelos que ejecutan correctamente se dispone a ponerlos en modo productivo, conectándolos por medio de apis o mecanismos que permitan ser explotados en tiempo real o acorde a las necesidades del negocio.
- Aceptación del cliente: El cliente revisa que se contesten a las preguntas iniciales y que se tenga una precisión aceptable. Se revisa documentación y se entrega a la entidad responsable de las operaciones.
Si deseas más información de cada etapa, puedes ir a la documentación dando click aquí https://docs.microsoft.com/es-es/azure/machine-learning/team-data-science-process/lifecycle
Los usos de la ciencia de los datos
- Detección de anomalías (fraudes, enfermedades, delitos, etc.)
- Automatización y toma de decisiones (verificación de antecedentes, solvencia crediticia, etc.)
- Clasificaciones (en un servidor de correo electrónico, esto podría significar la clasificación de los correos electrónicos como “importantes” o “basura”)
- Previsión (ventas, ingresos y retención de clientes)
- Detección de patrones (patrones climáticos, patrones del mercado financiero, etc.)
- Reconocimiento (facial, de voz, de texto, etc.)
- Recomendaciones (basadas en las preferencias aprendidas, los motores de recomendación pueden referirle a películas, restaurantes y libros que puedan gustar)
Ejemplos de empresas que utilizan la ciencia de datos
Finanzas
El aprendizaje automático y la ciencia de los datos han ahorrado a la industria financiera millones de dólares, y cantidades incuantificables de tiempo. La plataforma de Inteligencia de Contratos (COiN) de JP Morgan utiliza el Procesamiento de Lenguaje Natural para procesar datos de unos 12.000 acuerdos de crédito comercial al año. Se han ahorrado alrededor de 360.000 horas de trabajo manual para completarse, ahora está terminado en unas pocas horas.Empresas de fintech como Stripe y Paypal están invirtiendo fuertemente en la ciencia de los datos para crear herramientas de aprendizaje automático que detecten y prevengan rápidamente las actividades fraudulentas.
Automovilismo
Tesla, Ford y Volkswagen están implementando el análisis predictivo en su nueva ola de vehículos autónomos. Estos coches utilizan miles de diminutas cámaras y sensores para transmitir información en tiempo real. Utilizando el aprendizaje automático, el análisis predictivo y la ciencia de los datos, los coches autónomos pueden ajustarse a los límites de velocidad, evitar los cambios de carril peligrosos e incluso llevar a los pasajeros por la ruta más rápida.
Logística
UPS recurre a la ciencia de los datos para maximizar la eficiencia, tanto internamente como a lo largo de sus rutas de entrega. La herramienta de Optimización y Navegación Integrada en Ruta (ORION) de la compañía utiliza modelos y algoritmos estadísticos respaldados por la ciencia de los datos que crean rutas óptimas para los conductores de entrega en función del clima, el tráfico, la construcción, etc. Se estima que la ciencia de los datos está ahorrando a la compañía de logística hasta 39 millones de galones de combustible y más de 100 millones de millas de entrega cada año.
Entretenimiento
¿Alguna vez te has preguntado cómo Spotify parece recomendar la canción perfecta para ti? ¿O cómo Netflix sabe qué espectáculos te encantarán? Gracias a la ciencia de los datos, el gigante del streaming musical puede elaborar cuidadosamente listas de canciones basadas en el género musical o en el grupo en el que te encuentras. ¿Realmente te gusta cocinar últimamente? El agregador de datos de Netflix reconocerá tu necesidad de inspiración culinaria y te recomendará espectáculos pertinentes de su vasta colección.
Ciberseguridad
La ciencia de los datos es útil en todas las industrias, pero puede ser la más importante en la ciberseguridad. La empresa internacional de seguridad cibernética Kaspersky utiliza la ciencia de los datos y el aprendizaje automático para detectar más de 360.000 nuevas muestras de malware a diario. Ser capaz de detectar instantáneamente y aprender nuevos métodos de cibercrimen, a través de la ciencia de los datos, es esencial para nuestra seguridad en el futuro.
La ciencia de datos ha venido para quedarse y será un activo más de la infraestructura tradicional de cada empresa en los próximos años. ¿Y tú qué estás haciendo para aprovechar estas herramientas?
Déjame saber tus comentarios.
🏆Consultor en Transformación Digital e Inteligencia Artificial desarrollando proyectos en organizaciones del Gobierno Mexicano como SAT, IMSS, CFE y en el sector privado para empresas internacionales como DHL, Santillana, citiBanamex, HSBC, Softtek y Grupo Salinas.
👨🚀 Podcast: Big Data para Negocios
⭕️CoOrganizer @tedxpolanco