Capital Software Blog

Big Data

Big data es un término que se usa para referirse a conjuntos de datos que son demasiado grandes o complejos para que el software de aplicación de procesamiento de datos tradicional se ocupe adecuadamente. Los datos con muchos casos (filas) ofrecen una mayor potencia estadística, mientras que los datos con mayor complejidad (más atributos o columnas) pueden llevar a una mayor tasa de descubrimiento de falsos. Los desafíos de big data incluyen la captura de datos, almacenamiento de datos, análisis de datos, búsqueda, intercambio, transferencia, visualización, consulta, actualización, privacidad de la información y fuente de datos. Los datos grandes se asociaron originalmente con tres conceptos clave: volumen, variedad y velocidad. Otros conceptos que luego se atribuyen con big data son la veracidad (es decir, cuánto ruido hay en los datos) y el valor.

El uso actual del término «big data» tiende a referirse al uso de análisis predictivo, análisis de comportamiento del usuario u otros métodos avanzados de análisis de datos que extraen valor de los datos, y rara vez a un tamaño particular de conjunto de datos. «Hay pocas dudas de que las cantidades de datos disponibles en la actualidad son realmente grandes, pero esa no es la característica más relevante de este nuevo ecosistema de datos». El análisis de los conjuntos de datos puede encontrar nuevas correlaciones para «detectar tendencias comerciales, prevenir enfermedades, Científicos, ejecutivos de negocios, profesionales de la medicina, publicidad y gobiernos por igual encuentran dificultades con grandes conjuntos de datos en áreas que incluyen búsquedas en Internet, fintech, informática urbana e informática empresarial. Los científicos encuentran limitaciones en el trabajo de e-Ciencia, incluyendo meteorología, genomica, conectómica, simulaciones de física compleja, biología e investigación ambiental.
Los conjuntos de datos crecen rápidamente, en parte debido a que cada vez más se reúnen a través de dispositivos de Internet con dispositivos de detección de información, baratos y numerosos, como dispositivos móviles, dispositivos aéreos, sensores remotos, registros de software, cámaras, micrófonos, lectores de identificación por radiofrecuencia (RFID) y Redes de sensores inalámbricos. La capacidad tecnológica per cápita del mundo para almacenar información se ha duplicado aproximadamente cada 40 meses desde la década de 1980; desde 2012, todos los días se generan 2.5 exabytes (2.5 × 1018) de datos. Sobre la base de una predicción del informe de IDC, el volumen de datos global aumentará exponencialmente de 4.4 zettabytes a 44 zettabytes entre 2013 y 2020. Para 2025, IDC predice que habrá 163 zettabytes de datos. Una pregunta para las grandes empresas es determinar quién debe poseer iniciativas de big data que afecten a toda la organización.
Los sistemas de gestión de bases de datos relacionales, estadísticas de escritorio [aclaraciones necesarias] y paquetes de software utilizados para visualizar datos a menudo tienen dificultades para manejar big data. El trabajo puede requerir «software masivamente paralelo que se ejecuta en decenas, cientos o incluso miles de servidores». Lo que se califica como «big data» varía según las capacidades de los usuarios y sus herramientas, y las capacidades de expansión hacen de big data un objetivo móvil. «Para algunas organizaciones, enfrentarse a cientos de gigabytes de datos por primera vez puede desencadenar la necesidad de reconsiderar las opciones de administración de datos. Para otros, puede tomar decenas o cientos de terabytes antes de que el tamaño de los datos sea una consideración importante».