Datos Semi / No Estructurados

Tipos • Almacenamiento • Procesamiento • Casos (ES/EN)

Modo: Claro

Tipos de datos semiestructurados y no estructurados

Guía práctica de arquitectura: tipos, tecnologías de almacenamiento, procesamiento y casos de estudio (enfoque 2026-ready).

Arquitectura + Gestión Batch + Streaming Search + Vector

Tip: abre cada tarjeta para ver el contenido completo.

Semi-structured and unstructured data types

Practical architecture guide: types, storage technologies, processing, and case studies (2026-ready).

Architecture + Management Batch + Streaming Search + Vector

Tip: expand each card to read the full content.

01

Semiestructurados

Semi-structured

Definición: datos con estructura flexible (etiquetas, claves, jerarquías). No son tablas rígidas, pero sí “autodescriben” parte de su forma.

Tipos comunes
  • JSON
  • XML
  • YAML
  • Avro / Parquet (schema-on-read)
  • Logs de aplicaciones
  • Eventos de sensores / IoT
  • Respuestas de APIs
  • Emails (headers + body)

Definition: data with flexible structure (tags, keys, hierarchies). Not rigid tables, but partially self-describing.

Common types
  • JSON
  • XML
  • YAML
  • Avro / Parquet (schema-on-read)
  • Application logs
  • Sensor / IoT events
  • API responses
  • Emails (headers + body)
02

No estructurados

Unstructured

Definición: datos sin esquema predefinido. Su valor suele estar en el contenido (texto, imagen, audio, video), no en columnas.

Tipos comunes
  • Texto libre (PDF, Word, emails)
  • Imágenes (JPG, PNG)
  • Audio (llamadas, grabaciones)
  • Video (CCTV, body cams)
  • Redes sociales
  • Documentos escaneados
  • Chats y transcripciones
  • Mapas, planos, imágenes satelitales
Nota: en muchos contextos, este tipo de datos representa la mayoría del volumen total disponible.

Definition: data without a predefined schema. Value lives in the content (text, image, audio, video), not columns.

Common types
  • Free text (PDFs, docs, emails)
  • Images (JPG, PNG)
  • Audio (calls, recordings)
  • Video (CCTV, body cams)
  • Social media
  • Scanned documents
  • Chats & transcripts
  • Maps, blueprints, satellite imagery
Note: in many environments, this data represents the majority of total volume.
03

Tecnologías de almacenamiento

Storage technologies

Semiestructurados
  • Data Lake / Object Storage: Amazon S3, Azure Data Lake Storage Gen2, Google Cloud Storage, Hadoop HDFS
  • NoSQL: MongoDB, Couchbase, DynamoDB, Cosmos DB
No estructurados
  • Object Storage: Amazon S3, Azure Blob Storage, Google Cloud Storage
  • Repositorios de contenido: SharePoint, Box, OpenText, Alfresco
  • Data Lake + metadata: Lakehouse + Data Catalog
Semi-structured
  • Data Lake / Object Storage: Amazon S3, Azure Data Lake Storage Gen2, Google Cloud Storage, Hadoop HDFS
  • NoSQL: MongoDB, Couchbase, DynamoDB, Cosmos DB
Unstructured
  • Object Storage: Amazon S3, Azure Blob Storage, Google Cloud Storage
  • Content repositories: SharePoint, Box, OpenText, Alfresco
  • Data Lake + metadata: Lakehouse + Data Catalog
04

Tecnologías de procesamiento

Processing technologies

Batch / Analytics (semiestructurados)
  • Apache Spark
  • Databricks
  • Snowflake (VARIANT)
  • BigQuery (nested & repeated)
Streaming (eventos)
  • Apache Kafka
  • Azure Event Hubs
  • AWS Kinesis
  • Apache Flink
Transformación / Modelado
  • dbt
  • Spark SQL
  • Azure Synapse
No estructurados (AI / Search)
  • Texto (NLP): spaCy, Hugging Face, Azure Cognitive Services, AWS Comprehend, embeddings
  • Imágenes/Video: OpenCV, YOLO / Vision Transformers, AWS Rekognition, Azure Computer Vision
  • Audio: Speech-to-Text (Azure/AWS/Google), Whisper, call analytics
  • Indexación: Elasticsearch / OpenSearch; Vector DB: Pinecone / FAISS
Batch / Analytics (semi-structured)
  • Apache Spark
  • Databricks
  • Snowflake (VARIANT)
  • BigQuery (nested & repeated)
Streaming (events)
  • Apache Kafka
  • Azure Event Hubs
  • AWS Kinesis
  • Apache Flink
Transformation / Modeling
  • dbt
  • Spark SQL
  • Azure Synapse
Unstructured (AI / Search)
  • Text (NLP): spaCy, Hugging Face, Azure Cognitive Services, AWS Comprehend, embeddings
  • Images/Video: OpenCV, YOLO / Vision Transformers, AWS Rekognition, Azure Computer Vision
  • Audio: Speech-to-Text (Azure/AWS/Google), Whisper, call analytics
  • Indexing: Elasticsearch / OpenSearch; Vector DB: Pinecone / FAISS
05

Casos de estudio

Case studies

Semiestructurados
  • Smart City: eventos de sensores (tráfico/agua/energía), logs 911, APIs de transporte público.
  • E-commerce: clickstream en JSON, eventos de usuario en tiempo real.
  • Finanzas / Gobierno: logs de auditoría, exportaciones XML de sistemas legacy.
No estructurados
  • Seguridad pública: body cams + CCTV, audio de llamadas 911, reportes narrativos.
  • Salud: notas médicas, imágenes clínicas, grabaciones.
  • Gobierno / Legal: contratos, actas, PDFs históricos, emails FOIA.
Semi-structured
  • Smart City: sensor events (traffic/water/energy), 911 logs, public-transport APIs.
  • E-commerce: JSON clickstream, real-time user events.
  • Finance / Government: audit logs, legacy XML exports.
Unstructured
  • Public safety: body cams + CCTV, 911 call audio, narrative reports.
  • Healthcare: clinical notes, medical imaging, recordings.
  • Government / Legal: contracts, minutes, historical PDFs, FOIA emails.
06

Arquitectura típica integrada

Typical integrated architecture

Patrón práctico (de punta a punta) para operar ambos tipos de datos:

[Fuentes]
   ↓
Semiestructurados → Data Lake (S3 / ADLS)
No estructurados → Object Storage + Metadata
   ↓
Procesamiento (Spark / NLP / Vision)
   ↓
Indexación (Search / Vector DB)
   ↓
Analytics / BI / AI
Punto clave: no estructurados requieren metadata + indexación para volverse “consultables” y gobernables.

Practical end-to-end pattern for both data types:

[Sources]
   ↓
Semi-structured → Data Lake (S3 / ADLS)
Unstructured → Object Storage + Metadata
   ↓
Processing (Spark / NLP / Vision)
   ↓
Indexing (Search / Vector DB)
   ↓
Analytics / BI / AI
Key point: unstructured data needs metadata + indexing to become queryable and governable.
07

Comparación rápida

Quick comparison

Aspecto Semiestructurados No estructurados
EsquemaFlexibleNinguno
VolumenAltoMuy alto
ProcesamientoSQL + SparkAI / ML
AlmacenamientoData Lake / NoSQLObject Storage
ValorOperacionalEstratégico
Aspect Semi-structured Unstructured
SchemaFlexibleNone
VolumeHighVery high
ProcessingSQL + SparkAI / ML
StorageData Lake / NoSQLObject Storage
ValueOperationalStrategic
08

Señales estratégicas 2026

2026 strategic signals

Errores comunes
  • Forzar datos no estructurados dentro de tablas como si fueran estructurados.
  • No capturar metadata (origen, propietario, fecha, sensibilidad, retención).
  • No gobernar acceso y privacidad desde el diseño.
Buenas prácticas
  • Schema-on-read para flexibilidad.
  • Data catalog desde el día 1.
  • AI como capa de interpretación, no como sustituto de gobernanza.
Common mistakes
  • Forcing unstructured data into tables as if it were structured.
  • Skipping metadata (origin, owner, date, sensitivity, retention).
  • Not governing access and privacy by design.
Best practices
  • Schema-on-read for flexibility.
  • Data catalog from day 1.
  • AI as an interpretation layer—not a replacement for governance.
09

Lectura final

Final takeaway

Los datos estructurados explican qué pasó.
Los semiestructurados explican cómo pasó.
Los no estructurados explican por qué pasó.
Structured data tells you what happened.
Semi-structured data shows how it happened.
Unstructured data explains why it happened.