dataenginex.warehouse¶

SQL-like transforms, persistent lineage tracking, and warehouse utilities.

`dataenginex.warehouse` ¶

SQL-like transforms, persistent lineage, warehouse utilities.

Public API::

from dataenginex.warehouse import (
    Transform, TransformPipeline, TransformResult,
    RenameFieldsTransform, DropNullsTransform,
    CastTypesTransform, AddTimestampTransform, FilterTransform,
    LineageEvent, PersistentLineage,
)

`LineageEvent` `dataclass` ¶

A single lineage event describing a data operation.

Attributes:

Name	Type	Description
`event_id`	`str`	Auto-generated unique identifier (12-char hex).
`parent_id`	`str \| None`	ID of the upstream event that produced the input.
`operation`	`str`	Type of operation (`"ingest"`, `"transform"`, `"enrich"`, `"export"`).
`layer`	`str`	Medallion layer (`"bronze"`, `"silver"`, `"gold"`).
`source`	`str`	Where data came from.
`destination`	`str`	Where data was written.
`input_count`	`int`	Number of input records.
`output_count`	`int`	Number of output records.
`error_count`	`int`	Number of records that errored.
`quality_score`	`float \| None`	Quality score of the output (0.0–1.0).
`pipeline_name`	`str`	Name of the owning pipeline.
`step_name`	`str`	Name of the transform step.
`metadata`	`dict[str, Any]`	Free-form context dict.
`timestamp`	`datetime`	When the event occurred.

Source code in packages/dataenginex/src/dataenginex/warehouse/lineage.py

@dataclass
class LineageEvent:
    """A single lineage event describing a data operation.

    Attributes:
        event_id: Auto-generated unique identifier (12-char hex).
        parent_id: ID of the upstream event that produced the input.
        operation: Type of operation (``"ingest"``, ``"transform"``, ``"enrich"``, ``"export"``).
        layer: Medallion layer (``"bronze"``, ``"silver"``, ``"gold"``).
        source: Where data came from.
        destination: Where data was written.
        input_count: Number of input records.
        output_count: Number of output records.
        error_count: Number of records that errored.
        quality_score: Quality score of the output (0.0–1.0).
        pipeline_name: Name of the owning pipeline.
        step_name: Name of the transform step.
        metadata: Free-form context dict.
        timestamp: When the event occurred.
    """

    event_id: str = field(default_factory=lambda: uuid.uuid4().hex[:12])
    parent_id: str | None = None

    # What happened
    operation: str = ""  # "ingest", "transform", "enrich", "export"
    layer: str = ""  # "bronze", "silver", "gold"
    source: str = ""
    destination: str = ""

    # Counts
    input_count: int = 0
    output_count: int = 0
    error_count: int = 0
    quality_score: float | None = None

    # Context
    pipeline_name: str = ""
    step_name: str = ""
    metadata: dict[str, Any] = field(default_factory=dict)
    timestamp: datetime = field(default_factory=lambda: datetime.now(tz=UTC))

    def to_dict(self) -> dict[str, Any]:
        """Serialize the lineage event to a plain dictionary."""
        d = asdict(self)
        d["timestamp"] = self.timestamp.isoformat()
        return d

`to_dict()` ¶

Serialize the lineage event to a plain dictionary.

Source code in packages/dataenginex/src/dataenginex/warehouse/lineage.py

def to_dict(self) -> dict[str, Any]:
    """Serialize the lineage event to a plain dictionary."""
    d = asdict(self)
    d["timestamp"] = self.timestamp.isoformat()
    return d

`PersistentLineage` ¶

JSON-file-backed lineage store.

Example::

lineage = PersistentLineage("data/lineage.json")
ev = lineage.record(
    operation="ingest",
    layer="bronze",
    source="linkedin",
    input_count=1250,
    output_count=1250,
)
# later
lineage.record(
    operation="transform",
    layer="silver",
    parent_id=ev.event_id,
    input_count=1250,
    output_count=1200,
    quality_score=0.88,
)

Source code in packages/dataenginex/src/dataenginex/warehouse/lineage.py

class PersistentLineage:
    """JSON-file-backed lineage store.

    Example::

        lineage = PersistentLineage("data/lineage.json")
        ev = lineage.record(
            operation="ingest",
            layer="bronze",
            source="linkedin",
            input_count=1250,
            output_count=1250,
        )
        # later
        lineage.record(
            operation="transform",
            layer="silver",
            parent_id=ev.event_id,
            input_count=1250,
            output_count=1200,
            quality_score=0.88,
        )
    """

    def __init__(self, persist_path: str | Path | None = None) -> None:
        self._events: list[LineageEvent] = []
        self._persist_path = Path(persist_path) if persist_path else None
        if self._persist_path and self._persist_path.exists():
            self._load()

    # -- public API ----------------------------------------------------------

    def record(self, **kwargs: Any) -> LineageEvent:
        """Create and store a new lineage event.

        Accepts the same keyword arguments as ``LineageEvent``.
        """
        event = LineageEvent(**kwargs)
        self._events.append(event)
        logger.info(
            "Lineage event %s: %s %s → %s (%d→%d)",
            event.event_id,
            event.operation,
            event.source,
            event.destination,
            event.input_count,
            event.output_count,
        )
        self._save()
        return event

    def get_event(self, event_id: str) -> LineageEvent | None:
        """Fetch a single event by ID."""
        for ev in self._events:
            if ev.event_id == event_id:
                return ev
        return None

    def get_children(self, parent_id: str) -> list[LineageEvent]:
        """Return events that have *parent_id* as their parent."""
        return [ev for ev in self._events if ev.parent_id == parent_id]

    def get_chain(self, event_id: str) -> list[LineageEvent]:
        """Walk up from *event_id* to the root and return the full chain."""
        chain: list[LineageEvent] = []
        current = self.get_event(event_id)
        while current:
            chain.append(current)
            current = self.get_event(current.parent_id) if current.parent_id else None
        chain.reverse()
        return chain

    def get_by_layer(self, layer: str) -> list[LineageEvent]:
        """Return all events for a given medallion layer."""
        return [ev for ev in self._events if ev.layer == layer]

    def get_by_pipeline(self, pipeline_name: str) -> list[LineageEvent]:
        """Return all events for a given pipeline."""
        return [ev for ev in self._events if ev.pipeline_name == pipeline_name]

    @property
    def all_events(self) -> list[LineageEvent]:
        """Return a shallow copy of all stored lineage events."""
        return list(self._events)

    def summary(self) -> dict[str, Any]:
        """Return high-level lineage statistics."""
        layers: dict[str, int] = {}
        operations: dict[str, int] = {}
        for ev in self._events:
            layers[ev.layer] = layers.get(ev.layer, 0) + 1
            operations[ev.operation] = operations.get(ev.operation, 0) + 1
        return {
            "total_events": len(self._events),
            "by_layer": layers,
            "by_operation": operations,
        }

    # -- persistence ---------------------------------------------------------

    def _save(self) -> None:
        if not self._persist_path:
            return
        self._persist_path.parent.mkdir(parents=True, exist_ok=True)
        data = [ev.to_dict() for ev in self._events]
        self._persist_path.write_text(json.dumps(data, indent=2, default=str))

    def _load(self) -> None:
        if not self._persist_path or not self._persist_path.exists():
            return
        raw = json.loads(self._persist_path.read_text())
        for item in raw:
            item.pop("timestamp", None)  # skip — auto-set on creation
            self._events.append(LineageEvent(**item))
        logger.info("Loaded %d lineage events from %s", len(self._events), self._persist_path)

`all_events` `property` ¶

Return a shallow copy of all stored lineage events.

`record(**kwargs)` ¶

Create and store a new lineage event.

Accepts the same keyword arguments as LineageEvent.

Source code in packages/dataenginex/src/dataenginex/warehouse/lineage.py

def record(self, **kwargs: Any) -> LineageEvent:
    """Create and store a new lineage event.

    Accepts the same keyword arguments as ``LineageEvent``.
    """
    event = LineageEvent(**kwargs)
    self._events.append(event)
    logger.info(
        "Lineage event %s: %s %s → %s (%d→%d)",
        event.event_id,
        event.operation,
        event.source,
        event.destination,
        event.input_count,
        event.output_count,
    )
    self._save()
    return event

`get_event(event_id)` ¶

Fetch a single event by ID.

Source code in packages/dataenginex/src/dataenginex/warehouse/lineage.py

def get_event(self, event_id: str) -> LineageEvent | None:
    """Fetch a single event by ID."""
    for ev in self._events:
        if ev.event_id == event_id:
            return ev
    return None

`get_children(parent_id)` ¶

Return events that have parent_id as their parent.

Source code in packages/dataenginex/src/dataenginex/warehouse/lineage.py

def get_children(self, parent_id: str) -> list[LineageEvent]:
    """Return events that have *parent_id* as their parent."""
    return [ev for ev in self._events if ev.parent_id == parent_id]

`get_chain(event_id)` ¶

Walk up from event_id to the root and return the full chain.

Source code in packages/dataenginex/src/dataenginex/warehouse/lineage.py

def get_chain(self, event_id: str) -> list[LineageEvent]:
    """Walk up from *event_id* to the root and return the full chain."""
    chain: list[LineageEvent] = []
    current = self.get_event(event_id)
    while current:
        chain.append(current)
        current = self.get_event(current.parent_id) if current.parent_id else None
    chain.reverse()
    return chain

`get_by_layer(layer)` ¶

Return all events for a given medallion layer.

Source code in packages/dataenginex/src/dataenginex/warehouse/lineage.py

def get_by_layer(self, layer: str) -> list[LineageEvent]:
    """Return all events for a given medallion layer."""
    return [ev for ev in self._events if ev.layer == layer]

`get_by_pipeline(pipeline_name)` ¶

Return all events for a given pipeline.

Source code in packages/dataenginex/src/dataenginex/warehouse/lineage.py

def get_by_pipeline(self, pipeline_name: str) -> list[LineageEvent]:
    """Return all events for a given pipeline."""
    return [ev for ev in self._events if ev.pipeline_name == pipeline_name]

`summary()` ¶

Return high-level lineage statistics.

Source code in packages/dataenginex/src/dataenginex/warehouse/lineage.py

def summary(self) -> dict[str, Any]:
    """Return high-level lineage statistics."""
    layers: dict[str, int] = {}
    operations: dict[str, int] = {}
    for ev in self._events:
        layers[ev.layer] = layers.get(ev.layer, 0) + 1
        operations[ev.operation] = operations.get(ev.operation, 0) + 1
    return {
        "total_events": len(self._events),
        "by_layer": layers,
        "by_operation": operations,
    }