DAGs

matchbox.client.dags ¶

Objects to define a DAG which indexes, deduplicates and links data.

Classes:

DAGDebugOptions –

Debug configuration options for DAG.
Step –

Abstract base class defining what a step needs to support.
StepInput –

Input to a DAG step, generated by a previous node in the DAG.
IndexStep –

Index step.
ModelStep –

Base class for model steps.
DedupeStep –

Deduplication step.
LinkStep –

Linking step.
DAG –

Self-sufficient pipeline of indexing, deduping and linking steps.

DAGDebugOptions ¶

Bases: BaseModel

Debug configuration options for DAG.

Attributes:

start (ResolutionName | None) –
finish (ResolutionName | None) –
override_sources (dict[SourceResolutionName, DataFrame]) –
keep_outputs (bool) –

start `class-attribute` `instance-attribute` ¶

start: ResolutionName | None = None

finish `class-attribute` `instance-attribute` ¶

finish: ResolutionName | None = None

override_sources `class-attribute` `instance-attribute` ¶

override_sources: dict[SourceResolutionName, DataFrame] = {}

keep_outputs `class-attribute` `instance-attribute` ¶

keep_outputs: bool = False

Step ¶

Bases: BaseModel, ABC

Abstract base class defining what a step needs to support.

Methods:

run –

Run the step.

Attributes:

name (ResolutionName) –
sources (set[str]) –
last_run (datetime | None) –
inputs (list[StepInput]) –

Return all inputs to this step.

name `instance-attribute` ¶

name: ResolutionName

sources `class-attribute` `instance-attribute` ¶

sources: set[str] = Field(default_factory=set)

last_run `class-attribute` `instance-attribute` ¶

last_run: datetime | None = Field(default=None)

inputs `abstractmethod` `property` ¶

inputs: list[StepInput]

Return all inputs to this step.

run `abstractmethod` ¶

run() -> Table | Results

Run the step.

StepInput ¶

Bases: BaseModel

Input to a DAG step, generated by a previous node in the DAG.

Methods:

validate_all_input –

Verify select statement is valid given previous node.

Attributes:

prev_node (Step) –
select (dict[SourceConfig, list[str]]) –
cleaners (dict[str, dict[str, Any]]) –
batch_size (int | None) –
threshold (float | None) –
name (str) –

Resolution name for node generating this input for the next step.

prev_node `instance-attribute` ¶

prev_node: Step

select `instance-attribute` ¶

select: dict[SourceConfig, list[str]]

cleaners `class-attribute` `instance-attribute` ¶

cleaners: dict[str, dict[str, Any]] = {}

batch_size `class-attribute` `instance-attribute` ¶

batch_size: int | None = None

threshold `class-attribute` `instance-attribute` ¶

threshold: float | None = None

name `property` ¶

name: str

Resolution name for node generating this input for the next step.

validate_all_input ¶

validate_all_input() -> StepInput

Verify select statement is valid given previous node.

IndexStep ¶

Bases: Step

Index step.

Methods:

source_to_attributes –

Convert source config to name and sources attributes.
run –

Run indexing step.

Attributes:

source_config (SourceConfig) –
batch_size (int | None) –
inputs (list[StepInput]) –

Return all inputs to this step.
name (ResolutionName) –
sources (set[str]) –
last_run (datetime | None) –

source_config `instance-attribute` ¶

source_config: SourceConfig

batch_size `class-attribute` `instance-attribute` ¶

batch_size: int | None = Field(default=None)

inputs `property` ¶

inputs: list[StepInput]

Return all inputs to this step.

name `instance-attribute` ¶

name: ResolutionName

sources `class-attribute` `instance-attribute` ¶

sources: set[str] = Field(default_factory=set)

last_run `class-attribute` `instance-attribute` ¶

last_run: datetime | None = Field(default=None)

source_to_attributes `classmethod` ¶

source_to_attributes(
    data: dict[str, Any],
) -> dict[str, Any]

Convert source config to name and sources attributes.

run ¶

run() -> Table

Run indexing step.

ModelStep ¶

Bases: Step

Base class for model steps.

Methods:

init_sources –

Add sources inherited from all inputs.
query –

Retrieve data for declared step input.
run –

Run the step.

Attributes:

description (str) –
left (StepInput) –
settings (dict[str, Any]) –
truth (float) –
name (ResolutionName) –
sources (set[str]) –
last_run (datetime | None) –
inputs (list[StepInput]) –

Return all inputs to this step.

description `instance-attribute` ¶

description: str

left `instance-attribute` ¶

left: StepInput

settings `instance-attribute` ¶

settings: dict[str, Any]

truth `instance-attribute` ¶

truth: float

name `instance-attribute` ¶

name: ResolutionName

sources `class-attribute` `instance-attribute` ¶

sources: set[str] = Field(default_factory=set)

last_run `class-attribute` `instance-attribute` ¶

last_run: datetime | None = Field(default=None)

inputs `abstractmethod` `property` ¶

inputs: list[StepInput]

Return all inputs to this step.

init_sources ¶

init_sources() -> ModelStep

Add sources inherited from all inputs.

query ¶

query(step_input: StepInput) -> DataFrame

Retrieve data for declared step input.

Parameters:

step_input ¶
(StepInput) –

Declared input to this DAG step.

Returns:

DataFrame –

Polars dataframe with retrieved results.

run `abstractmethod` ¶

run() -> Table | Results

Run the step.

DedupeStep ¶

Bases: ModelStep

Deduplication step.

Methods:

run –

Run full deduping pipeline and store results.
init_sources –

Add sources inherited from all inputs.
query –

Retrieve data for declared step input.

Attributes:

model_class (type[Deduper]) –
inputs (list[StepInput]) –

Return all inputs to this step.
name (ResolutionName) –
sources (set[str]) –
last_run (datetime | None) –
description (str) –
left (StepInput) –
settings (dict[str, Any]) –
truth (float) –

model_class `instance-attribute` ¶

model_class: type[Deduper]

inputs `property` ¶

inputs: list[StepInput]

Return all inputs to this step.

name `instance-attribute` ¶

name: ResolutionName

sources `class-attribute` `instance-attribute` ¶

sources: set[str] = Field(default_factory=set)

last_run `class-attribute` `instance-attribute` ¶

last_run: datetime | None = Field(default=None)

description `instance-attribute` ¶

description: str

left `instance-attribute` ¶

left: StepInput

settings `instance-attribute` ¶

settings: dict[str, Any]

truth `instance-attribute` ¶

truth: float

run ¶

run() -> Results

Run full deduping pipeline and store results.

init_sources ¶

init_sources() -> ModelStep

Add sources inherited from all inputs.

query ¶

query(step_input: StepInput) -> DataFrame

Retrieve data for declared step input.

Parameters:

step_input ¶
(StepInput) –

Declared input to this DAG step.

Returns:

DataFrame –

Polars dataframe with retrieved results.

LinkStep ¶

Bases: ModelStep

Linking step.

Methods:

run –

Run whole linking step.
init_sources –

Add sources inherited from all inputs.
query –

Retrieve data for declared step input.

Attributes:

model_class (type[Linker]) –
right (StepInput) –
inputs (list[StepInput]) –

Return all StepInputs to this step.
name (ResolutionName) –
sources (set[str]) –
last_run (datetime | None) –
description (str) –
left (StepInput) –
settings (dict[str, Any]) –
truth (float) –

model_class `instance-attribute` ¶

model_class: type[Linker]

right `instance-attribute` ¶

right: StepInput

inputs `property` ¶

inputs: list[StepInput]

Return all StepInputs to this step.

name `instance-attribute` ¶

name: ResolutionName

sources `class-attribute` `instance-attribute` ¶

sources: set[str] = Field(default_factory=set)

last_run `class-attribute` `instance-attribute` ¶

last_run: datetime | None = Field(default=None)

description `instance-attribute` ¶

description: str

left `instance-attribute` ¶

left: StepInput

settings `instance-attribute` ¶

settings: dict[str, Any]

truth `instance-attribute` ¶

truth: float

run ¶

run() -> Results

Run whole linking step.

init_sources ¶

init_sources() -> ModelStep

Add sources inherited from all inputs.

query ¶

query(step_input: StepInput) -> DataFrame

Retrieve data for declared step input.

Parameters:

step_input ¶
(StepInput) –

Declared input to this DAG step.

Returns:

DataFrame –

Polars dataframe with retrieved results.

DAG ¶

DAG()

Self-sufficient pipeline of indexing, deduping and linking steps.

Methods:

add_sources –

Add sources to DAG.
add_steps –

Add dedupers and linkers to DAG, and register sources available to steps.
prepare –

Determine order of execution of steps.
draw –

Create a string representation of the DAG as a tree structure.
run –

Run entire DAG.

Attributes:

nodes (dict[ResolutionName, Step]) –
graph (dict[ResolutionName, list[ResolutionName]]) –
sequence (list[ResolutionName]) –
debug_outputs (dict[ResolutionName, Table | Results]) –

nodes `instance-attribute` ¶

nodes: dict[ResolutionName, Step] = {}

graph `instance-attribute` ¶

graph: dict[ResolutionName, list[ResolutionName]] = {}

sequence `instance-attribute` ¶

sequence: list[ResolutionName] = []

debug_outputs `instance-attribute` ¶

debug_outputs: dict[ResolutionName, Table | Results] = {}

add_sources ¶

add_sources(
    *source_configs: SourceConfig,
    batch_size: int | None = None,
) -> tuple[IndexStep]

Add sources to DAG.

Parameters:

source_configs ¶
(SourceConfig, default: () ) –

All sources to add.
batch_size ¶
(int | None, default: None ) –

Batch size for indexing.

add_steps ¶

add_steps(*steps: Step) -> None

Add dedupers and linkers to DAG, and register sources available to steps.

Parameters:

steps ¶
(Step, default: () ) –

Dedupe and link steps.

prepare ¶

prepare() -> None

Determine order of execution of steps.

draw ¶

draw(
    start_time: datetime | None = None,
    doing: ResolutionName | None = None,
    skipped: list[ResolutionName] | None = None,
) -> str

Create a string representation of the DAG as a tree structure.

If start_time is provided, it will show the status of each node based on the last run time. The status indicators are:

✅ Done
🔄 Working
⏸️ Awaiting
⏭️ Skipped

Parameters:

start_time ¶
(datetime | None, default: None ) –

Start time of the DAG run. Used to calculate node status.
doing ¶
(ResolutionName | None, default: None ) –

Name of the node currently being processed (if any).
skipped ¶
(list[ResolutionName] | None, default: None ) –

List of node names that were skipped.

Returns:

str –

String representation of the DAG with status indicators.

run ¶

run(debug_options: DAGDebugOptions | None = None)

Run entire DAG.

Parameters:

debug_options ¶
(DAGDebugOptions | None, default: None ) –

configuration options for debug run

DAGs

matchbox.client.dags ¶

DAGDebugOptions ¶

start class-attribute instance-attribute ¶

finish class-attribute instance-attribute ¶

override_sources class-attribute instance-attribute ¶

keep_outputs class-attribute instance-attribute ¶

Step ¶

name instance-attribute ¶

sources class-attribute instance-attribute ¶

last_run class-attribute instance-attribute ¶

inputs abstractmethod property ¶

run abstractmethod ¶

StepInput ¶

prev_node instance-attribute ¶

select instance-attribute ¶

cleaners class-attribute instance-attribute ¶

batch_size class-attribute instance-attribute ¶

threshold class-attribute instance-attribute ¶

name property ¶

validate_all_input ¶

IndexStep ¶

source_config instance-attribute ¶

batch_size class-attribute instance-attribute ¶

inputs property ¶

name instance-attribute ¶

sources class-attribute instance-attribute ¶

last_run class-attribute instance-attribute ¶

source_to_attributes classmethod ¶

run ¶

ModelStep ¶

description instance-attribute ¶

left instance-attribute ¶

settings instance-attribute ¶

truth instance-attribute ¶

name instance-attribute ¶

sources class-attribute instance-attribute ¶

last_run class-attribute instance-attribute ¶

inputs abstractmethod property ¶

init_sources ¶

query ¶

step_input ¶

run abstractmethod ¶

DedupeStep ¶

model_class instance-attribute ¶

inputs property ¶

name instance-attribute ¶

sources class-attribute instance-attribute ¶

last_run class-attribute instance-attribute ¶

description instance-attribute ¶

left instance-attribute ¶

settings instance-attribute ¶

truth instance-attribute ¶

run ¶

init_sources ¶

query ¶

step_input ¶

LinkStep ¶

model_class instance-attribute ¶

right instance-attribute ¶

inputs property ¶

name instance-attribute ¶

sources class-attribute instance-attribute ¶

last_run class-attribute instance-attribute ¶

description instance-attribute ¶

left instance-attribute ¶

settings instance-attribute ¶

truth instance-attribute ¶

run ¶

init_sources ¶

query ¶

step_input ¶

DAG ¶

nodes instance-attribute ¶

graph instance-attribute ¶

sequence instance-attribute ¶

debug_outputs instance-attribute ¶

add_sources ¶

source_configs ¶

batch_size ¶

start `class-attribute` `instance-attribute` ¶

finish `class-attribute` `instance-attribute` ¶

override_sources `class-attribute` `instance-attribute` ¶

keep_outputs `class-attribute` `instance-attribute` ¶

name `instance-attribute` ¶

sources `class-attribute` `instance-attribute` ¶

last_run `class-attribute` `instance-attribute` ¶

inputs `abstractmethod` `property` ¶

run `abstractmethod` ¶

prev_node `instance-attribute` ¶

select `instance-attribute` ¶

cleaners `class-attribute` `instance-attribute` ¶

batch_size `class-attribute` `instance-attribute` ¶

threshold `class-attribute` `instance-attribute` ¶

name `property` ¶

source_config `instance-attribute` ¶

batch_size `class-attribute` `instance-attribute` ¶

inputs `property` ¶

name `instance-attribute` ¶

sources `class-attribute` `instance-attribute` ¶

last_run `class-attribute` `instance-attribute` ¶

source_to_attributes `classmethod` ¶

description `instance-attribute` ¶

left `instance-attribute` ¶

settings `instance-attribute` ¶

truth `instance-attribute` ¶

name `instance-attribute` ¶

sources `class-attribute` `instance-attribute` ¶

last_run `class-attribute` `instance-attribute` ¶

inputs `abstractmethod` `property` ¶

`step_input` ¶

run `abstractmethod` ¶

model_class `instance-attribute` ¶

inputs `property` ¶

name `instance-attribute` ¶

sources `class-attribute` `instance-attribute` ¶

last_run `class-attribute` `instance-attribute` ¶

description `instance-attribute` ¶

left `instance-attribute` ¶

settings `instance-attribute` ¶

truth `instance-attribute` ¶

`step_input` ¶

model_class `instance-attribute` ¶

right `instance-attribute` ¶

inputs `property` ¶

name `instance-attribute` ¶

sources `class-attribute` `instance-attribute` ¶

last_run `class-attribute` `instance-attribute` ¶

description `instance-attribute` ¶

left `instance-attribute` ¶

settings `instance-attribute` ¶

truth `instance-attribute` ¶

`step_input` ¶

nodes `instance-attribute` ¶

graph `instance-attribute` ¶

sequence `instance-attribute` ¶

debug_outputs `instance-attribute` ¶

`source_configs` ¶

`batch_size` ¶

`steps` ¶

`start_time` ¶

`doing` ¶

`skipped` ¶

`debug_options` ¶