Skip to content

Terry Operations

Operational Focus

Для Terry важны не только parsing rules, но и эксплуатационная управляемость всего ingestion pipeline.

Observability

Минимальный observability baseline:

  • structured logs с job_id, run_id и stage;
  • metrics по throughput, validation rejects, persistence failures и notification delivery;
  • traces или хотя бы correlation ids across stages;
  • dashboards по success/failure trends и dead-letter объёму.

Retry Policy

  • retryable infrastructure failures должны обрабатываться автоматически;
  • validation defects и contract mismatches должны быстро становиться visible, а не скрываться за endless retries;
  • у notification delivery должна быть своя policy, независимая от ingest/persist retry logic.

Replay and Backfill

Платформа должна поддерживать:

  • replay конкретного raw payload;
  • backfill за интервал времени или набор source events;
  • безопасный dry-run без записи в production sink;
  • повторную доставку notifications при необходимости.

Failure Triage

Полезная последовательность triage:

  1. Определить stage, на котором произошёл сбой.
  2. Проверить source payload и execution metadata.
  3. Выяснить, это retryable infrastructure issue или deterministic data defect.
  4. Решить, нужен replay, backfill, config fix или template/channel fix.

Support Boundaries

  • contract issues разбираются на уровне source/parser/transform mapping;
  • delivery issues разбираются на уровне notification engine и channel provider;
  • dead-letter entries должны быть удобны для ручного анализа и повторного запуска.