Terry Operations
Operational Focus
Для Terry важны не только parsing rules, но и эксплуатационная управляемость всего ingestion pipeline.
Observability
Минимальный observability baseline:
- structured logs с
job_id,run_idи stage; - metrics по throughput, validation rejects, persistence failures и notification delivery;
- traces или хотя бы correlation ids across stages;
- dashboards по success/failure trends и dead-letter объёму.
Retry Policy
- retryable infrastructure failures должны обрабатываться автоматически;
- validation defects и contract mismatches должны быстро становиться visible, а не скрываться за endless retries;
- у notification delivery должна быть своя policy, независимая от ingest/persist retry logic.
Replay and Backfill
Платформа должна поддерживать:
- replay конкретного raw payload;
- backfill за интервал времени или набор source events;
- безопасный dry-run без записи в production
sink; - повторную доставку notifications при необходимости.
Failure Triage
Полезная последовательность triage:
- Определить stage, на котором произошёл сбой.
- Проверить source payload и execution metadata.
- Выяснить, это retryable infrastructure issue или deterministic data defect.
- Решить, нужен replay, backfill, config fix или template/channel fix.
Support Boundaries
- contract issues разбираются на уровне source/parser/transform mapping;
- delivery issues разбираются на уровне notification engine и channel provider;
- dead-letter entries должны быть удобны для ручного анализа и повторного запуска.