scorching-aiops

0
2 месяца назад
5 месяцев назад
5 месяцев назад
месяц назад
9 месяцев назад
5 месяцев назад
5 месяцев назад
2 месяца назад
5 месяцев назад
5 месяцев назад
5 месяцев назад
5 месяцев назад
10 месяцев назад
5 месяцев назад
5 месяцев назад
2 месяца назад
5 месяцев назад
2 месяца назад
2 месяца назад
месяц назад
месяц назад
месяц назад
2 месяца назад
5 месяцев назад
месяц назад
месяц назад
месяц назад
5 месяцев назад
месяц назад
месяц назад
3 месяца назад
2 месяца назад
месяц назад
2 месяца назад
2 месяца назад
5 месяцев назад
5 месяцев назад
2 месяца назад
2 месяца назад
месяц назад
3 месяца назад
3 месяца назад
месяц назад
5 месяцев назад
README.md

Scorching AIOps

Scorching AIOps

Autonomous AI-Powered Kubernetes Incident Management Platform

Open-source AIOps: eBPF telemetry + causal graphs + LLM agents = automated incident lifecycle

English · Русский · Quick Start · Architecture

Kubernetes License LangGraph eBPF LLM


Overview

Scorching automates the full incident lifecycle in Kubernetes: Observe → Analyze → Plan → Apply → Verify. Combines eBPF telemetry (Tetragon), causal graph analysis (Neo4j), and LLM decision-making (LangGraph + Ollama).

Features

  • Observe — eBPF kernel telemetry (Tetragon) + OpenTelemetry + Prometheus
  • Analyze — Causal RCA with Neo4j, neuro-symbolic reasoning, business impact prediction
  • Plan — LLM-generated remediation via LangGraph orchestrator
  • Apply — Automated K8s remediation (scale, restart, rollback, canary via Argo Rollouts)
  • Verify — Health checks with retry, alert suppression, model drift detection
  • AI Chat — DevInfra agent with model selection (qwen3.5, deepseek-r1, llama3.2)
  • Dashboard — Incidents, metrics, forecasts, audit trail
  • Governance — GDPR/SOC2 compliance before autonomous actions
  • Security — eBPF threat detection, NetworkPolicy, RBAC
  • GitOps — ArgoCD ApplicationSet with auto-sync

Comparison

FeatureCommercial AIOpsScorching
Cost50k50k–500k/yearFree (open-source)
eBPF telemetryPartialFull (Tetragon)
Causal graph RCAProprietaryNeo4j (open)
LLM agentLimitedLangGraph + local LLM
Self-hostedLimitedYes (kind/K8s)

Quick Start

Prerequisites

  • Docker (8GB+ RAM, 4+ CPU cores)
  • Linux kernel ≥ 5.8 (for eBPF/Tetragon)
  • kubectl
    ,
    helm
    ,
    kind
    (auto-installed if missing)

Deploy

One command deploys: kind cluster → Kafka → ArgoCD → ClickHouse → Neo4j → Prometheus → Grafana → Tetragon → 12 microservices → WebUI → LLM model. ~15–30 min.

Access

ServiceURLCredentials
WebUIhttp://localhost:9090
Ingresshttp://localhost
ArgoCDhttps://localhost:8080admin / (see output)
Grafanahttp://localhost:3000admin / aiops-admin
Neo4jhttp://localhost:7474neo4j / neo4j-aiops-password

Fresh Reinstall


Architecture

WebUI (Next.js) → Backend (FastAPI) → Neo4j + ClickHouse + Kafka ↓ aiops-orchestrator (LangGraph: Observe→Analyze→Plan→Apply→Verify) ├── causal-ai-correlator ├── remediation-controller (Go) ├── llm-router → Ollama ├── governance-agent ├── security-agent ├── business-impact-predictor ├── neuro-symbolic-reasoner ├── alert-suppression-service ├── model-maintenance └── Tetragon (eBPF)

12 Microservices

ServiceLangRole
aiops-orchestratorPythonLangGraph agent: full OODA loop
causal-ai-correlatorPythonBuilds RCA graphs in Neo4j
remediation-controllerGoExecutes kubectl (scale/restart/rollback)
llm-routerPythonRoutes to Ollama/vLLM/API
governance-agentPythonPolicy compliance checks
security-agentPythonThreat detection
business-impact-predictorPythonRevenue impact estimation
neuro-symbolic-reasonerPythonHybrid RCA
alert-suppression-servicePythonDynamic noise reduction
model-maintenance-servicePythonDrift detection
webui-backendPythonFastAPI backend (47+ endpoints)
webui-frontendTypeScriptNext.js dashboard + AI chat

Tech Stack

Infrastructure: Kubernetes (kind) · Kafka (KRaft) · ArgoCD · Argo Rollouts · cert-manager Data: ClickHouse · Neo4j · OpenTelemetry Collector AI/ML: LangGraph · Ollama (qwen3.5:2b) · Neuro-symbolic reasoning Observability: Prometheus · Grafana · Tetragon (eBPF) Security: Tetragon TracingPolicy · NetworkPolicy · RBAC · Governance Agent


Testing


Обзор

Scorching AIOps

Scorching — self-hosted AIOps-платформа для Kubernetes. Полный цикл управления инцидентами: Observe → Analyze → Plan → Apply → Verify. eBPF (Tetragon) + Neo4j (каузальный граф) + LangGraph (LLM-агент) + Ollama (qwen3.5:2b).

Быстрый старт

Одна команда разворачивает: kind-кластер, Kafka, ArgoCD, ClickHouse, Neo4j, Prometheus, Grafana, Tetragon, 12 микросервисов, WebUI и LLM-модель.

Возможности

  • Полный цикл AIOps: Observe → Analyze → Plan → Apply → Verify
  • eBPF: Tetragon DaemonSet для безагентного сбора событий ядра
  • Каузальный граф: Neo4j для причинно-следственных связей
  • LLM-агент: LangGraph-оркестратор с локальной моделью
  • AI-чат: DevInfra-агент с выбором модели и режимом рассуждений
  • GitOps: ArgoCD с автосинком и самовосстановлением
  • 12 микросервисов: Каждый решает конкретную подзадачу AIOps

Contributing

See CONTRIBUTING.md

Security

See SECURITY.md

License

Apache License 2.0


Scorching
Built with 🔥 by necrustulum

(back to top)