Skip to main content
Jonathan Andrei
04 / Journaux de construction

Histoires de la construction.

Ce qui a été difficile, ce qui a cassé, ce qui a survécu à la coupe, un billet par projet. Trié selon la récence du projet, pas du jour où je l'ai écrit.

FlakeWarden : 90,7 % de précision et 0 % de faux positifs côté sécurité sur le triage des tests instables, sur UiPath Maestro
Juin 2026
11 min de lecture

FlakeWarden : 90,7 % de précision et 0 % de faux positifs côté sécurité sur le triage des tests instables, sur UiPath Maestro

Les tests instables sont le mode d'échec le plus corrosif en CI : un build rouge peut être une vraie régression ou juste du bruit, et les ingénieurs finissent par ignorer les builds rouges jusqu'à ce qu'un vrai bug parte en prod. FlakeWarden répond à la seule question qui compte (vrai défaut, instable, ou environnement) avec un scoreur d'instabilité déterministe pour les cas clairs et un classifieur UiPath Agent Builder ancré pour les cas ambigus, orchestré par Maestro avec un humain qui valide chaque changement. 90,7 % de précision sur un corpus de 150 cas, avec un taux de faux positifs côté sécurité de 0 % tenu par mécanisme.

AgentHackUiPathUiPath Maestro
LotZero : zéro ventes en trop et zéro doubles débits sur une enchère mondiale en direct, prouvé sur Aurora DSQL
Juin 2026
10 min de lecture

LotZero : zéro ventes en trop et zéro doubles débits sur une enchère mondiale en direct, prouvé sur Aurora DSQL

Le commerce mondial en direct imposait un choix : une base SQL mono-région (juste mais lente pour les enchérisseurs lointains) ou un stockage multi-régions à cohérence éventuelle (rapide mais dangereux pour l'argent). Aurora DSQL fait tomber ce compromis. LotZero pose le registre d'argent sur DSQL et le flux social sur DynamoDB, puis prouve l'invariant avec une console de contention qui déclenche des centaines de réclamations mondiales concurrentes et mesure : zéro ventes en trop, zéro doubles débits.

H0HackathonAmazon Aurora DSQLAmazon DynamoDB
OrbitOnboard : j'ai utilisé les quatre types de requêtes GitLab Orbit pour générer un kit de démarrage en 10 secondes
Juin 2026
11 min de lecture

OrbitOnboard : j'ai utilisé les quatre types de requêtes GitLab Orbit pour générer un kit de démarrage en 10 secondes

La moitié des nouveaux contributeurs abandonnent leur première tentative dans une base de code inconnue. Pas parce que le problème est trop dur, mais parce que la carte n'existe pas. OrbitOnboard produit cette carte en exploitant les quatre types de requêtes Orbit dans un seul flux coordonné : fichiers critiques, ordre de lecture, carte des experts, MR passées similaires, issues ouvertes liées, postés directement en commentaire d'issue.

GitLab OrbitKnowledge GraphDeveloper Experience
SWORN : j'ai bâti une passerelle DFIR qui signe cryptographiquement chaque finding
Juin 2026
13 min de lecture

SWORN : j'ai bâti une passerelle DFIR qui signe cryptographiquement chaque finding

Les concurrents loggent. SWORN prouve. Une passerelle MCP personnalisée pour Protocol SIFT où chaque finding DRAFT porte une signature Ed25519 sur les IDs d'invocation d'outil, les hash SHA-256 de stdout/stderr, les codes de sortie et les vecteurs d'arguments. La clé de signature est détenue par la passerelle, pas par le LLM. Un finding sans chaîne de signature valide ne peut pas quitter l'état DRAFT.

DFIRMCPSANS SIFT
AgentGate : j'ai construit la porte entre les agents IA et Splunk
Juin 2026
13 min de lecture

AgentGate : j'ai construit la porte entre les agents IA et Splunk

Splunk a livré six capacités agentic en douze mois. Chacune peut lire vos données, proposer des changements et, de plus en plus, les exécuter. Aucune ne répond à la question que pose la conformité : qui a approuvé cette action et quel était son rayon d'impact ? AgentGate est la porte pré-action qui produit un journal d'audit défendable pour chaque décision d'agent IA contre Splunk.

SplunkSplunk MCPFoundation-Sec
Warden : j'ai construit un agent qui gouverne vos autres agents
Juin 2026
12 min de lecture

Warden : j'ai construit un agent qui gouverne vos autres agents

Une fois qu'on a une flotte d'agents IA qui agissent sur de vrais systèmes (approbation de remboursements, changement de prix, déplacement d'inventaire), qui les surveille quand l'un d'eux dérape ? Warden est le superviseur que j'ai construit pour le Google Cloud Rapid Agent Hackathon : MCP Dynatrace pour les sens, Gemini 3 pour le jugement, une vraie porte d'approbation humaine et une comptabilité en dollars honnête pour chaque incident.

Gemini 3Vertex AIADK
Appetite for Noise : j'ai testé le récit Ozempic sur les données nationales
Mai 2026
10 min de lecture

Appetite for Noise : j'ai testé le récit Ozempic sur les données nationales

Le PDG de Walmart, Morgan Stanley et une série de notes d'analystes affirment que les GLP-1 font déjà plier les dépenses américaines en restaurants, alcool et épicerie. Le test naïf avant/après sur les données FRED donne une réponse confiante, significative, et fausse en direction. Voici ce qui survit à une inférence correcte et à un vrai contrôle de tendance, et la vraie taille de l'effet.

Difference-in-DifferencesEconometricsFRED
Cinq outils MCP qui voient une grossesse comme une seule unité clinique
Avr. 2026 à Mai 2026
Lauréat
10 min de lecture

Cinq outils MCP qui voient une grossesse comme une seule unité clinique

Lauréat d'Agents Assemble : The Healthcare AI Endgame de Prompt Opinion, parmi 4 335 participants. La mortalité maternelle aux États-Unis ne cesse d'augmenter et plus de 80 % des décès liés à la grossesse sont évitables, mais les signaux prédictifs vivent dans des parties complètement différentes du dossier. J'ai construit un serveur MCP qui les agrège, et un agent de triage qui lui délègue.

FHIRMCPHealthcare
Pourquoi j'ai bâti un classificateur d'exoplanètes qui dit « Je ne sais pas »
Oct. 2025
5 min de lecture

Pourquoi j'ai bâti un classificateur d'exoplanètes qui dit « Je ne sais pas »

Un classificateur XGBoost sur les données NASA Kepler, K2 et TESS, c'est un samedi après-midi. La partie intéressante, c'est tout ce qu'il y a autour : trois vraies classes (CONFIRMED, CANDIDATE, FALSE POSITIVE) plus un bac UNKNOWN d'abstention, téléversement de jeux de données, réentraînement dans le navigateur avec réglage des hyperparamètres, exploration 2D et vues 3D des systèmes.

XGBoostNASAThree.js