Real-time e determinismo nei sistemi embedded industriali

21/04/2026

Di Ivan Scordato

Tag
Embedded

Un RTOS con scheduling a priorità fisse non rende il sistema deterministico. Lo rende schedulabile. Il determinismo reale, la garanzia che un task impieghi lo stesso tempo, ogni volta, indipendentemente dallo stato del sistema, dipende da fattori che stanno sotto il kernel: la microarchitettura del processore, il layout della memoria, la contesa sul bus, il protocollo di comunicazione. In ambito industriale, dove un ciclo di controllo a 250 µs deve essere ripetibile per anni, questi fattori decidono se il prodotto funziona o se genera difetti intermittenti che nessuno riesce a riprodurre. Questo articolo affronta il determinismo dal punto di vista del progettista hardware/firmware, partendo da dove si interrompono gli articoli che trattano scheduling e RTOS o le criticità del determinismo a livello software. L’angolo è pratico: cosa succede nel silicio, cosa succede sul bus, cosa succede sul cavo.

WCET: il parametro che tutti citano e pochi sanno stimare

La Worst-Case Execution Time è la base di qualunque analisi di timing per IEC 61508 o ISO 26262. Eppure stimarla con rigore su un microcontrollore moderno è tutt’altro che banale.

Esistono tre approcci. L’analisi statica ricostruisce il grafo di flusso dal binario e modella cache, pipeline e bus per calcolare un bound matematicamente sicuro, il tempo peggiore non può mai essere sottostimato. Strumenti come aiT di AbsInt sono usati in avionica e automotive da oltre vent’anni. Il limite: su architetture con cache a replacement pseudo-casuale (come molti Cortex-M7), la sovrastima può arrivare al 100-200% rispetto al caso peggiore osservato. Un bound sicuro ma inutilizzabile perché troppo conservativo.

L’approccio dinamico misura i tempi di esecuzione reali tramite trace hardware non intrusivo (ETM, ITM). Strumenti come RapiTime di Rapita Systems instrumentano il codice ai punti di decisione del grafo di flusso, catturano i tempi su target e ricompongono il percorso peggiore. Il limite: non puoi essere certo di aver osservato il vero caso peggiore.

L’approccio ibrido combina i due: misura dinamica dei sottopercorsi, analisi statica della composizione. Per la fase di validazione, dove non serve un bound formale ma serve capire cosa succede davvero, Tracealyzer di Percepio produce istogrammi di response-time sulle attività RTOS con trace rate di 20-200 KB/s, identificando gli outlier che nessuna analisi su carta può prevedere.

Il problema di fondo è architetturale. Più il processore è veloce, più il suo comportamento temporale è difficile da modellare. E questo apre il tema successivo.

Dove nasce il jitter: cache, bus, DMA e le trappole dell’hardware moderno

La specifica ARM dichiara 12 cicli di latenza interrupt su Cortex-M3/M4/M7 da memoria zero-wait-state. Nella pratica, nessun sistema industriale gira da memoria zero-wait-state. Su un MCU a 400-480 MHz, la flash interna richiede 6-7 wait state. Questi vengono mascherati da un acceleratore di prefetch (che è, a tutti gli effetti, una cache). E come ogni cache, ha hit e miss.

Un miss sull’acceleratore di prefetch costa il riempimento di una riga intera, più i wait state della flash sottostante. Su un Cortex-M7 con cache L1, il jitter introdotto da un singolo cache miss è dell’ordine di 4-8 cicli a 480 MHz, cioè 8-17 ns. Sembra poco. Ma su un loop di controllo che esegue migliaia di istruzioni, i miss si accumulano. Benchmark documentati mostrano che lo stesso codice in assembler può eseguire in tempi che variano di un fattore 8-10× a seconda che i dati risiedano in TCM, in SRAM AXI, o in flash senza acceleratore.

Il bus di interconnessione è l’altro generatore di jitter. Ogni volta che CPU e DMA accedono allo stesso banco SRAM, il bus arbitra e uno dei due attende. Su un burst DMA esteso, gli stalli si accumulano e possono aggiungere microsecondi al tempo di esecuzione di un task. Il principio è semplice: ogni risorsa condivisa tra due master è una sorgente di non-determinismo.

Le transizioni di frequenza (DVFS) sono un terzo predatore silenzioso. Cambiare P-state significa attendere il settling del regolatore e il relock del PLL: decine di microsecondi in cui il processore rallenta o si ferma. In un loop di controllo sotto i 100 µs, è inaccettabile. La prima regola pratica: disabilitare il power management dinamico sui core real-time.

Il paradosso: perché un processore più lento può essere più deterministico

È la domanda che ogni progettista embedded affronta prima o poi. Un Cortex-M7 con cache L1, branch predictor e pipeline superscalare a 6 stadi è molto più veloce di un Cortex-M4 senza cache e con pipeline a 3 stadi. Ma il tempo di esecuzione del caso peggiore sull’M7 può essere significativamente più lontano dal caso medio che sull’M4. La cache accelera il caso frequente e penalizza il caso raro. Il branch predictor riduce la latenza media e aumenta la varianza.

In contesto industriale, dove conta il worst-case e non il throughput medio, questo è un problema concreto. Non a caso, su SoC dual-core con M7+M4 il task real-time critico viene spesso assegnato all’M4 e non all’M7.

La contromisura è la Tightly-Coupled Memory (TCM). L’ITCM (per il codice) e il DTCM (per i dati) offrono accesso a singolo ciclo, senza cache, senza wait state, senza contesa di bus. Se il codice critico e i suoi dati stanno in TCM, il tempo di esecuzione diventa ripetibile. Indipendentemente da cosa fanno gli altri master del sistema. Sulle architetture TriCore (Infineon AURIX), lo stesso ruolo è svolto dalle PSPR e DSPR: memorie Harvard locali, a singolo ciclo, dedicate a ciascun core. Su RISC-V, i core più recenti offrono L1 configurabili come scratchpad tightly-coupled.

L’MPU (Memory Protection Unit) completa l’architettura di isolamento. Le sue regioni programmabili servono a marcare i buffer DMA come non-cacheable (evitando gli stalli di coerenza), a dichiarare le zone peripheral come Device o Strongly-Ordered (bloccando accessi speculativi che su M7 possono generare bus fault su indirizzi riservati), e a implementare il freedom from interference richiesto dai sistemi mixed-criticality. Il bug più ricorrente nei progetti embedded ad alte prestazioni: dimenticare la manutenzione della cache attorno a una transazione DMA.

Dal processore al cavo: il determinismo non si ferma al silicio

Un loop di controllo deterministico a livello di MCU è inutile se il protocollo di campo introduce millisecondi di jitter. L’Ethernet standard con MAC commerciale ha un jitter superiore ai 3 µs per hop. In una macchina utensile dove 1 µs di jitter equivale a 1 µm di errore spaziale a 60 m/min, non basta.

I protocolli industrial Ethernet real-time risolvono il problema con hardware dedicato nel controller di rete. EtherCAT utilizza i Distributed Clocks: un contatore hardware a 64 bit in ogni slave che sincronizza il latch dell’encoder con il clock distribuito, non con la ricezione della trama. Il risultato è un jitter inter-asse inferiore al microsecondo, indipendentemente dal jitter del master, con cycle time da 62,5 µs a 1 ms. PROFINET IRT ottiene prestazioni analoghe con TDMA a livello MAC e silicio dedicato, raggiungendo cycle time minimi di 31,25 µs.

Il futuro converge su TSN (Time-Sensitive Networking): un insieme di standard IEEE (802.1AS per la sincronizzazione, 802.1Qbv per il time-aware shaping, 802.1Qbu per la frame preemption) che porta il determinismo sull’Ethernet standard. Il vantaggio: un’infrastruttura di rete unica per traffico real-time e best-effort, con silicio disponibile da NXP, TI, Microchip e Intel. Lo standard applicativo vendor-neutral è OPC UA FX (Field eXchange), con la prima release Controller-to-Controller già disponibile e i profili Controller-to-Device in corso di definizione.

Per chi progetta sistemi di monitoraggio e controllo nell’Industria 4.0, la scelta del protocollo di campo è una decisione architetturale con impatto diretto sul determinismo end-to-end.

Architetture multicore asimmetriche: il real-time accanto a Linux

I SoC eterogenei con core applicativi (Cortex-A) e core real-time (Cortex-M o Cortex-R) sullo stesso die, permettono di confinare il controllo deterministico su un core dedicato mentre Linux gestisce connettività, HMI e analytics. Il framework OpenAMP (con remoteproc e rpmsg) standardizza il caricamento del firmware e la comunicazione inter-processore.

Il problema è la contesa sulle risorse condivise. DDR, cache di ultimo livello e interconnect sono punti di interferenza tra i core. Misure di latenza interrupt (cyclictest) su SoC eterogenei mostrano che senza isolamento esplicito (isolcpus, QoS del controller DDR, cache partitioning) i worst-case diventano imprevedibili. Con isolamento configurato, le latenze worst-case scendono a 40-60 µs su piattaforme Cortex-A53 + R5F accettabili per molte applicazioni industriali, insufficienti per il motion control.

Per requisiti più stringenti, gli hypervisor partizionanti come Jailhouse (open-source, sviluppato da Siemens, ~9.900 righe di codice, nessuno scheduler) assegnano core, memoria e periferiche in modo statico, eliminando la contesa alla radice. L’overhead misurato è dell’ordine dei microsecondi.

Per chi lavora su firmware embedded industriale, la scelta tra AMP hardware (core dedicati) e partizionamento software (hypervisor) dipende dal budget di latenza e dal livello di certificazione richiesto.

2025-2026: cosa è cambiato nel panorama del determinismo

Tre sviluppi concreti meritano attenzione.

Il primo: PREEMPT_RT è entrato nel kernel Linux mainline con il kernel 6.12 (novembre 2024), dopo vent’anni di patchset fuori albero. Linux è ora compilabile come kernel fully preemptible su x86, ARM64 e RISC-V. Le latenze worst-case misurate dall’OSADL QA Farm su hardware tuned sono tipicamente sotto i 100 µs. Non è un RTOS, ma per applicazioni soft real-time (HMI industriale, data logging, supervisione) è un passo significativo.

Il secondo: la generazione di MCU 2024-2026 porta architetture progettate esplicitamente per combinare prestazioni e determinismo. Le nuove famiglie Cortex-M con estensioni Helium uniscono capacità DSP/ML alla pipeline deterministica della famiglia M. Le architetture TriCore di nuova generazione portano fino a 6 core in lockstep con scratchpad locali e hypervisor nativo. Su RISC-V, il profilo RVA23 ratificato a ottobre 2024 rende obbligatoria l’estensione Hypervisor, aprendo la strada a partizionamento hardware su silicio open-ISA.

Il terzo: gli strumenti di timing analysis si integrano nell’ecosistema RTOS. Percepio ha rilasciato Percepio View per Zephyr come tool gratuito (giugno 2025), abbassando la barriera d’ingresso per la validazione del timing su progetti industriali. Zephyr stesso, nelle versioni 4.x, ha integrato un sottosistema di tracing nativo e il target native_sim per test di timing in CI/CD senza hardware.

Il determinismo come disciplina di misura

L’errore più comune è trattare il determinismo come una proprietà del sistema operativo. Non lo è. È una proprietà dell’intero stack: silicio, memoria, bus, firmware, rete. Un RTOS preemptive su un MCU con cache attiva, DMA in contesa e flash a 7 wait state non è deterministico per default. Lo diventa quando il progettista interviene: codice critico in TCM, MPU configurata per isolare i buffer DMA, power management disabilitato sui core real-time, protocollo di campo con sincronizzazione hardware. Il test finale non è “il sistema rispetta i requisiti di timing in laboratorio”. È “il sistema rispetta i requisiti di timing nel caso peggiore che si presenterà tra tre anni in un impianto che non abbiamo ancora visto”. Per chi progetta sistemi embedded per l’automazione industriale, questa è la differenza tra un prodotto che funziona e uno che funziona quasi sempre.
La buona notizia: gli strumenti per misurare, verificare e garantire il determinismo esistono, sono maturi e sono accessibili. La cattiva notizia: usarli richiede competenze che attraversano hardware, firmware e protocolli di comunicazione. Il determinismo, nel 2026, non è un problema tecnologico. È un problema di ingegneria di sistema.

Tag
Embedded

Ivan Scordato: progettista elettrico e appassionato di nuove tecnologie. Scrive articoli di approfondimento tecnico e conosce anche tecniche SEO per la scrittura su web.