SMIRK Dataset

Datasetet innehåller 4,928 scenarier av fotgängare som korsar, eller rör sig nära, en rak väg i olika hastigheter och banor i förhållande till kameran. Dessutom ingår liknande scenarier med grundläggande geometriska former som korsar vägen. All data har genererats med hjälp av ESI Pro-SiVIC. Datasetet har använts i utvecklingen av det experimentella fotgängarautomatiska nödbromssystemet SMIRK som leds av RISE.

Kortfattat

Innehåll
4,928 scenarier av fotgängare och objekt samplade med 10 FPS.

Författare
SMILE III research project ledd av RISE.

Datatyp
Datasetet är syntetiskt, och bilderna samlades in från en framåtvänd kamera tillsammans med en bounding box och segmenteringskartor för de rörliga objekten. Datakvalitetssäkring tillhandahölls som en del av SMIRK:s säkerhetsfall.

Kamerabilder: png
Segmenteringskartor: png
Etiketter: csv

Anonymisering
Datasetet är syntetiskt, därför behövs ingen anonymisering.

Annotationer
Grundläggande sanningsmässig semantisk segmentering av fotgängare tillhandahålls av ESI Pro-SiVIC. Alla korsande objekt är annoterade med bounding box och segmenteringskarta (100%). Inga andra delar av scenen är annoterade.

Storlek
Den totala storleken på datasetet är 120 GB och storleken på enskilda filer inom datasetet är 6 x ~20 GB zip-filer + 1 x ~1GB zip-fil. Varje bild är ~300KB och varje segmenteringskarta är ~6KB.

Åtkomst
Datasetet är tillgängligt för alla AI Sveriges partners.

Villkor och Bestämmelser
För att använda detta dataset måste du följa SMIRK Villkor och Bestämmelser som finns tillgängliga nedan.

SMIRK Villkor och Bestämmelser

RISE och ESI Group har kommit överens om att dela datan under en Creative Commons-licens: Attribution-NonCommercial 4.0 International CC BY-NC 4.0. Vänligen kolla in denna förklarande fil för en bättre förståelse av vad Creative Commons-licensen innebär.

Guide för Creative Commons licens

Specifikationer dataset

Syntetiska bilder insamlade från en framåtvänd kamera tillsammans med bounding box och segmenteringskartor för de rörliga objekten. Bilderna motsvarar scenarier simulerade i ESI Pro-SiVIC av enskilda fotgängare och grundläggande geometriska former som korsar en landsväg. Datasetet motsvarar SMIRK:s medvetet begränsade operationella designområde, dvs. en rak landsväg, i ett öppet landskap, i klart väder, utan andra trafikagenter.

Åtta olika fotgängarmodeller och fem gråa grundläggande former representeras.

P1 Casual female pedestrian
P2 Casual male pedestrian
P3 Business casual female pedestrian
P4 Business casual male pedestrian
P5 Business female pedestrian
P6 Business male pedestrian
P7 Child
P8 Male construction worker
N1 Sphere
N2 Cube
N3 Cone
N4 Pyramid
N5 Cylinder

Varje fotgängarscenario representeras av 616 konfigurationer organiserade i fyra grupper

A. Korsar vägen från vänster till höger (280 scenario konfigurationer)
B. Korsar vägen från höger till vänster (280 scenario konfigurationer)
C. Rörelse parallellt med vägen mot ego bilen (28 scenario konfigurationer)
D. Rörelse parallellt med vägen bort från ego bilen (28 scenario konfigurationer)

För grupper A och B, kombinationer av följande parameter värden representerar ett scenario:

Hastighet (m/s): [1, 2, 3, 4]
Vinkel (grader): [30, 50, 70, 90, 110, 130, 150]
Longitudinellt avstånd (m): [10, 20, 30, 40, 50, 60, 70, 80, 90, 100]

För grupper C och D, kombinationer av följande parameter värden representerar ett scenario:

Hastighet (m/s): [1, 2, 3, 4]
Sidoförskjutning (m): [-3, -2, -1, 0, 1, 2, 3]

Mer specifikationer kan hittas här

Användningsfall hittills

1. SMIRK, ett ML-baserat fotgängarautomatiskt nödbromssystem

Utmaning
Datasetet har använts i utvecklingen av det experimentella fotgängarautomatiska nödbromssystemet SMIRK som leds av [RISE](https://www.ri.se/). ML-komponenter integreras allt mer i cyber-fysiska system som bilar. Tyvärr finns det få helt öppna ML-baserade demonstrations system för forskningssamhället att studera. Även om system som OpenPilot och Baidu Apollo finns tillgängliga under open-source mjukvarulicenser, är deras underliggande ML-modeller och deras [dataset](https://www.ai.se/en/data-factory/datasets) inte tillgängliga för studier. Eftersom ML-baserade system sammanflätar data och källkod är detta ett forskningshinder.

Tillvägagångssätt
Datasetet syntetiserar scenarier (fotgängare och geometriska former) som rör sig mot och bort från en mono-kamera. Dessa scenarier användes för att träna modeller för objektigenkänning/-detektering och anomalidetektering i SMIRK-systemet. Systemet implementeras för simulatorn ESI Pro-SiVIC med kärnkomponenter inklusive en radarsensor, en mono-kamera, en YOLOv5-modell, och en ML-baserad anomalidetektor.

Resultat
Teamet utvecklade framgångsrikt SMIRK-systemet och dess kompletta utvecklingsdokumentation finns tillgänglig på GitHub under en GPL-licens. Som ett helt transparent förarassistanssystem kan SMIRK stödja framtida forskning om pålitliga AI-system, såsom verifiering och validering, kravhantering och AI-testning.

Vidare läsning
→ SMIRK GitHub repository
→ Ursprunglig programvarupublication (OSP) har accepterats av Elsevier Software Impacts

2. Säkerhetsgaranti för ML-komponenten i SMIRK

Utmaning
Hur man bäst integrerar ML-komponenter i säkerhetskritiska system är en öppen utmaning inom både forskning och praktik. ML-baserad datorseende anses vara en nyckelaktiverare för cyber-fysiska system som förlitar sig på miljöuppfattning. Men steget från att visa imponerande resultat på datorseende-benchmarks till att distribuera system som förlitar sig på ML för säkerhetskritiska funktionaliteter är betydande. En ML-modell kan betraktas som en opålitlig funktion som ibland kommer att misslyckas med att generalisera ny input till dess inlärda representationer. Hur bör säkerhetsgaranti för ML-baserade komponenter närmas?

Tillvägagångssätt
Det beslutades att utveckla säkerhetsfallet i enlighet med den framväxande standarden ISO 21448 SOTIF och metoden Assurance of Machine Learning for use in Autonomous Systems (AMLAS).

Resultat
Baserat på ett starkt begränsat operationellt designområde för SMIRK, presenterar vi ett komplett säkerhetsfall för dess ML-komponent, dvs. en strukturerad säkerhetsargumentation stödd av bevis. En säkerhetsargumentation med hjälp av målstrukturering notation finns tillgänglig i [SMIRK GitHub-repository](https://github.com/RI-SE/smirk/). Tillsammans med 34 individuella artefakter, föreskrivna av AMLAS, utgör detta bevis på att SMIRK:s ML-komponent har uppnått sina säkerhetsmål.

Vidare läsning
→ SMIRK GitHub repository
→ arXiv förtryck av papperet som beskriver säkerhetsfallet

Åtkomst

Datasetet är tillgängligt för alla AI Sveriges partners. Kontakta Beatrice Comoli och hon kommer att ge dig vidare instruktioner om hur du kan få tillgång till data. Bli en partner och engagera dig i Data Factory. Om du är intresserad av att bli en partner till AI Sweden, få tillgång till partnerförmåner, inklusive Data Factory och datasets, eller dela ett dataset eller en modell, tveka inte att kontakta oss.

Beatrice Comoli

Administrative Lead Data Factory

beatrice.comoli@ai.se

+46 (0)70-146 09 64