SMIRK Dataset
Dataseten innehåller sekvenser av fotgängare som korsar, eller rör sig nära, en rak väg i olika hastigheter och banor i förhållande till kameran. Dessutom ingår liknande scenarier med grundläggande geometriska former som korsar vägen.
SMIRK innehåller 4,928 sekvenser av 'single-pedestrians crossings', MoreSMIRK utökar seten med 104 sekvenser 'multi-pedestrian crossings'.
SMIRK
Datasetet innehåller 4,928 scenarier av fotgängare som korsar, eller rör sig nära, en rak väg i olika hastigheter och banor i förhållande till kameran. Dessutom ingår liknande scenarier med grundläggande geometriska former som korsar vägen. All data har genererats med hjälp av ESI Pro-SiVIC. Datasetet har använts i utvecklingen av det experimentella fotgängarautomatiska nödbromssystemet SMIRK som leds av RISE.
Kortfattat
Innehåll
4,928 scenarier av fotgängare och objekt samplade med 10 FPS.
Författare
SMILE III research project ledd av RISE.
Datatyp
Datasetet är syntetiskt, och bilderna samlades in från en framåtvänd kamera tillsammans med en bounding box och segmenteringskartor för de rörliga objekten. Datakvalitetssäkring tillhandahölls som en del av SMIRK:s säkerhetsfall.
Kamerabilder: png
Segmenteringskartor: png
Etiketter: csv
Anonymisering
Datasetet är syntetiskt, därför behövs ingen anonymisering.
Annotationer
Grundläggande sanningsmässig semantisk segmentering av fotgängare tillhandahålls av ESI Pro-SiVIC. Alla korsande objekt är annoterade med bounding box och segmenteringskarta (100%). Inga andra delar av scenen är annoterade.
Storlek
Den totala storleken på datasetet är 120 GB och storleken på enskilda filer inom datasetet är 6 x ~20 GB zip-filer + 1 x ~1GB zip-fil. Varje bild är ~300KB och varje segmenteringskarta är ~6KB.
Åtkomst
Datasetet är tillgängligt för alla AI Sveriges partners.
Villkor och Bestämmelser
För att använda detta dataset måste du följa SMIRK Villkor och Bestämmelser som finns tillgängliga nedan.
SMIRK Villkor och Bestämmelser
RISE och ESI Group har kommit överens om att dela datan under en Creative Commons-licens: Attribution-NonCommercial 4.0 International CC BY-NC 4.0. Vänligen kolla in denna förklarande fil för en bättre förståelse av vad Creative Commons-licensen innebär.
Specifikationer dataset
Syntetiska bilder insamlade från en framåtvänd kamera tillsammans med bounding box och segmenteringskartor för de rörliga objekten. Bilderna motsvarar scenarier simulerade i ESI Pro-SiVIC av enskilda fotgängare och grundläggande geometriska former som korsar en landsväg. Datasetet motsvarar SMIRK:s medvetet begränsade operationella designområde, dvs. en rak landsväg, i ett öppet landskap, i klart väder, utan andra trafikagenter.
Åtta olika fotgängarmodeller och fem gråa grundläggande former representeras.
- P1 Casual female pedestrian
- P2 Casual male pedestrian
- P3 Business casual female pedestrian
- P4 Business casual male pedestrian
- P5 Business female pedestrian
- P6 Business male pedestrian
- P7 Child
- P8 Male construction worker
- N1 Sphere
- N2 Cube
- N3 Cone
- N4 Pyramid
- N5 Cylinder
Varje fotgängarscenario representeras av 616 konfigurationer organiserade i fyra grupper
- A. Korsar vägen från vänster till höger (280 scenario konfigurationer)
- B. Korsar vägen från höger till vänster (280 scenario konfigurationer)
- C. Rörelse parallellt med vägen mot ego bilen (28 scenario konfigurationer)
- D. Rörelse parallellt med vägen bort från ego bilen (28 scenario konfigurationer)
För grupper A och B, kombinationer av följande parameter värden representerar ett scenario:
- Hastighet (m/s): [1, 2, 3, 4]
- Vinkel (grader): [30, 50, 70, 90, 110, 130, 150]
- Longitudinellt avstånd (m): [10, 20, 30, 40, 50, 60, 70, 80, 90, 100]
För grupper C och D, kombinationer av följande parameter värden representerar ett scenario:
- Hastighet (m/s): [1, 2, 3, 4]
- Sidoförskjutning (m): [-3, -2, -1, 0, 1, 2, 3]
Mer specifikationer kan hittas här
Use cases hittills
1. SMIRK, ett ML-baserat fotgängarautomatiskt nödbromssystem
Utmaning
Datasetet har använts i utvecklingen av det experimentella fotgängarautomatiska nödbromssystemet SMIRK som leds av [RISE](https://www.ri.se/). ML-komponenter integreras allt mer i cyber-fysiska system som bilar. Tyvärr finns det få helt öppna ML-baserade demonstrations system för forskningssamhället att studera. Även om system som OpenPilot och Baidu Apollo finns tillgängliga under open-source mjukvarulicenser, är deras underliggande ML-modeller och deras [dataset](https://www.ai.se/en/data-factory/datasets) inte tillgängliga för studier. Eftersom ML-baserade system sammanflätar data och källkod är detta ett forskningshinder.
Tillvägagångssätt
Datasetet syntetiserar scenarier (fotgängare och geometriska former) som rör sig mot och bort från en mono-kamera. Dessa scenarier användes för att träna modeller för objektigenkänning/-detektering och anomalidetektering i SMIRK-systemet. Systemet implementeras för simulatorn ESI Pro-SiVIC med kärnkomponenter inklusive en radarsensor, en mono-kamera, en YOLOv5-modell, och en ML-baserad anomalidetektor.
Resultat
Teamet utvecklade framgångsrikt SMIRK-systemet och dess kompletta utvecklingsdokumentation finns tillgänglig på GitHub under en GPL-licens. Som ett helt transparent förarassistanssystem kan SMIRK stödja framtida forskning om pålitliga AI-system, såsom verifiering och validering, kravhantering och AI-testning.
Vidare läsning
→ SMIRK GitHub repository
→ Ursprunglig programvarupublication (OSP) har accepterats av Elsevier Software Impacts
2. Säkerhetsgaranti för ML-komponenten i SMIRK
Utmaning
Hur man bäst integrerar ML-komponenter i säkerhetskritiska system är en öppen utmaning inom både forskning och praktik. ML-baserad datorseende anses vara en nyckelaktiverare för cyber-fysiska system som förlitar sig på miljöuppfattning. Men steget från att visa imponerande resultat på datorseende-benchmarks till att distribuera system som förlitar sig på ML för säkerhetskritiska funktionaliteter är betydande. En ML-modell kan betraktas som en opålitlig funktion som ibland kommer att misslyckas med att generalisera ny input till dess inlärda representationer. Hur bör säkerhetsgaranti för ML-baserade komponenter närmas?
Tillvägagångssätt
Det beslutades att utveckla säkerhetsfallet i enlighet med den framväxande standarden ISO 21448 SOTIF och metoden Assurance of Machine Learning for use in Autonomous Systems (AMLAS).
Resultat
Baserat på ett starkt begränsat operationellt designområde för SMIRK, presenterar vi ett komplett säkerhetsfall för dess ML-komponent, dvs. en strukturerad säkerhetsargumentation stödd av bevis. En säkerhetsargumentation med hjälp av målstrukturering notation finns tillgänglig i [SMIRK GitHub-repository](https://github.com/RI-SE/smirk/). Tillsammans med 34 individuella artefakter, föreskrivna av AMLAS, utgör detta bevis på att SMIRK:s ML-komponent har uppnått sina säkerhetsmål.
Vidare läsning
→ SMIRK GitHub repository
→ arXiv förtryck av papperet som beskriver säkerhetsfallet
MoreSMIRK
MoreSMIRK-datasetet förbättrar det befintliga SMIRK-datasetet genom att utöka designen till att omfatta scenarier med flera fotgängare (multi-pedestrian crossing scenarios).
MoreSMIRK-datasetet innehåller totalt 104 sekvenser som systematiskt konstruerar en uppsättning av flera övergångssituationer. Varje sekvens representerar en specifik övergångskonfiguration med avseende på fotgängarnas gruppering och riktning över vägen, med fokus på:
i) ursprunglig position, ii) gruppens sammansättning, vilket visas i figuren nedan.
Den ursprungliga positionen representerar var fotgängarna börjar korsa, antingen från vänster till höger eller från höger till vänster. Gruppens sammansättning varierar upp till tre individer som följer efter varandra när de korsar en väg. Detta beror på att tre personer som följer efter varandra med ett visst mellanrum nästan skulle uppta halva gatan vid övergången, och om två grupper korsar från båda sidorna är nästan hela området framför fordonets kamera täckt.
En viktig funktion i MoreSMIRK-datasetet är intresseområdena (RoI, Region of Interests), som visas som röda rutnät i figuren. Baserat på aktiveringen av RoI-rutnätet åberopas en maximal förskjutning på fem för att fördröja starten för fotgängare X på vänster sida. Till exempel: offset=1 innebär att när fotgängare X på vänster sida når RoI-rutnät 0, befinner sig fotgängare Y på höger sida redan vid RoI-rutnät 4.
Därmed representerar en MoreSMIRK-sekvens, exempelvis:
'_ _ X; 0; Y _ _'
en korsningshändelse där en fotgängare korsar från vänster och en fotgängare korsar från höger med nollförskjutning (zero offset). Se dokumentationen för fullständiga konfigurationer av alla sekvenser.
Mer detaljer finns i avsnitt 3.1 i artikeln PCICF: A Pedestrian Crossing Identification and Classification Framework.
Tekniska detaljer
- Totalt finns 104 sekvenser och varje sekvens innehåller 100 RGB-ramar (RGB frames).
- Det finns semantisk grunddata-annotering. Båda är i PNG-format med storleken 640x480.
- Sekvenserna är organiserade i mappar 'event_0' till 'event_103'.
- I varje händelsemapp är RGB- och annoteringsbilderna organiserade från 000 till 099.
- Varje RGB-bild är cirka ~250KB, varje annoteringsbild är cirka ~5B. Hela MoreSMIRK-arkivfilen är cirka ~2.8GB.
Terms and conditions
- MoreSMIRK-datasetet ägs av Göteborgs universitet, Sverige.
- Datasetet är licensierat under CC BY-NC 4.0.
- Datasetet kan laddas ner från AI Labs.
- All offentlig användning, distribution eller visning av detta dataset måste innehålla korrekt attribution (attribution) enligt licensen, inklusive följande referens till skaparna av det licensierade materialet.
Kompletterande material
Åtkomst
Datasetet är tillgängligt för alla AI Sveriges partners. Kontakta oss gå kommer vi att ge dig vidare instruktioner om hur du kan få tillgång till data. Om du är intresserad av att bli en partner till AI Sweden, få tillgång till partnerförmåner, inklusive datasets, eller dela ett dataset eller en modell, tveka inte att kontakta oss.