O3D-SIM wird durch die Projektion von 2D-Masken und Einbettungen in 3D aufgebaut, wobei DBSCAN für die anfängliche Verfeinerung verwendet wird.O3D-SIM wird durch die Projektion von 2D-Masken und Einbettungen in 3D aufgebaut, wobei DBSCAN für die anfängliche Verfeinerung verwendet wird.

Aufbau einer Open-Set 3D-Repräsentation: Feature-Fusion und geometrisch-semantische Verschmelzung

2025/12/15 01:00

Abstrakt und 1 Einleitung

  1. Verwandte Arbeiten

    2.1. Vision-und-Sprache Navigation

    2.2. Semantisches Szeneverständnis und Instanzsegmentierung

    2.3. 3D-Szenenrekonstruktion

  2. Methodik

    3.1. Datensammlung

    3.2. Open-Set semantische Informationen aus Bildern

    3.3. Erstellung der Open-Set 3D-Darstellung

    3.4. Sprachgeführte Navigation

  3. Experimente

    4.1. Quantitative Auswertung

    4.2. Qualitative Ergebnisse

  4. Fazit und zukünftige Arbeit, Offenlegungserklärung und Referenzen

3.3. Erstellung der Open-Set 3D-Darstellung

Um den Aufbau des O3D-SIM abzuschließen, bauen wir nun auf den für jedes Objekt extrahierten Feature-Embeddings auf, indem wir Objektinformationen in den 3D-Raum projizieren, clustern und Objekte über mehrere Bilder hinweg verknüpfen, um eine umfassende 3D-Szenendarstellung zu erstellen. Der Prozess der Projektion der semantischen Informationen in den 3D-Raum und der Verfeinerung der Karte ist in Abbildung 3 dargestellt.

\ 3.3.1. Die O3D-SIM-Initialisierung

\ Die 3D-Karte wird zunächst mit einem ausgewählten Bild erstellt, das als Referenzrahmen für die Initialisierung unserer Szenendarstellung dient. Dieser Schritt etabliert die grundlegende Struktur unserer 3D-Szene, die dann schrittweise mit Daten aus nachfolgenden Bildern angereichert wird, um die Komplexität und Detailgenauigkeit der Szene zu erhöhen.

\ Die Daten für Objekte innerhalb einer 3D-Szene werden als Knoten in einem Wörterbuch organisiert, das zunächst leer ist. Objekte werden dann aus dem Anfangsbild zusammen mit den zugehörigen Daten identifiziert, die Embedding-Features und Informationen zu ihren Masken umfassen. Für jedes im Bild erkannte Objekt wird eine 3D-Punktwolke unter Verwendung der verfügbaren Tiefeninformationen und der Objektmaske erstellt. Diese Punktwolkenbildung beinhaltet die Abbildung der 2D-Pixel in den 3D-Raum, erleichtert durch die intrinsischen Parameter der Kamera und Tiefenwerte. Anschließend wird die Kamerapose verwendet, um die Punktwolke genau innerhalb des globalen Koordinatensystems auszurichten. Um unsere Szenendarstellung zu verfeinern, entfernt die Hintergrundfilterung Elemente, die als Hintergrund identifiziert wurden, wie Wände oder Böden. Diese Elemente werden von der weiteren Verarbeitung ausgeschlossen, insbesondere in der Clustering-Phase, da sie nicht den Hauptfokus unserer Szenendarstellung darstellen.

\ Die Menge der Objektpunktwolken wird weiter mit DBSCAN[34]-Clustering zur Darstellungsverfeinerung verarbeitet. Die Punktwolke wird über Voxel-Grid-Filterung heruntergesampelt, um die Anzahl der Punkte und die Berechnungskomplexität zu reduzieren, während die räumliche Datenstruktur handhabbar bleibt. DBSCAN gruppiert Punkte, die eng zusammengepackt sind, während Punkte, die allein in Regionen mit niedriger Dichte liegen, als Rauschen gekennzeichnet werden. In einem Nachclusterungsschritt wird der größte Cluster identifiziert, der typischerweise dem Hauptobjekt von Interesse innerhalb der Punktwolke entspricht. Dies hilft, Rauschen und irrelevante Punkte herauszufiltern und erzeugt eine sauberere Darstellung des interessierenden Objekts.

\ Die Pose eines Objekts im 3D-Raum wird durch Berechnung der Orientierung einer Bounding Box bestimmt, die eine präzise räumliche Darstellung des Standorts und der Größe des Objekts im 3D-Raum bietet. Anschließend wird die 3D-Kartenausgabe mit einem ersten Satz von Knoten initialisiert, die Feature-Embeddings, Punktwolkendaten, Bounding Boxes und die Anzahl der Punkte in der mit jedem Knoten verbundenen Punktwolke kapseln. Jeder Knoten enthält auch Quellinformationen, um die Rückverfolgung von Datenursprüngen und die Verknüpfung zwischen Knoten und ihren 2D-Bild-Gegenstücken zu erleichtern.

\ 3.3.2. Inkrementelles Update des O3D-SIM

\ Nach der Initialisierung der Szene aktualisieren wir die Darstellung mit Daten aus neuen Bildern. Dieser Prozess stellt sicher, dass unsere 3D-Szene aktuell und präzise bleibt, wenn zusätzliche Informationen verfügbar werden. Er iteriert über jedes Bild in der Bildsequenz; für jedes neue Bild werden Multiobjektdaten extrahiert und die Szene aktualisiert.

\ Objekte werden für jedes neue Bild erkannt, und neue Knoten werden wie beim Anfangsbild erstellt. Diese temporären Knoten enthalten die 3D-Daten für neu erkannte Objekte, die entweder mit der bestehenden Szene zusammengeführt oder als neue Knoten hinzugefügt werden müssen. Die Ähnlichkeit zwischen neu erkannten und bestehenden Szenenknoten wird durch Kombination von visueller Ähnlichkeit, abgeleitet aus Feature-Embeddings, und räumlicher (geometrischer) Ähnlichkeit, erhalten aus der Punktwolkenüberlappung, bestimmt, um ein aggregiertes Ähnlichkeitsmaß zu formulieren. Wenn dieses Maß einen vorbestimmten Schwellenwert überschreitet, wird die neue Erkennung als einem bestehenden Objekt in der Szene entsprechend angesehen. Tatsächlich wird der neu erkannte Knoten entweder mit einem bestehenden Szenenknoten zusammengeführt oder als neuer Knoten hinzugefügt.

\ Das Zusammenführen beinhaltet die Integration von Punktwolken und die Mittelung von Feature-Embeddings. Ein gewichteter Durchschnitt von CLIP- und DINO-Embeddings wird berechnet, wobei der Beitrag aus den Quellschlüsselinformationen berücksichtigt wird, mit einer Präferenz für Knoten mit mehr Quellidentifikatoren. Wenn ein neuer Knoten hinzugefügt werden muss, wird er in das Szenenwörterbuch aufgenommen.

\ Die Szenenverfeinerung erfolgt, sobald Objekte aus allen Bildern in der Eingangssequenz hinzugefügt wurden. Dieser Prozess konsolidiert Knoten, die dieselben physischen Objekte repräsentieren, aber zunächst aufgrund von Verdeckungen, Blickwinkeländerungen oder ähnlichen Faktoren als separate identifiziert wurden. Er verwendet eine Überlappungsmatrix, um Knoten zu identifizieren, die räumliche Belegung teilen, und führt sie logisch zu einem einzigen Knoten zusammen. Die Szene wird abgeschlossen, indem Knoten verworfen werden, die die Mindestanzahl an Punkten oder Erkennungskriterien nicht erfüllen. Dies führt zu einer verfeinerten und optimierten endgültigen Szenendarstellung - OpenSet 3D Semantic Instance Maps, auch bekannt als O3D-SIM.

\

:::info Autoren:

(1) Laksh Nanwani, International Institute of Information Technology, Hyderabad, Indien; dieser Autor hat zu gleichen Teilen zu dieser Arbeit beigetragen;

(2) Kumaraditya Gupta, International Institute of Information Technology, Hyderabad, Indien;

(3) Aditya Mathur, International Institute of Information Technology, Hyderabad, Indien; dieser Autor hat zu gleichen Teilen zu dieser Arbeit beigetragen;

(4) Swayam Agrawal, International Institute of Information Technology, Hyderabad, Indien;

(5) A.H. Abdul Hafez, Hasan Kalyoncu University, Sahinbey, Gaziantep, Türkei;

(6) K. Madhava Krishna, International Institute of Information Technology, Hyderabad, Indien.

:::


:::info Dieses Paper ist auf arxiv verfügbar unter der CC by-SA 4.0 Deed (Attribution-Sharealike 4.0 International) Lizenz.

:::

\

Marktchance
OpenLedger Logo
OpenLedger Kurs(OPEN)
$0.18012
$0.18012$0.18012
-2.36%
USD
OpenLedger (OPEN) Echtzeit-Preis-Diagramm
Haftungsausschluss: Die auf dieser Website veröffentlichten Artikel stammen von öffentlichen Plattformen und dienen ausschließlich zu Informationszwecken. Sie spiegeln nicht unbedingt die Ansichten von MEXC wider. Alle Rechte verbleiben bei den ursprünglichen Autoren. Sollten Sie der Meinung sein, dass Inhalte die Rechte Dritter verletzen, wenden Sie sich bitte an service@support.mexc.com um die Inhalte entfernen zu lassen. MEXC übernimmt keine Garantie für die Richtigkeit, Vollständigkeit oder Aktualität der Inhalte und ist nicht verantwortlich für Maßnahmen, die aufgrund der bereitgestellten Informationen ergriffen werden. Die Inhalte stellen keine finanzielle, rechtliche oder sonstige professionelle Beratung dar und sind auch nicht als Empfehlung oder Billigung von MEXC zu verstehen.

Das könnte Ihnen auch gefallen

Blitz-OP nach doppeltem Drama: Teamarzt von NFL-Rivalen flickt Superstar Mahomes wieder zusammen

Blitz-OP nach doppeltem Drama: Teamarzt von NFL-Rivalen flickt Superstar Mahomes wieder zusammen

Die Saison endet für Patrick Mahomes doppelt bitter. Seine Kansas City Chiefs verpassen die Playoffs und der Superstar verletzt sich schwer am Knie. Er wird sof
Teilen
N-tv2025/12/16 16:34
Sui präsentiert Innovation auf der Korea Blockchain Week 2025

Sui präsentiert Innovation auf der Korea Blockchain Week 2025

Der Beitrag Sui präsentiert Innovation auf der Korea Blockchain Week 2025 erschien auf BitcoinEthereumNews.com. Joerg Hiller 30.09.2025 04:13 Suis Präsenz auf der Korea Blockchain Week 2025 unterstrich seinen wachsenden Einfluss im Bereich digitaler Vermögenswerte mit wichtigen Diskussionen über KI, Gaming und Blockchain-Fortschritte. Die Korea Blockchain Week (KBW) 2025 diente als bedeutende Plattform für Sui, die seine Führung, Partner und Community zusammenbrachte, um seinen wachsenden Einfluss im Bereich digitaler Vermögenswerte hervorzuheben. Laut Sui Foundation unterstrich die einwöchige Veranstaltungsreihe Suis institutionelle Relevanz und kulturellen Einfluss in der Asien-Pazifik-Region. EastPoint: Die Bühne bereiten Die Veranstaltung begann mit EastPoint:Seoul, einer privaten Konferenz, bei der Schlüsselfiguren, darunter Kevin Boon, Präsident von Mysten Labs, die Zukunft digitaler Vermögenswerte in Korea diskutierten. Boons Einblicke in die regulatorischen Entwicklungen in den USA boten lokalen Interessenvertretern eine globale Perspektive, die begierig waren, die Auswirkungen auf koreanische Märkte zu verstehen. Einfluss und Innovation bei der KBW Während der KBW: IMPACT-Konferenz präsentierte Sui seine Vordenkerrolle und Community-Engagement. Bemerkenswerte Sitzungen umfassten Präsentationen von Adeniyi Abiodun und Kostas Chalkias, beide Mitbegründer von Mysten Labs. Abiodun stellte den Sui Stack als Koordinationsschicht für Anwendungen und KI vor, während Chalkias die Schnittstelle zwischen Blockchain und KI erforschte und neue Grenzen in der digitalen Technologie aufzeigte. Community-Engagement und Gaming-Fokus Die Veranstaltungen zur Wochenmitte konzentrierten sich auf Community-Building und Gaming, wobei über 800 Partner und Entwickler an einem eleganten Abendtreffen in Seongsu teilnahmen. Branchenführer diskutierten die Flexibilität von Suis Architektur im Spieldesign und bei der Implementierung. Der Tag endete mit einer interaktiven Gaming-Veranstaltung, "Ready. Sui. Play!" in Gangnam, die Entwickler und Spieler in praktische Erfahrungen einbezog. Sui Builder House: APAC Die Woche gipfelte in der Sui Builder House: APAC-Veranstaltung, die 600 Teilnehmer anzog, die begierig waren, regionale Strategien und Produktinnovationen zu erkunden. Das Programm beinhaltete bedeutende Ankündigungen, darunter neue Produktmeilensteine wie Slush- und BTCfi-Integrationen, und zeigte, wie...
Teilen
BitcoinEthereumNews2025/10/01 11:54
Bitcoin-Kurs bekommt harte Schläge – Markt hält Atem an vor 14:30 Uhr

Bitcoin-Kurs bekommt harte Schläge – Markt hält Atem an vor 14:30 Uhr

De bitcoin prijs van de afgelopen 24 uur. - Bron: CoinGecko
Teilen
Crypto-insiders2025/12/16 16:16