MaGGIe zeichnet sich durch hervorragendes Haar-Rendering und Instanztrennung bei natürlichen Bildern aus und übertrifft MGM und InstMatt in komplexen Szenarien mit mehreren Instanzen.MaGGIe zeichnet sich durch hervorragendes Haar-Rendering und Instanztrennung bei natürlichen Bildern aus und übertrifft MGM und InstMatt in komplexen Szenarien mit mehreren Instanzen.

Robustes maskengeführtes Matting: Umgang mit verrauschten Eingaben und Objektvielseitigkeit

Abstrakt und 1. Einleitung

  1. Verwandte Arbeiten

  2. MaGGIe

    3.1. Effizientes maskiertes geführtes Instanz-Matting

    3.2. Feature-Matte zeitliche Konsistenz

  3. Instanz-Matting-Datensätze

    4.1. Bild-Instanz-Matting und 4.2. Video-Instanz-Matting

  4. Experimente

    5.1. Vortraining auf Bilddaten

    5.2. Training auf Videodaten

  5. Diskussion und Referenzen

\ Ergänzendes Material

  1. Architekturdetails

  2. Bild-Matting

    8.1. Datensatzerzeugung und -vorbereitung

    8.2. Trainingsdetails

    8.3. Quantitative Details

    8.4. Weitere qualitative Ergebnisse auf natürlichen Bildern

  3. Video-Matting

    9.1. Datensatzerzeugung

    9.2. Trainingsdetails

    9.3. Quantitative Details

    9.4. Weitere qualitative Ergebnisse

8.4. Weitere qualitative Ergebnisse auf natürlichen Bildern

Abb. 13 zeigt die Leistung unseres Modells in herausfordernden Szenarien, insbesondere bei der genauen Darstellung von Haarbereichen. Unser Framework übertrifft MGM⋆ durchgehend in der Detailerhaltung, besonders bei komplexen Instanzinteraktionen. Im Vergleich mit InstMatt zeigt unser Modell eine überlegene Instanztrennung und Detailgenauigkeit in mehrdeutigen Bereichen.

\ Abb. 14 und Abb. 15 veranschaulichen die Leistung unseres Modells und früherer Arbeiten in Extremfällen mit mehreren Instanzen. Während MGM⋆ mit Rauschen und Genauigkeit in dichten Instanzszenarien zu kämpfen hat, behält unser Modell hohe Präzision bei. InstMatt zeigt ohne zusätzliche Trainingsdaten Einschränkungen in diesen komplexen Umgebungen.

\ Die Robustheit unseres maskengeführten Ansatzes wird weiter in Abb. 16 demonstriert. Hier heben wir die Herausforderungen hervor, mit denen MGM-Varianten und SparseMat bei der Vorhersage fehlender Teile in Maskeneingaben konfrontiert sind, die unser Modell adressiert. Es ist jedoch wichtig zu beachten, dass unser Modell nicht als menschliches Instanzsegmentierungsnetzwerk konzipiert ist. Wie in Abb. 17 gezeigt, hält sich unser Framework an die Eingabeführung und gewährleistet präzise Alpha-Matte-Vorhersagen selbst bei mehreren Instanzen in derselben Maske.

\ Schließlich betonen Abb. 12 und Abb. 11 die Generalisierungsfähigkeiten unseres Modells. Das Modell extrahiert sowohl menschliche Subjekte als auch andere Objekte präzise aus Hintergründen und zeigt seine Vielseitigkeit über verschiedene Szenarien und Objekttypen hinweg.

\ Alle Beispiele sind Internetbilder ohne Ground-Truth und die Maske von r101fpn400e wird als Führung verwendet.

\ Abbildung 13. Unser Modell erzeugt hochdetaillierte Alpha-Mattes auf natürlichen Bildern. Unsere Ergebnisse zeigen, dass es genau und vergleichbar mit früheren instanzagnostischen und instanzbewussten Methoden ohne teure Rechenkosten ist. Rote Quadrate vergrößern die Detailbereiche für jede Instanz. (Am besten in Farbe und digitalem Zoom betrachtet).

\ Abbildung 14. Unsere Frameworks trennen Instanzen präzise in einem Extremfall mit vielen Instanzen. Während MGM oft Überlappungen zwischen Instanzen verursacht und MGM⋆ Rauschen enthält, erzeugt unseres vergleichbare Ergebnisse mit InstMatt, das auf dem externen Datensatz trainiert wurde. Roter Pfeil zeigt die Fehler an. (Am besten in Farbe und digitalem Zoom betrachtet).

\ Abbildung 15. Unsere Frameworks trennen Instanzen präzise in einem einzigen Durchlauf. Die vorgeschlagene Lösung zeigt vergleichbare Ergebnisse mit InstMatt und MGM, ohne die Vorhersage/Verfeinerung fünfmal auszuführen. Roter Pfeil zeigt die Fehler an. (Am besten in Farbe und digitalem Zoom betrachtet).

\ Abbildung 16. Im Gegensatz zu MGM und SparseMat ist unser Modell robust gegenüber der Eingabeführungsmaske. Mit dem Attention-Head erzeugt unser Modell stabilere Ergebnisse für Maskeneingaben ohne komplexe Verfeinerung zwischen Instanzen wie InstMatt. Roter Pfeil zeigt die Fehler an. (Am besten in Farbe und digitalem Zoom betrachtet).

\ Abbildung 17. Unsere Lösung funktioniert korrekt mit Multi-Instanz-Maskenführungen. Wenn mehrere Instanzen in einer Führungsmaske vorhanden sind, erzeugen wir dennoch die korrekte vereinigte Alpha-Matte für diese Instanzen. Roter Pfeil zeigt die Fehler oder den Zoom-Bereich im roten Kasten an. (Am besten in Farbe und digitalem Zoom betrachtet).

\ Tabelle 12. Details der quantitativen Ergebnisse auf HIM2K+M-HIM2K (Erweiterung von Tabelle 5). Grau zeigt die öffentlichen Gewichte ohne erneutes Training an.

\ Tabelle 12. Details der quantitativen Ergebnisse auf HIM2K+M-HIM2K (Erweiterung von Tabelle 5). Grau zeigt die öffentlichen Gewichte ohne erneutes Training an. (Fortsetzung)

\ Tabelle 12. Details der quantitativen Ergebnisse auf HIM2K+M-HIM2K (Erweiterung von Tabelle 5). Grau zeigt die öffentlichen Gewichte ohne erneutes Training an. (Fortsetzung)

\ Tabelle 12. Details der quantitativen Ergebnisse auf HIM2K+M-HIM2K (Erweiterung von Tabelle 5). Grau zeigt die öffentlichen Gewichte ohne erneutes Training an. (Fortsetzung)

\ Tabelle 13. Die Wirksamkeit der vorgeschlagenen zeitlichen Konsistenzmodule auf V-HIM60 (Erweiterung von Tabelle 6). Die Kombination aus bidirektionalem Conv-GRU und Vorwärts-Rückwärts-Fusion erzielt die beste Gesamtleistung auf drei Testsets. Fettdruck hebt das Beste für jede Ebene hervor.

\

:::info Autoren:

(1) Chuong Huynh, University of Maryland, College Park (chuonghm@cs.umd.edu);

(2) Seoung Wug Oh, Adobe Research (seoh,jolee@adobe.com);

(3) Abhinav Shrivastava, University of Maryland, College Park (abhinav@cs.umd.edu);

(4) Joon-Young Lee, Adobe Research (jolee@adobe.com).

:::


:::info Dieses Papier ist auf arxiv verfügbar unter CC by 4.0 Deed (Attribution 4.0 International) Lizenz.

:::

\

Marktchance
Mask Network Logo
Mask Network Kurs(MASK)
$0.575
$0.575$0.575
+0.27%
USD
Mask Network (MASK) Echtzeit-Preis-Diagramm
Haftungsausschluss: Die auf dieser Website veröffentlichten Artikel stammen von öffentlichen Plattformen und dienen ausschließlich zu Informationszwecken. Sie spiegeln nicht unbedingt die Ansichten von MEXC wider. Alle Rechte verbleiben bei den ursprünglichen Autoren. Sollten Sie der Meinung sein, dass Inhalte die Rechte Dritter verletzen, wenden Sie sich bitte an service@support.mexc.com um die Inhalte entfernen zu lassen. MEXC übernimmt keine Garantie für die Richtigkeit, Vollständigkeit oder Aktualität der Inhalte und ist nicht verantwortlich für Maßnahmen, die aufgrund der bereitgestellten Informationen ergriffen werden. Die Inhalte stellen keine finanzielle, rechtliche oder sonstige professionelle Beratung dar und sind auch nicht als Empfehlung oder Billigung von MEXC zu verstehen.