تقدم MaGGIe مجموعتي بيانات I-HIM50K وM-HIM2K، التي تتضمن أكثر من 180,000 قناع بشري مُصنّع لتقييم قوة استخلاص الكائنات.تقدم MaGGIe مجموعتي بيانات I-HIM50K وM-HIM2K، التي تتضمن أكثر من 180,000 قناع بشري مُصنّع لتقييم قوة استخلاص الكائنات.

تركيب بيانات Matting البشرية متعددة الحالات باستخدام MaskRCNN و BG20K

نبذة مختصرة و 1. مقدمة

  1. الأعمال ذات الصلة

  2. MaGGIe

    3.1. استخلاص الحالات الموجهة بالقناع الفعال

    3.2. الاتساق الزمني للميزة-الطبقة

  3. مجموعات بيانات استخلاص الحالات

    4.1. استخلاص حالات الصور و 4.2. استخلاص حالات الفيديو

  4. التجارب

    5.1. التدريب المسبق على بيانات الصور

    5.2. التدريب على بيانات الفيديو

  5. النقاش والمراجع

\ المواد التكميلية

  1. تفاصيل البنية

  2. استخلاص الصور

    8.1. إنشاء مجموعة البيانات والإعداد

    8.2. تفاصيل التدريب

    8.3. التفاصيل الكمية

    8.4. المزيد من النتائج النوعية على الصور الطبيعية

  3. استخلاص الفيديو

    9.1. إنشاء مجموعة البيانات

    9.2. تفاصيل التدريب

    9.3. التفاصيل الكمية

    9.4. المزيد من النتائج النوعية

8. استخلاص الصور

يوسع هذا القسم عملية استخلاص الصور، مقدماً رؤى إضافية حول إنشاء مجموعة البيانات ومقارنات شاملة مع الطرق الموجودة. نتعمق في إنشاء مجموعتي بيانات I-HIM50K و M-HIM2K، ونقدم تحليلات كمية مفصلة، ونعرض المزيد من النتائج النوعية للتأكيد على فعالية نهجنا.

8.1. إنشاء مجموعة البيانات والإعداد

تم تصنيع مجموعة بيانات I-HIM50K من مجموعة بيانات HHM50K [50]، المعروفة بمجموعتها الواسعة من طبقات الصور البشرية. استخدمنا نموذج MaskRCNN [14] Resnet-50 FPN 3x، المدرب على مجموعة بيانات COCO، لتصفية صور الشخص الواحد، مما أسفر عن مجموعة فرعية من 35,053 صورة. باتباع منهجية InstMatt [49]، تم دمج هذه الصور مع خلفيات متنوعة من مجموعة بيانات BG20K [29]، مما أدى إلى إنشاء سيناريوهات متعددة الحالات مع 2-5 أشخاص لكل صورة. تم تغيير حجم الأشخاص وموضعهم للحفاظ على مقياس واقعي وتجنب التداخل المفرط، كما هو موضح بواسطة IoUs للحالات التي لا تتجاوز 30%. أنتجت هذه العملية 49,737 صورة، بمتوسط 2.28 حالة لكل صورة. أثناء التدريب، تم إنشاء أقنعة التوجيه من خلال تحويل طبقات ألفا إلى ثنائية وتطبيق عمليات الحذف العشوائي والتوسع والتآكل. يتم عرض صور عينات من I-HIM50K في الشكل 10.

\ تم تصميم مجموعة بيانات M-HIM2K لاختبار قوة النموذج ضد جودة الأقنعة المتفاوتة. تتكون من عشرة أقنعة لكل حالة، تم إنشاؤها باستخدام نماذج MaskRCNN المختلفة. يتم عرض المزيد من المعلومات حول النماذج المستخدمة في عملية الإنشاء هذه في الجدول 8. تم مطابقة الأقنعة مع الحالات بناءً على أعلى IoU مع طبقات ألفا الحقيقية، مع ضمان حد أدنى لعتبة IoU بنسبة 70%. تم إنشاء الأقنعة التي لم تستوف هذه العتبة بشكل اصطناعي من البيانات الحقيقية. أسفرت هذه العملية عن مجموعة شاملة من 134,240 قناعاً، مع 117,660 للصور المركبة و 16,600 للصور الطبيعية، مما يوفر معياراً قوياً لتقييم استخلاص الحالات الموجهة بالقناع. سيتم إصدار مجموعة البيانات الكاملة I-HIM50K و M-HIM2K بعد قبول هذا العمل.

\ الشكل 10. أمثلة على مجموعة بيانات I-HIM50K. (يُفضل المشاهدة بالألوان).

\ الجدول 8. تم استخدام عشرة نماذج بجودة أقنعة متفاوتة في MHIM2K. نماذج MaskRCNN من detectron2 مدربة على COCO بإعدادات مختلفة.

\

:::info المؤلفون:

(1) Chuong Huynh، جامعة ميريلاند، كوليدج بارك (chuonghm@cs.umd.edu)؛

(2) Seoung Wug Oh، Adobe Research (seoh,jolee@adobe.com)؛

(3) Abhinav Shrivastava، جامعة ميريلاند، كوليدج بارك (abhinav@cs.umd.edu)؛

(4) Joon-Young Lee، Adobe Research (jolee@adobe.com).

:::


:::info هذه الورقة متاحة على arxiv بموجب ترخيص CC by 4.0 Deed (Attribution 4.0 International).

:::

\

فرصة السوق
شعار Multichain
Multichain السعر(MULTI)
$0,03832
$0,03832$0,03832
+2,95%
USD
مخطط أسعار Multichain (MULTI) المباشر
إخلاء مسؤولية: المقالات المُعاد نشرها على هذا الموقع مستقاة من منصات عامة، وهي مُقدمة لأغراض إعلامية فقط. لا تُظهِر بالضرورة آراء MEXC. جميع الحقوق محفوظة لمؤلفيها الأصليين. إذا كنت تعتقد أن أي محتوى ينتهك حقوق جهات خارجية، يُرجى التواصل عبر البريد الإلكتروني service@support.mexc.com لإزالته. لا تقدم MEXC أي ضمانات بشأن دقة المحتوى أو اكتماله أو حداثته، وليست مسؤولة عن أي إجراءات تُتخذ بناءً على المعلومات المُقدمة. لا يُمثل المحتوى نصيحة مالية أو قانونية أو مهنية أخرى، ولا يُعتبر توصية أو تأييدًا من MEXC.