NVIDIA เปิดตัวโมเดล AI ใหม่ Describe Anything Model 3B (DAM-3B)
เป็นโมเดลแบบมัลติโหมด (Multimodal Model) ที่สามารถบรรยายภาพและวิดีโออย่างละเอียดในระดับเฉพาะจุด เช่น ระบุสิ่งของในภาพจากจุด, กล่อง, หรือมาสก์ จุดเด่นของ DAM-3B:
- ใช้เทคนิค Focal Prompt รวมภาพทั้งภาพกับส่วนที่สนใจ เพื่อให้เข้าใจบริบทและรายละเอียดได้ดีขึ้น
- รองรับภาพและวิดีโอ โดยเวอร์ชัน DAM-3B-Video สามารถติดตามและบรรยายวัตถุที่เคลื่อนไหว
- ใช้วิธีฝึกแบบกึ่งมีผู้ดูแล (semi-supervised) เพื่อสร้างชุดข้อมูลกว่า 1.5 ล้านตัวอย่างสำหรับฝึกโมเดล
- ทำคะแนนสูงสุดบนชุดทดสอบ DLC-Bench เหนือกว่าโมเดลอื่น เช่น GPT-4o
โมเดลนี้เปิดให้ใช้งานผ่าน Hugging Face พร้อมโค้ดและชุดข้อมูล เพื่อส่งเสริมการวิจัยด้าน AI ในการบรรยายภาพและวิดีโอ ตัวอย่างการใช้งาน ด้านวิศวกรรมช่วยให้โดรนอธิบายความเสียหายของเสาอาคาร ด้านภูมิศาสตร์ช่วยอธิบายภาพพื้นที่ของภาพถ่ายดาวเทียม เป็นต้น
ทดลองได้ที่: https://huggingface.co/spaces/nvidia/describe-anything-model-demo
Cr: https://www.marktechpost.com/2025/04/23/nvidia-ai-releases-describe-anything-3b-a-multimoda…