تقنيات الرؤية الحاسوبية و التوأم الرقمي​

​نركز في اباحثنا للرؤية الحاسوبية التوليدية على تطوير خوارزميات قادرة على إنشاء وتحليل الصور والفيديوهات بدرجة عالية من الواقعية والدقة. وتمثل هذه الأبحاث ركيزة أساسية للتطبيقات في مجالات الأمن، الرعاية الصحية، والتصميم الإبداعي.​

المجالات البحثية​

النموذج الأساسي للرؤية (Vision Foundation Model)​
نجري أبحاثًا متقدمة في النماذج الأساسية للرؤية، حيث نطور نماذج ذكاء اصطناعي واسعة النطاق تتعلم تمثيلات بصرية عامة تُمكّن من تطبيقات متعددة مثل التصنيف، والكشف، وتطبيقاتها عبر مجالات الرؤية المختلفة.​

التوأم الرقمي وإعادة البناء ثلاثي الأبعاد (Digital Twin and 3D Reconstruction)​
تركّز أبحاثنا على تطوير نماذج ذكاء اصطناعي لبناء توأم رقمي مطابق للأنظمة الفيزيائية باستخدام تقنيات النمذجة ثلاثية الأبعاد وبيانات أجهزة الاستشعار متعددة الوسائط، بما في ذلك صور الشوارع والطائرات بدون طيار والأقمار الصناعية، لتحقيق إعادة بناء رقمية على مستوى المدن تدعم تطبيقات المدن الذكية والبنية التحتية.​

النماذج اللغوية للرؤية (Vision-Language Models)​
نبحث في نماذج ذكاء اصطناعي تدمج المعلومات البصرية والنصية، مما يمكّن من تطوير تطبيقات مثل وصف الصور، والإجابة على الأسئلة البصرية، والاستدلال متعدد الوسائط، لتعزيز التفاعل بين اللغة والرؤية.​

نماذج الاستدلال البصري (Vision Reasoning Models)​
تتضمن أبحاثنا تطوير نماذج قادرة على الاستدلال المنطقي والسببي والمكاني باستخدام البيانات البصرية، لدعم مهام فهم المشاهد، والاستدلال البصري القائم على المعرفة العامة، واتخاذ القرار الذكي.​

النماذج اللغوية الكبيرة للفيديو (Video Large Language Models)​
نستكشف نماذج لغوية كبيرة متخصصة في فهم وإنشاء المحتوى المرئي الحركي، من خلال الجمع بين الاستدلال الزمني والفهم متعدد الوسائط والنمذجة التنبؤية، بما يمكّن من تحليل البيئات الديناميكية وتطبيقات الوسائط المتقدمة.​


الأبحاث العلمية المنشورة

1. PMODE: Prototypical Mask based Object Dimension Estimation​
2. Ego Vehicle Speed Estimation using 3D Convolution with Masked Attention​
3. Leveraging Multi-Modal Saliency and Fusion for Gaze Target Detection​
4. SAM-CD: Change Detection in Remote Sensing Using Segment Anything Model​
5. GESCAM: Gaze Estimation Method and Dataset​
6. CMFPN: Context Modeling Meets Feature Pyramid Network​

اهم براءات الاختراع المسجلة​

1. Document Verification - Method & Apparatus of Authenticating Documents Having Embedded Landmarks 
2. Ego Vehicle Speed estimation 
3. Multi-model attention estimation and gaze target detection 
4. Shop signage Dimension Estimation