تشخیص و دسته بندی و محاسبه سایز شی در تصویر در متلب
تشخیص و دسته بندی و محاسبه سایز شی در تصویر در متلب :پروژه متلب
پروژه متلب تشخیص اشیا یک فناوری کامپیوتری است که در ارتباط با کامپیوتر ویژن و پردازش تصویر است که با شناسایی نمونه هایی از اشیاء معنایی یک کلاس خاص (مانند انسان ها، ساختمان ها و اتومبیل ها) در تصاویر و فیلم های دیجیتال مورد بررسی قرار می گیرد.
در واقع در این فناوری ماشین تصویر را میبیند و پس از پردازش هایی مکان اشیا تعریف شده و کلاس یا دسته بندی آنها را نیز مشخص میکند.
در واقع در این فناوری ماشین تصویر را میبیند و پس از پردازش هایی مکان اشیا تعریف شده و کلاس یا دسته بندی آنها را نیز مشخص میکند.
پروژه متلب وظایف اصلی بینایی ماشین را میتوان به موارد زیر تقسیم کرد:
- شناسایی یا دستهبندی شیء: در شناسایی شیء، یک تصویر خام را تحویل میگیرید و باید تشخیص دهید که مربوط به کدام دسته میشود.
- دستهبندی و مکانشناسی: در این حالت شما یک تصویر دارید که فقط یک شیء در آن وجود دارد و باید جای آن شیء را پیدا کنید. به این کار «مساله مکانشناسی» نیز میگویند.
- پیداکردن شیء: در این حالت شما باید موقعیت شیء در تصویر را پیدا کنید. این اشیا میتوانند از کلاسهای متفاوت باشند.
- تقسیمبندی تصویر: تقسیمبندی تصویر وظیفه سنگینتری است. در این حالت باید تمام پیکسلها را بر اساس دسته درست آن پیدا کنید.
روش ها و الگوریتم های موجود :
۱ – روش های اولیه و سنتی :
پروژه متلب در این روش ها مسئله را با رویکرد های ساده تری انجام میدهند. بعنوان مثال ابتدا تصویر را به یک شبکه سگمنتیشن داده و با روش های موجود به سگمنت کردن اشیا موجود در تصویر پرداخته و پس از مشخص شدن محدوده اشیا در تصویر هر کدام را جداگانه به یک شبکه دسته بند میدهیم تا کلاس آن نیز مشخص شود.
این روش ها زمان بر بوده و عملا برای تشخیص اشیا به صورت real time کارآمد نیستند. برای مثال روش selective search
بعد از مدت ها و برای بهبود عملکرد این روش ها ایده هایی برای نحوه سگمنت کردن و در نهایت تشخیص اشیا مطرح شد که از جمله آنها میتوان روش roi pooling را نامبرد. که برای سگمت کردن تصویر ورودی از لایه ای کانولوشنالی شبکه های عمیق بهره میبردند. زیرا روش های قبلی با استفاده از محاسبه میزان تفاوت بین پیکسل های تصویر و تمایز قائل شدن بین آنها انجام میشد که دیگر منسوخ شدند.
۲ – روش های مدرن و پیشرفته :
پروژه متلب در این الگوریتم ها ایده هایی برای این مسئله مطرح شد که سعی بر این داشتند تا ماشین تصویر ورودی را فقط یک بار دیده و با استفاده از ترکیب شبکه های عمیق کانولوشنالی و تمام متصل به صورت موازی فیچر های لازم از تصویر استخراج شده و درنهایت به دسته بندی پرداخته شود تا از لحاظ دقت و سرعت پیشرفت بسیاری داشته باشد.
از جمله این روش ها و الگوریتم ها میتوان روش YOLO و SSD را نامبرد.
که در ادامه به بررسی آنها میپردازیم.
پروژه متلب کاملترین سیستم بلادرنگ (Real time) در یادگیری عمیق و حل مسائل تشخیص تصویر است. همانطور که در تصویر زیر مشاهده میکنید، این الگوریتم ابتدا تصویر را به بخشهای مختلف تقسیم میکند و هر بخش را علامتگذاری میکند، سپس الگوریتم شناسایی را به صورت موازی برای تمامی این بخشها اجرا میکند تا ببیند هر بخش به کدام دستهبندی تعلق میگیرد. بعد از شناسایی کامل اشیا، آنها را به هم متصل میکند تا دو هر شیء اصلی یک جعبه باشد.
پروژه متلب همه این کارها به صورت موازی انجام میشوند؛ در نتیجه به صورت بلادرنگ است و میتواند تا ۴۰ تصویر را در یک ثانیه پردازش کند. با اینکه این مدل کمی نسبت به RCNN عملکرد ضعیفتری دارد، ولی به دلیل بلادرنگ بودن آن، میتوان از آن برای حل مشکلات روزانه استفاده کرد. در زیر تصویری از معماری YOLO را مشاهده میکنید.
نحوه تشخیص شی در تصویر توسط الگوریتم yolo :
پروژه متلب در شبکه ی YOLO تصاویر به صورت فرضی به N در N ناحیه تقسیم می شوند. به ازای هر کدام از این نواحی فرض می شود که K شی امکان حضور دارند. شبکه به صورتی طراحی شده است که در نهایت به ازای تمامی نواحی امکان وجود اشیا در آن ناحیه ها – دسته ی آن شی و همچنین مختصات کادر دور شی را پیش بینی می کند.
با توجه به اینکه کادر دور هر شی ۴ مختصات دارد و همچنین دسته ی مورد نظر شی یک بردار C تایی هست و همین طور یک عدد برای احتمال وجود شی داریم پس به ازای هر شی یک تنزور (۴ + ۱ + C) تایی مورد نیاز است.
با توجه به اینکه فرض شد در هر تصویر N در N ناحیه وجود دارد و هر ناحیه احتمال حضور K شی به صورت بیشینه وجود دارد و هر شی نیز تزوری (۴ + ۱ + C) نیاز دارد پس در انتهای شبکه تنزوری KNN(C+1+4) وجود دارد که به پیشبینی کادر اشیا و احتمال آنها و دسته آنها می پردازد.
پروژه متلب در نسخه نخست این شبکه پس از لایه های کانولوشن ویژگی ها خطی شده و به لایه های تمام متصل تحویل داده شده و در نهایت پیشبینی ها انجام می شوند در حالی که در نسخه های بعدی به جای ایجاد تنزوری به این ابعاد حجیم یک کرنل کانولوشن با ابعاد K(C+1+4) به نحوی بر روی ویژگی های آخرین لایه ی کانولوشن کانوالو می شود که ناحیه های ادراکی آن (Receptive Field) بر روی هر یک از N*N ناحیه از تصور ورودی قرار بگیرند و عملیات پیشبینی انجام شود.
پروژه متلبتشخیص شی به شناسایی انواع اشیای موجود در یک تصویر گفته میشود. کار اصلی یک سیستم تشخیص، شناسایی انواع اشیای موجود در یک تصویر میباشد. امروزه شناسایی اشیا در تصاویر کاربردهای وسیعی پیدا کرده است. یکی از این کاربردها استفاده از این الگوریتمها برای کمک به راننده در تشخیص اشیاء به منظور جلوگیری از برخورد با آنها میباشد. مورد کاربرد دیگر کمک به نابینایان در شناسایی اشیاء اطراف آنها است و البته استفاده از شناسایی اشیاء در کاربردهای نظامی یکی از کاربردهایی است که به پیشرفت آن کمک شایانی کرده است.
پروژه متلب ماشین بینایی و تعیین هویت افراد از دیگر کاربردهای شناسایی اشیاء میباشد. مسألهی تشخیص اشیا در تصویر، هرچند موضوعی قدیمی است و تلاشهای زیادی برای پیشرفت آن صورت گرفته است، اما همچنان مسألهای پیچیده و زمینهای فعال برای بسیاری از پژوهشگران است؛ چرا که با وجود پیشرفتهای زیاد، هنوز روشهای موجود، دقت و سرعت کافی جهت استفاده در بسیاری از کاربردهای پیچیده ی واقعی را ندارند.
خروجی متلب :
دیدگاه ها