کامپیوترها میتوانند شما را در یک تصویر تشخیص دهند، اما آیا میتوانند یک ویدئو یا اشیاء واقعی را ببینند و دقیقاً بگویند که چه اتفاقی در حال رخدادن است؟
محققان سعی میکنند تشخیص ویدئویی کامپیوتر را به واقعیت تبدیل کنند و آنها از برخی از شیوههای تشخیص تصویر استفاده میکنند تا این موضوع تحقق یابد.
محققان در داخل و خارج از شرکت گوگل در حوزه تشخیص ویدئو پیشرفتهایی کردهاند، اما هنوز چالشهایی وجود دارد که باید به آنها پرداخت.
مزایای تشخیص ویدئویی بسیار زیاد است. برای مثال، یک کامپیوتر میتواند فعالیتهای یک فرد، یک رویداد، یا یک موقعیت مکانی را تشخیص دهد. تشخیص ویدئویی تولید خودروهای بدون راننده را نیز محتملتر خواهد کرد. تشخیص ویدئویی این پتانسیل را دارد که به رباتها کمک کند دنیای بیرونی را ببینند و بتوانند کارهای روزمره را -مانند خشکشویی- انجام دهند. تشخیص تصویر در حال حاضر بسیار متداول است، اما تشخیص ویدئویی شامل تجزیهوتحلیل رشتهای از تصاویر است که در یک توالی به یکدیگر پیوند زدهشدهاند. تشخیص ویدئویی مانند حس بینایی انسان عمل میکند که در آن مجموعهای از تصاویر مشاهده میشوند، اشیاء بلافاصله تشخیص دادهشده و فرد متوجه میشود که در اطرافش چه اتفاقی در حال رخدادن است. به لطف پیشرفتهای حاصله در مدلهای یادگیری عمیق مبتنی بر تشخیص تصویر، پیشرفتهای زیادی در حوزه تشخیص ویدئویی بهدستآمده است.
باوجود ترتیبی از فریمها در یک ویدئو که به یکدیگر مرتبط هستند، چشمانداز غنیتری از دنیای واقعی ارائه میشود و به مدلها امکان میدهد تا یک نمای سهبعدی از دنیا ایجاد کنند بدون اینکه به یک دیدگاه استریو[دارای دو یا چند کانال] نیاز باشد.
در بافت یادگیری عمیق، چالشهایی در خصوص تشخیص تصویر وجود دارد. کامپیوترها میتوانند برخی از آیتمها را در تصویر تشخیص دهند، اما قادر به تشخیص همه آنها نیستند. وقتی هدف آن باشد که رباتها حس بینایی مانند حس بینایی انسان داشته باشند، این موضوع یک عیب به شمار میرود.
کامپیوترها باید آموزش ببینند تا بتوانند تصاویر را در مدلهای یادگیری عمیق تشخیص دهند، مخزنهای بزرگی وجود دارند که میتوان از آنها برای ارجاع متقابل اشیاء در تصاویر استفاده کرد. مجموعه دادههای بزرگ مانند ImageNet که حدود 14 میلیون تصویر دارند، به پیشرفت تشخیص دیداری کمک کردهاند؛ اما هنوز به مجموعه دادههای بزرگتری نیاز است.
گوگل در حال تبدیل هوش مصنوعی به بخش بزرگی از عملیات فضای ابری خود است و از یادگیری ماشینی برای Google Now، مسیریابی خیابانها و سایر خدمات بهره میگیرد. در خارج از گوگل، خودروهای بدون راننده برای قابلیت کنترل و تثبیت سرعت خود از یادگیری عمیق استفاده میکنند. شرکتها نیز برای رهایی از ایرادات موجود در کدها از هوش مصنوعی بهره میگیرند.
بهعلاوه نیاز به مجموعه دادههای بزرگتر و الگوریتمهای بیشتری که ارائهدهنده فرمولاسیون بنیادی برای انجام عملیات یادگیری عمیق هستند، بهشدت احساس میشود.
بدون داشتن این مجموعه دادههای بزرگ، آموزش شبکههای عصبی که مدلهای یادگیری عمیق را آموزش میدهند، دشوار است.