دوربین‌ها رفتار شما را تشخیص می‌دهند

0

کامپیوترها می‌توانند شما را در یک تصویر تشخیص دهند، اما آیا می‌توانند یک ویدئو یا اشیاء واقعی را ببینند و دقیقاً بگویند که چه اتفاقی در حال رخ‌دادن است؟

محققان سعی می‌کنند تشخیص ویدئویی کامپیوتر را به واقعیت تبدیل کنند و آنها از برخی از شیوه‌های تشخیص تصویر استفاده می‌کنند تا این موضوع تحقق یابد.

محققان در داخل و خارج از شرکت گوگل در حوزه تشخیص ویدئو پیشرفت‌هایی کرده‌اند، اما هنوز چالش‌هایی وجود دارد که باید به آنها پرداخت.

مزایای تشخیص ویدئویی بسیار زیاد است. برای مثال، یک کامپیوتر می‌تواند فعالیت‌های یک فرد، یک رویداد، یا یک موقعیت مکانی را تشخیص دهد. تشخیص ویدئویی تولید خودروهای بدون راننده را نیز محتمل‌تر خواهد کرد. تشخیص ویدئویی این پتانسیل را دارد که به ربات‌ها کمک کند دنیای بیرونی را ببینند و بتوانند کارهای روزمره را -مانند خشکشویی- انجام دهند. تشخیص تصویر در حال حاضر بسیار متداول است، اما تشخیص ویدئویی شامل تجزیه‌وتحلیل رشته‌ای از تصاویر است که در یک توالی به یکدیگر پیوند زده‌شده‌اند. تشخیص ویدئویی مانند حس بینایی انسان عمل می‌کند که در آن مجموعه‌ای از تصاویر مشاهده می‌شوند، اشیاء بلافاصله تشخیص داده‌شده و فرد متوجه می‌شود که در اطرافش  چه اتفاقی در حال رخ‌دادن است. به لطف پیشرفت‌های حاصله در مدل‌های یادگیری عمیق مبتنی بر تشخیص تصویر، پیشرفت‌های زیادی در حوزه تشخیص ویدئویی به‌دست‌آمده است.

باوجود ترتیبی از فریم‌ها در یک ویدئو که به یکدیگر مرتبط هستند، چشم‌انداز غنی‌تری از دنیای واقعی ارائه می‌شود و به مدل‌ها امکان می‌دهد تا یک نمای سه‌بعدی از دنیا ایجاد کنند بدون اینکه به یک دیدگاه استریو[دارای دو یا چند کانال] نیاز باشد.

در بافت یادگیری عمیق، چالش‌هایی در خصوص تشخیص تصویر وجود دارد. کامپیوترها می‌توانند برخی از آیتم‌ها را در تصویر تشخیص دهند، اما قادر به تشخیص همه آنها نیستند. وقتی هدف آن باشد که ربات‌ها حس بینایی مانند حس بینایی انسان داشته باشند، این موضوع یک عیب به شمار می‌رود.

کامپیوترها باید آموزش ببینند تا بتوانند تصاویر را در مدل‌های یادگیری عمیق تشخیص دهند، مخزن‌های بزرگی وجود دارند که می‌توان از آنها برای ارجاع متقابل اشیاء در تصاویر استفاده کرد. مجموعه داده‌های بزرگ مانند ImageNet که حدود 14 میلیون تصویر دارند، به پیشرفت تشخیص دیداری کمک کرده‌اند؛ اما هنوز به مجموعه داده‌های بزرگ‌تری نیاز است.

گوگل در حال تبدیل هوش مصنوعی  به بخش بزرگی از عملیات فضای ابری خود است و از یادگیری ماشینی برای Google Now، مسیریابی خیابان‌ها و سایر خدمات بهره می‌گیرد. در خارج از گوگل، خودروهای بدون راننده برای قابلیت کنترل و تثبیت سرعت خود از یادگیری عمیق استفاده می‌کنند. شرکت‌ها نیز برای رهایی از ایرادات موجود در کدها از هوش مصنوعی بهره‌ می‌گیرند.

به‌علاوه نیاز به مجموعه داده‌های بزرگ‌تر و الگوریتم‌های بیشتری که ارائه‌دهنده فرمولاسیون بنیادی برای انجام عملیات یادگیری عمیق هستند، به‌شدت احساس می‌شود.

بدون داشتن این مجموعه داده‌های بزرگ، آموزش شبکه‌های عصبی که مدل‌های یادگیری عمیق را آموزش می‌دهند، دشوار است.

ارسال دیدگاه

آدرس ایمیل شما منتشر نخواهد شد.