هوش مصنوعی میتواند یک روز به این عبارت که «هزاران واژه در یک تصویر نهفته است» معنا ببخشد. در حال حاضر دانشمندان در حال ساخت برنامههایی هستند که مانند انسان تصاویر را توضیح دهند.
روزی میرسد که کامپیوترها بتوانند آنچه را که در ویدئوها اتفاق میافتد، مانند انسان توضیح دهند.
در حال حاضر دانشمندان مطالعات شرکت مایکروسافت و همکاران آنها روی سیستمی کار میکنند که میتواند به طور خودکار مجموعهای از تصاویر را مانند انسان در قالب یک داستان توضیح دهد. هدف از ساخت این کامپیوتر آن است که نهتنها موارد موجود در تصویر توضیح داده شود بلکه آنچه به نظر میرسد اتفاق میافتد و حسی که ممکن است فرد نسبت به آن پیدا کند نیز در این توضیحات گنجانده شود. برای مثال، اگر فردی تصویر یک مرد را که تاکسیدو بر تن دارد و یک زن را که لباس بلند سفید پوشیده، نشان دهد کامپیوتر به جای اینکه بگوید «اینها عروس و داماد هستند»، بگوید «دوستان من ازدواج کردند. خیلی شاد به نظر میرسند و عروسی آنها خیلی خوب بود».
محققان سعی دارند قابلیت داستانسرایی را نیز به هوش مصنوعی اضافه کنند. برای ایجاد یک سیستم داستانسرا، محققان از شبکههای عصبی عمیق، یعنی سیستمهای کامپیوتری که از نمونهها درس میگیرند، استفاده کردند. برای مثال یادگیری نحوه شناسایی گربه در عکس از طریق تجزیهوتحلیل هزاران نمونه از تصاویر گربهها. سیستمی که محققان طراحی کردند به سیستم مورد استفاده در ترجمه زبان خودکار شباهت داشت، اما به جای آموزش سیستم برای ترجمه از یک زبان به زبان دیگر، دانشمندان آن را آموزش دادند تا تصاویر را به جملات ترجمه کند.
سپس دانشمندان بیش از 8100 تصویر جدید را وارد سیستم خود کردند تا بررسی کنند که سیستم چه داستانهایی را خلق میکند.
یکی از چالشهایی که محققان با آن روبهرو شدند، نحوه ارزیابی کارایی سیستم در داستانسرایی بود. بهترین و قابلاعتمادترین روش برای ارزیابی کیفیت داستانها قضاوت انسان است، اما کامپیوتر هزاران داستان ایجاد میکند و درنتیجه افراد باید وقت و انرژی زیادی برای بررسی تکتک آنها صرف کنند. در عوض، دانشمندان روشهای خودکار را برای ارزیابی کیفیت داستانها امتحان کردند تا بهسرعت عملکرد کامپیوتر را ارزیابی کنند. در این آزمایشها، آنها روی یک روش خودکار تمرکز کردند که بیشتر از همه به قضاوت انسان شباهت داشت.
آنها دریافتند که این روش خودکار بسیار شبیه به عملکرد انسان در ارزیابی داستان عمل میکند.