هوش‌ مصنوعی زبان‌های ازیادرفته را زنده می‌کند

محققان ام‌آی‌تی و گوگل به دنبال چه‌چیزی هستند

توسط شنبه مگ
11 آگوست 2019
194 Views
5 سال قبل

یادگیری ماشینی به ترجمه خودکار زبان‌های از‌دست‌رفته کمک قابل توجهی می‌کند. در طول تاریخ برخی زبان‌ها هرگز رمزگشایی نشده‌اند، اما هوش مصنوعی و یادگیری ماشین قادر به ترجمه این زبان‌ها‌ست.

در سال ۱۸۸۶، باستان‌شناس انگلیسی، آرتور ایوانز(Arthur Evans)، در یک سنگ باستانی با مجموعه‌ای عجیب از نوشته‌ها برخورد کرد که به زبانی ناشناخته نوشته شده بود. این سنگ از جزیره مدیترانه‌ای کرت پیدا شده بود که بزرگ‌ترین جزیره یونان است. آرتور ایوانز برای به دست آوردن مدارک بیشتر به سرعت راهی آنجا شد.

او خیلی زود سنگ‌ها و لوح‌های زیادی را با خطوط یکسان کشف کرد که قدمتشان به سال۱۴۰۰ پیش از میلاد می‎رسد. سنگ‌نوشته‎های اکتشافی آرتور ایوانز یکی از قدیمی‌ترین شکل‌های نوشتاری کشف‌شده‌ تاکنون است.

براساس استدلال ایوانز، این شکل نوشتاری و فرم خطی آن از خراش اجسام سخت به وجود آمده که متعلق به دوران ابتدایی رشد هنر ‌است و همین مسئله اهمیت این زبان را در تاریخ زبان‌شناسی تعیین می‌کند. آرتور ایوانز و دیگر زبان‌شناسان بعد از مدتی ثابت کردند که سنگ‌ها و لوح‌ها با دو خط مختلف نوشته شده‌اند.

قدیمی‌ترین آنها خطی به نام A است که از۱۸۰۰ تا ۱۴۰۰ پیش از میلاد رواج داشته است. در آن زمان جزیره کرت تحت سلطه تمدن عصر برنز بود. خط دیگر را به خط B می‌شناسند، این خط جدیدتر از خط A است ومربوط به پس از ۱۴۰۰ پیش از میلاداست؛ زمانی که جزیره توسط تمدن مینسی‌ها از سرزمین اصلی یونان فتح شد.

ایوانز و دیگران سال‌ها تلاش کردند که متن قدیمی را کشف کنند اما زبان‌های از دست رفته در مقابل همه تلاش‌ها مقاومت کردند. این مشکل تا سال ۱۹۵۳ حل‌نشده باقی ماند تا اینکه زبان‌شناس آماتوری به نام مایکل ونتریس(Michael Ventris) برای خط B رمزگذاری کرد.

راه‌حل او براساس دو پیشرفت قطعی ساخته شد؛ اول، مایکل ونتریس حدس زد که بسیاری از کلمات تکراری در واژگان خطی B نام مکان‌هایی در جزیره کرت هستند و معلوم شد که این حرف کاملا صحیح است.

مزیت بزرگ رویکردهای مبتنی بر ماشین، امکان آزمایش یک زبان به سرعت بعد از زبان دیگری بدون توقف است. بنابراین ممکن است که لو و سو با روشی تحمیلی به‌سادگی هر زبانی را کشف و با استفاده از ترجمه ماشینی آن را ترجمه کنند

دومین موفقیت مایکل ونتریس فرضیه‌ای بود که درباره مکان نوشته‌ها مطرح کرد. براساس حدسیات او، نوشته‎های ثبت‌شده در یک فرم اولیه متعلق به یونان باستان است. این بینش بلافاصله به او اجازه داد تا کل زبان را کشف کند.

در این فرآیند، ونتریس نشان داد که زبان یونانی باستان، اولین‌بارچند قرن پیش از زمانی که تصور می‌شد، ظاهر شد. کار ونتریس دستاورد بزرگی بود، اما بیشتر نوشته‌های باستانی باقیمانده به خطA همواره یکی از بزرگ‌ترین مشکلات در زبان‌شناسی تا امروز هستند.

تصور پیشرفت‌های اخیر که ممکن است در ترجمه ماشینی کمک کند، سخت نیست. در چند سال اخیر، مطالعه زبان‌شناسی با در دسترس بودن پایگاه‌های داده‌ای گسترده دچار تحولات بسیاری شده ‌و تکنیک‌هایی برای یادگیری زبان ماشین به وجود آمده‌است.

در نتیجه، ترجمه ماشینی از یک زبان به زبان دیگری تبدیل به امری عادی شده‌است. هرچند ترجمه ماشینی بی‌نقص نیست، ولی این روش‌ها توانسته‌اند راه‌های کاملا جدیدی را برای تفکر درمورد زبان فراهم کنند.

جیامینگ لو (Jiaming Luo) و رجینا بارزیلی (Regina Barzilay)، محققان MIT و یوآن ‌سو (Yuan Cao) از آزمایشگاه هوش مصنوعی گوگل در مانتین ویو کالیفرنیا کارهای زیادی را در زمینه ترجمه زبان‎ها انجام داده‎اند. این تیم یک سیستم یادگیری ماشین را توسعه داده‌‌ که قادر به رمزگشایی زبان‌های از دست رفته بوده است. آنها با استفاده از این سیستم،

خطB را رمزگشایی کرده‎اند، ترجمه خط B برای اولین‌بار به صورت خودکار انجام شده‌ و رویکرد مورد استفاده آنها بسیار متفاوت از تکنیک‌های ترجمه ماشینی استاندارد بود. ایده بزرگ پشت ترجمه ماشینی، درک ارتباط کلمات با یکدیگر با روش‌های مشابه بدون در نظر گرفتن زبان درگیر است.

بنابراین، این فرآیند با نگاشت این روابط برای یک زبان خاص آغاز می‌شود که نیازمند پایگاه ‌داده‌های متنی بزرگی است. سپس ماشین متن را جست‌وجو می‌کند تا ببیند که هر کلمه در کنار کلمه دیگر چگونه ظاهر می‌شود. این الگوی ظاهری، امضای منحصر‌به‌فردی است که کلمه را در فضای پارامتری چند‌بعدی تعریف می‌کند.

در واقع، کلمه را می‌توان به عنوان بردار درون این فضا تصور کرد. این بردار به عنوان یک محدودیت قدرتمند در نحوه ظاهر‌شدن کلمه در هر ترجمه ماشینی عمل می‌کند. این بردارها از برخی قوانین ساده ریاضی پیروی می‌کنند.

به عنوان مثال، «پادشاه مرد + زن = ملکه» و جمله می‌تواند به عنوان مجموعه‌ای از بردارها عمل کند که از یکی پس از دیگری به منظور شکل‎دهی به نوع مسیر در این فضا دنباله‎روی یکدیگر هستند. مهم‌ترین بینش ترجمه ماشینی این است که کلمات در زبان‌های مختلف همان نقاط را در فضاهای پارامتری مربوطه اشغال می‌کنند.

این امر امکان نقشه کامل یک زبان را با یک تناظر یک به یک فراهم می‌کند. به این ترتیب فرآیند تبدیل جملات به فرآیند پیدا‌کردن مسیرهای مشابه از طریق این فضاها تبدیل می‌شود. دستگاه هرگز نیاز به دانستن معنای جملات ندارد.

این فرآیند وابسته به مجموعه داده‌های بزرگ است، اما چند سال پیش گروهی از محققان آلمانی نشان دادند که چگونه یک رویکرد مشابه با پایگاه‌داده‌های بسیار کوچک‌تر می‌تواند به ترجمه بیشتر زبان‌های نادر کمک کند که فاقد پایگاه‌های داده بزرگ هستند.

ترفند آنها یافتن راهی متفاوت برای محدود‌کردن رویکرد ماشینی است که به پایگاه‌داده وابسته نیست. در حال حاضر، لو و سو از پروژه گروه آلمانی فراتر رفته‌اند تا نشان دهند چگونه ترجمه ماشینی می‌تواند زبان‌های از‌یادرفته را زنده کند. محدودیت استفاده آنها از روش‌های زبانی برای تکامل در طول زمان شناخته شده‌است.

هر زبانی می‌تواند به روش‌های خاصی تغییر کند. برای مثال، نمادهای موجود در زبان‌های مرتبط با توزیع‌های مشابه، کلمات مربوط به همان ترتیب حروف و امثالهم ظاهر می‌شوند. با این قوانین محدودسازی ماشین، کشف یک زبان ساده‌تر می‌شود، به شرطی که زبان مادری مشخصی باشد.

لو و همکارانش این تکنیک را با دو زبان از دست رفته نشان دادند. تحقیقات لو و سو در خط B و اوگاریتی (زبان از بین رفته سامی در شمال سوریه) توجهات زیادی را به خود جلب کرده است.

زبان‌شناسان می‌دانند که خط B نسخه اولیه‎ای از یونان باستان را کدگذاری می‌کند و خط اوگاریتی نسخه‌ای قدیمی از زبان عبری است که در سال ۱۹۲۹ کشف شد. تحولات زبانی اطلاعات و محدودیت‌هایی را تعیین کرده است، با این وجود، لو و همکاران قادر به ترجمه هر دو زبان با دقت قابل‌توجهی هستند.

آنها می‌گویند: «ما قادر به ترجمه دقیق و صحیح۳ / ۶۷درصد از خط B به یونانی بودیم. اولین تلاش ما برای کشف خط B به صورت اتوماتیک بود و تمام دانشی را که داشتیم در آن به کار بردیم. در این مقاله هیچ توضیحی درباره خط A وجود ندارد و جیامینگ لو و یوآن سو نیز درباره‌اش صحبتی نکرده‌اند.

با این وجود، آنها در مورد ترجمه زبانA فکر می‌کنند. هیچ‎کسی نمی‌داند که چه زبانی، خط A را رمزگشایی می‌کند. تلاش‌ها برای کشف آن در یونان باستان شکست‌خورده است. بدون زبان نمونه، تکنیک جدید کارساز نیست.

مزیت بزرگ رویکردهای مبتنی بر ماشین، امکان آزمایش یک زبان به سرعت بعد از زبان دیگری بدون توقف است. بنابراین ممکن است که لو و سو با روشی تحمیلی به‌سادگی هر زبانی را کشف و با استفاده از ترجمه ماشینی آن را ترجمه کنند. اگر این اتفاق بیفتد، موفقیت بزرگی خواهد بود، به طوری که حتی مایکل ونتریس از آن شگفت‌زده خواهد شد.

منبع

اکوسیستم استارتاپی

تامین سرمایه

اکوسیستم استارتاپی