در سال ۱۸۸۶، باستانشناس انگلیسی، آرتور ایوانز(Arthur Evans)، در یک سنگ باستانی با مجموعهای عجیب از نوشتهها برخورد کرد که به زبانی ناشناخته نوشته شده بود. این سنگ از جزیره مدیترانهای کرت پیدا شده بود که بزرگترین جزیره یونان است. آرتور ایوانز برای به دست آوردن مدارک بیشتر به سرعت راهی آنجا شد.
او خیلی زود سنگها و لوحهای زیادی را با خطوط یکسان کشف کرد که قدمتشان به سال۱۴۰۰ پیش از میلاد میرسد. سنگنوشتههای اکتشافی آرتور ایوانز یکی از قدیمیترین شکلهای نوشتاری کشفشده تاکنون است.
براساس استدلال ایوانز، این شکل نوشتاری و فرم خطی آن از خراش اجسام سخت به وجود آمده که متعلق به دوران ابتدایی رشد هنر است و همین مسئله اهمیت این زبان را در تاریخ زبانشناسی تعیین میکند. آرتور ایوانز و دیگر زبانشناسان بعد از مدتی ثابت کردند که سنگها و لوحها با دو خط مختلف نوشته شدهاند.
قدیمیترین آنها خطی به نام A است که از۱۸۰۰ تا ۱۴۰۰ پیش از میلاد رواج داشته است. در آن زمان جزیره کرت تحت سلطه تمدن عصر برنز بود. خط دیگر را به خط B میشناسند، این خط جدیدتر از خط A است ومربوط به پس از ۱۴۰۰ پیش از میلاداست؛ زمانی که جزیره توسط تمدن مینسیها از سرزمین اصلی یونان فتح شد.
ایوانز و دیگران سالها تلاش کردند که متن قدیمی را کشف کنند اما زبانهای از دست رفته در مقابل همه تلاشها مقاومت کردند. این مشکل تا سال ۱۹۵۳ حلنشده باقی ماند تا اینکه زبانشناس آماتوری به نام مایکل ونتریس(Michael Ventris) برای خط B رمزگذاری کرد.
راهحل او براساس دو پیشرفت قطعی ساخته شد؛ اول، مایکل ونتریس حدس زد که بسیاری از کلمات تکراری در واژگان خطی B نام مکانهایی در جزیره کرت هستند و معلوم شد که این حرف کاملا صحیح است.
مزیت بزرگ رویکردهای مبتنی بر ماشین، امکان آزمایش یک زبان به سرعت بعد از زبان دیگری بدون توقف است. بنابراین ممکن است که لو و سو با روشی تحمیلی بهسادگی هر زبانی را کشف و با استفاده از ترجمه ماشینی آن را ترجمه کنند
دومین موفقیت مایکل ونتریس فرضیهای بود که درباره مکان نوشتهها مطرح کرد. براساس حدسیات او، نوشتههای ثبتشده در یک فرم اولیه متعلق به یونان باستان است. این بینش بلافاصله به او اجازه داد تا کل زبان را کشف کند.
در این فرآیند، ونتریس نشان داد که زبان یونانی باستان، اولینبارچند قرن پیش از زمانی که تصور میشد، ظاهر شد. کار ونتریس دستاورد بزرگی بود، اما بیشتر نوشتههای باستانی باقیمانده به خطA همواره یکی از بزرگترین مشکلات در زبانشناسی تا امروز هستند.
تصور پیشرفتهای اخیر که ممکن است در ترجمه ماشینی کمک کند، سخت نیست. در چند سال اخیر، مطالعه زبانشناسی با در دسترس بودن پایگاههای دادهای گسترده دچار تحولات بسیاری شده و تکنیکهایی برای یادگیری زبان ماشین به وجود آمدهاست.
در نتیجه، ترجمه ماشینی از یک زبان به زبان دیگری تبدیل به امری عادی شدهاست. هرچند ترجمه ماشینی بینقص نیست، ولی این روشها توانستهاند راههای کاملا جدیدی را برای تفکر درمورد زبان فراهم کنند.
جیامینگ لو (Jiaming Luo) و رجینا بارزیلی (Regina Barzilay)، محققان MIT و یوآن سو (Yuan Cao) از آزمایشگاه هوش مصنوعی گوگل در مانتین ویو کالیفرنیا کارهای زیادی را در زمینه ترجمه زبانها انجام دادهاند. این تیم یک سیستم یادگیری ماشین را توسعه داده که قادر به رمزگشایی زبانهای از دست رفته بوده است. آنها با استفاده از این سیستم،
خطB را رمزگشایی کردهاند، ترجمه خط B برای اولینبار به صورت خودکار انجام شده و رویکرد مورد استفاده آنها بسیار متفاوت از تکنیکهای ترجمه ماشینی استاندارد بود. ایده بزرگ پشت ترجمه ماشینی، درک ارتباط کلمات با یکدیگر با روشهای مشابه بدون در نظر گرفتن زبان درگیر است.
بنابراین، این فرآیند با نگاشت این روابط برای یک زبان خاص آغاز میشود که نیازمند پایگاه دادههای متنی بزرگی است. سپس ماشین متن را جستوجو میکند تا ببیند که هر کلمه در کنار کلمه دیگر چگونه ظاهر میشود. این الگوی ظاهری، امضای منحصربهفردی است که کلمه را در فضای پارامتری چندبعدی تعریف میکند.
در واقع، کلمه را میتوان به عنوان بردار درون این فضا تصور کرد. این بردار به عنوان یک محدودیت قدرتمند در نحوه ظاهرشدن کلمه در هر ترجمه ماشینی عمل میکند. این بردارها از برخی قوانین ساده ریاضی پیروی میکنند.
به عنوان مثال، «پادشاه مرد + زن = ملکه» و جمله میتواند به عنوان مجموعهای از بردارها عمل کند که از یکی پس از دیگری به منظور شکلدهی به نوع مسیر در این فضا دنبالهروی یکدیگر هستند. مهمترین بینش ترجمه ماشینی این است که کلمات در زبانهای مختلف همان نقاط را در فضاهای پارامتری مربوطه اشغال میکنند.
این امر امکان نقشه کامل یک زبان را با یک تناظر یک به یک فراهم میکند. به این ترتیب فرآیند تبدیل جملات به فرآیند پیداکردن مسیرهای مشابه از طریق این فضاها تبدیل میشود. دستگاه هرگز نیاز به دانستن معنای جملات ندارد.
این فرآیند وابسته به مجموعه دادههای بزرگ است، اما چند سال پیش گروهی از محققان آلمانی نشان دادند که چگونه یک رویکرد مشابه با پایگاهدادههای بسیار کوچکتر میتواند به ترجمه بیشتر زبانهای نادر کمک کند که فاقد پایگاههای داده بزرگ هستند.
ترفند آنها یافتن راهی متفاوت برای محدودکردن رویکرد ماشینی است که به پایگاهداده وابسته نیست. در حال حاضر، لو و سو از پروژه گروه آلمانی فراتر رفتهاند تا نشان دهند چگونه ترجمه ماشینی میتواند زبانهای ازیادرفته را زنده کند. محدودیت استفاده آنها از روشهای زبانی برای تکامل در طول زمان شناخته شدهاست.
هر زبانی میتواند به روشهای خاصی تغییر کند. برای مثال، نمادهای موجود در زبانهای مرتبط با توزیعهای مشابه، کلمات مربوط به همان ترتیب حروف و امثالهم ظاهر میشوند. با این قوانین محدودسازی ماشین، کشف یک زبان سادهتر میشود، به شرطی که زبان مادری مشخصی باشد.
لو و همکارانش این تکنیک را با دو زبان از دست رفته نشان دادند. تحقیقات لو و سو در خط B و اوگاریتی (زبان از بین رفته سامی در شمال سوریه) توجهات زیادی را به خود جلب کرده است.
زبانشناسان میدانند که خط B نسخه اولیهای از یونان باستان را کدگذاری میکند و خط اوگاریتی نسخهای قدیمی از زبان عبری است که در سال ۱۹۲۹ کشف شد. تحولات زبانی اطلاعات و محدودیتهایی را تعیین کرده است، با این وجود، لو و همکاران قادر به ترجمه هر دو زبان با دقت قابلتوجهی هستند.
آنها میگویند: «ما قادر به ترجمه دقیق و صحیح۳ / ۶۷درصد از خط B به یونانی بودیم. اولین تلاش ما برای کشف خط B به صورت اتوماتیک بود و تمام دانشی را که داشتیم در آن به کار بردیم. در این مقاله هیچ توضیحی درباره خط A وجود ندارد و جیامینگ لو و یوآن سو نیز دربارهاش صحبتی نکردهاند.
با این وجود، آنها در مورد ترجمه زبانA فکر میکنند. هیچکسی نمیداند که چه زبانی، خط A را رمزگشایی میکند. تلاشها برای کشف آن در یونان باستان شکستخورده است. بدون زبان نمونه، تکنیک جدید کارساز نیست.
مزیت بزرگ رویکردهای مبتنی بر ماشین، امکان آزمایش یک زبان به سرعت بعد از زبان دیگری بدون توقف است. بنابراین ممکن است که لو و سو با روشی تحمیلی بهسادگی هر زبانی را کشف و با استفاده از ترجمه ماشینی آن را ترجمه کنند. اگر این اتفاق بیفتد، موفقیت بزرگی خواهد بود، به طوری که حتی مایکل ونتریس از آن شگفتزده خواهد شد.