اهمیت جستجو در اسناد دیجیتال
امروزه با توجه به پیشرفت زیرساختهای دیجیتال و افزایش تعاملات انسانها در این بستر، روزانه حجم زیادی از مستندات در حوزههای مختلف در دسترس انسانها قرار میگیرد. علاوه بر این، مستندات جدید به صورت مداوم در حال تولید و اضافه شدن هستند که معمولا از اهمیت بالاتری نسبت به مطالب گذشته برخوردار هستند. در نتیجه، برای یافتن اطلاعات مورد نیاز در یک حوزهی خاص، با انبوهی از اطلاعات مختلف در فضای مجازی مواجه هستیم. از همین جهت یکی از نیازهای مهمی که کاربران آن را در تعامل با سامانههای الکترونیکی دنبال میکنند این است که با کمترین تلاش و جستجو بتوانند سند مورد نظر خود را در یک مجموعهی اسناد پیدا کنند. به سیستمی که این امر را محقق کند، موتور جستجوی هوشمند گفته میشود.
عملکرد سامانههای جستجوگر
عملکرد اصلی یک موتور جستجو بدین صورت است که کلمات کلیدی از متن ورودی استخراج میشود تا در قیاس با بانک اطلاعات منطبقترین مورد ارائه شود. گاهی اوقات متن ورودی برای جستجو با ابهاماتی همراه است که این ویژگی امر جستجو را با پیچیدگیهای بیشتری همراه میکند. از همین رو، استخراج اطلاعات مهم و مفید از متن ورودی نیازی هست که توسعهدهندگان موتورهای جستجو آنرا دنبال میکنند. معمولا این فرایند با نامهای متنکاوی، دادهکاوی متن، و کشف دانش در متن شناخته میشود. بطور کلی، فرایند متنکاوی شامل مراحل: جمعآوری اسناد، پیش پردازش، ساخت مدل، تجزیه و تحلیل الگو، و استخراج دانش از متن است. در اجرای این فرایندها باید به موارد زیادی دقت کرد که مهمترین آنها درک ارتباط کلامی بین کلمههای جمله، سابقه فعالیت کاربر، جستجوهای قبلی، موقعیت مکانی، زمان و انواع دیگر فراداده هستند. هرچقدر این فرایندها با دقت بالاتری صورت پذیرند، موتورهای جستجو نیت کاربر را از عبارت جستجو شده بهتر درک میکنند؛ و در نتیجه میتوانند نتیجهی بهتر و کاربردیتری را ارائه دهند.
سرویسهای جستجوگر سفارشیسازی شده
امروزه با پیشرفت زیرساختهای صنعت دیجیتال، شرکتها و سازمانهای بزرگ برای توسعه و بهبود عملکرد درون سازمانی و ارائه خدمات مناسب به مشتریان از موتورهای جستجوی محلی بهره میبرند. در واقع، سازمانها معمولا با حجم زیادی از اسناد روبرو هستند که داشتن یک سامانهی جستجوی شخصیسازی شده میتواند سرعت و کارایی عملیات سازمانها را در یافتن سند مورد نظر به طور چشمگیری افزایش دهد. از سوی دیگر مراجعهی رو به گسترش کاربران برای دریافت خدمات الکترونیکی از سازمان ها و یا کسب و کارها حجم عظیمی از سوالات را در خصوص نحوه استفاده از اطلاعات یا خدمات آنلاین بر میانگیزد. لازم به ذکر است که برای پاسخ به پرسشی که به زبان محاورهای مطرح شده باشد سیستم باید قادر باشد سوال را تحلیل و بررسی کند و نتیجه (ها)ی مناسب را از منابع بیابد. بنابراین استفاده از یک سرویس پرسش و پاسخ هوشمند به عنوان یک کاربرد متنکاوی در بخشهای مختلف سازمانها میتواند موجب ارتقای عملکرد آنها شود.
قابلیتهای مورد انتظار از سامانههای جستجوگر هوشمند
واضح است که رضایت کاربران از یک سرویس، وابسته به قابلیتهایی است که ارائه میشود. در ادامه لیستی از ویژگیهایی که معمولاً انتظار میرود یک سامانهی جستجوگر آنها را برآورده کند ارائه میشود:
- سرعت بالا و مقیاس پذیری: یک سرویس جستجو باید به گونهای طراحی شده باشد که بتواند با سرعت بالا نتایج جستجو را ارائه دهد. همچنین با افزایش حجم دادهها باید این قابلیت وجود داشته باشد که سرورهایی جهت افزایش مقیاس جستجو به راحتی به سیستم اضافه شوند؛
- استانداردسازی متن ورودی: معمولا متن وارد شده جهت جستجو با متون موجود در پایگاه اسناد تفاوتهای ساختاری دارد. در این زمینه، فرایندها و ابزارهای مختلفی در حوزهی پردازش متن وجود دارند که انتظار میرود سامانهی جستجوگر مجهز به این موارد باشد. در این مورد میتوان به: ۱- ریشهیابی (Stemming) که حالتهای مختلف یک عبارت (مثل مفرد یا جمع بودن آن) را پوشش میدهد، ۲- بهنجارسازی (Normalization) که جهت تبدیل علامتهای معنادار به کلمات (مانند تبدیل عدد به کلمات آن) و بالعکس استفاده میشود، ۳- قطعهبندی (Segmentation) که جهت بخشبندی متن ورودی به چند جملهی استاندارد استفاده میشود، ۴- جداسازی واژگان (Tokenization) که جهت بررسی کلمه به کلمه متن ورودی استفاده میشود، و ۵- تشخیص موجودیت اسمی (Name Entity Recognition) که جهت شناسایی اسم نهادهای مختلف موجود در متن کاربران (مانند اسامی، مکان ها، شهرها و …) استفاده میشود اشاره کرد؛
- استخراج کلیدواژهها و عبارات کاربر: گاهی متن مورد نظر حاوی کلیدواژههای یک یا چند کلمهای مختص یک کاربر است. در این موارد، انتظار میرود سامانهی جستجوگر کلیدواژهها و عبارات مختلفی که ممکن است در سابقهی جستجوی کاربر وجود داشته باشد را شناسایی میکند؛
- وزن دهی به کلمات مهم: انتظار میرود یک سرویس جستجوگر بتواند با توجه ماهیت هر کلمه در متن مورد نظر وزنهای مناسبی را برای کلمات در نظر بگیرد. وزن کلمات به اهمیت آن کلمات در هنگام جستجو می افزاید تا نتایج مرتبطتر در رتبهی بالاتری قرار گیرند؛
- نادیده گرفتن اشتباهات تایپی: انتظار میرود اشتباهات تایپی کاربر توسط جستجوگر نادیده گرفته شود تا در صورتی که هیچ نتیجهی مرتبطی برای متن مدنظر کاربر یافت نشود، سیستم نتایج نسبتا مشابه را ارائه دهد؛
- اولویتدهی به محتوای جدید: انتظار میرود نتایج یافت شده توسط جستجوگر بصورتی ارائه شود که نتایج تازهتر در رتبه بالاتری قرار گیرند؛
- اولویت دهی به محتوای مربوط به یک کاربر خاص: انتظار میرود که سرویس بتواند در صورت دریافت شناسهی کاربر، نتایج مرتبط به همان کاربر را در رتبه بالاتری قرار دهد؛
- ارائهی چندتایی نتایج یافت شده: طبق این قابلیت سامانهی مورد نظر باید بتواند همهی نتایج مرتبط یافت شده را ارائه دهد؛
- امکان صفحهبندی (Pagination) روی نتایج: گاهی لازم است که طی فرایند جستجو تنها بخشی از سند یافت شده که حاوی مطالب اصلی است به کاربر ارائه شود.
محصولات مجموعه فناپ
مجموعهی فناپ بهعنوان یکی از برترین اعضای سازمان نظام صنفی رایانهای کشور و برخوردار از گواهینامه رتبه اول سازمان برنامه و بودجه کشور، بر اساس مسئولیت خود در زمینه حمایت و توسعه طرحهای نوآورانه انفورماتیک در کشور، اقدام به توسعه سامانههای کاربردی و بهروز در زمینه هوش مصنوعی تحت برند آیفا (AIFA) نموده است. سرویس جستجوی هوشمند تیم هوش مصنوعی فناپ با عنوان «IntelliSearch» یکی از محصولات این مجموعه است. این سرویس بر پایه روشهای مختلف متنکاوی، موتور جستجوی هوشمندی را با قابلیتهای متنوع در اختیار کاربران قرار میدهد تا بتوان توسط آن سند فارسی مورد نظر را به راحتی در یک پایگاه اسناد جستجو و دریافت کرد. با استفاده از این سرویس میتوان بر اساس متن کوئری، نتایج مرتبط را در پایگاه داده جستجو و پاسخ مرتبط را ارائه کرد. همچنین، تیم آیفا برای جلب رضایت بیشتر کاربران در فرایند پرسش و پاسخ، محصولات «ChatBot» و «AudioBot» را بر پایهی سرویس IntelliSearch ارائه داده است. سرویس ChatBot فرایند پرسش و پاسخ را در یک محیط تعامل با یک ربات مجازی هوشمند تحت گفتگوی نوشتاری مهیا میکند. همچنین توسط سرویس AudioBot، کاربر میتواند پرسش خود را از طریق پیام صوتی به سامانه ارسال کند تا پاسخ ربات مجازی برای او ارائه شود. این دو محصول مکمل میتوانند فرایند پرسش و پاسش را برای کاربران جذاب و سرگرمکننده کنند.
نویسنده : “مرکز مطالعات و تحقیقات فناپ”
راه های ارتباطی:
Linkedin: fanap-aifa (linkedin.com/showcase/fanap-aifa)
Email: [email protected]