تکنولوژی زبان چیست و چه وظایفی به‌عهده دارد؟

منبع خبر / مهر / فرهنگی و هنری / 04-12-1400

نخستین وظیفه سیستم تکنولوژی زبان شناسایی کلمات و سپس جملات سازنده متن است. این جمله در واقع، در اکثریت قریب به اتفاق موارد، واحد زبانی مرجع برای تحلیل است.

خبرگزاری مهر، گروه فرهنگ و اندیشه: سعید جهانپولاد متخصص زبان و ادبیات تطبیقی ملل در گزارشی به بررسی تکنولوژی زبان پرداخته است. جهانپولاد، شاعر، محقق، مترجم و منتقد ادبی است. تاکنون ترجمه‌های مختلفی به قلم او روانه کتابفروشی‌ها شده که از آن جمله می‌توان به این عناوین اشاره کرد: «گزینه شاهکارهای هایکو معاصر جهان»، «منظومه چهار کوارتت: همراه با نقد و تفسیر» اثر تی اس الیوت، «شعر به وقت گرینویچ: مجموعه برگزیده شعر و شاعران معاصر جهان» و «فصل گل‌های سفید داوودی» اثر ناتسومه سوسه کی.

گزارش مورد اشاره برای انتشار در اختیار خبرگزاری مهر قرار گرفته است.

مشروح این‌گزارش در ادامه می‌آید:

امروزه در حوزه زبان بشری (زبان طبیعی و زبان‌های معین و...) در فضای اینترنت و جهان دیجیتالی و چگونگی ارتباطات بینا انسانی و بهره‌وری از این ماشین افزارهای و ابزارهای موجود و نیز با توجه به حجم فزاینده اطلاعات الکترونیکی موجود، هم در اینترنت و هم در شبکه‌های رسانه / مجازی و در نتیجه ناهمگونی شدید آرشیوهای اطلاعات (منابع ساختاریافته یا بدون ساختار و متغیرهای این منابع، شناسایی اطلاعات مرتبط و دسترسی به آنها موضوع پیچیده و بحران فزاینده‌ای را ایجاد کرده است، جزئیات مستند، تعدد فرمت‌های ثبت و ضبط و بارگذاری و کدگذاری، نشانه پردازی و نیز چند زبانه بودن آنها و…

بنابراین، در مواجهه با این فوران و تراکم اطلاعات و سرگردانی شناختی که در کاربران ایجاد نموده، اطلاعات و دانش مجازی در وهله نخست فرآیند حذف اطلاعات است. با تمایز قائل شدن بین گزینه‌های ممکن تفسیر و عمل و با آشکار کردن نوعی «نظم جدید» که در آن دامنه احتمالات تنها به بسیار کمتر از خطاها کاهش می‌یابد و بی‌نظمی موجود در داده‌های ذخیره شده در این اطلاعات خارجی را کاهش می‌دهد.

بنابراین دسترسی به اطلاعاتی که با نیازهای اطلاعاتی آن لحظه مطابقت داشته باشد بیشتر قابل استناد و اعتماد خواهد بود، فضای اینترنتی در واقع مکان نمادینی از این اختلالات و تراکم اطلاعاتی را بروز می‌دهد. رشد کمی اطلاعات در حوزه‌های متعدد آن (وب‌سایت‌ها، پایگاه‌های اطلاعاتی، مدیاها، ژورنال‌ها وبلاگ‌ها، ویکی‌ها، و غیره) باعث ایجاد احساس عدم اطمینان می‌شود که به وضعیت شناختی هر کاربر عادی و حتی بیشتر از آن به کتاب‌خوان‌های حرفه‌ای و کتابدارها هم سرایت می‌کند این حس غیر قابل اطمینان در این فضای متراکم، نیاز و مسئولیت مؤسسات تکنولوژی زبان انسان و پاسداری، حفاظت از این اطلاعات را به یک استراتژی اصولی این مؤسسات تکنولوژیکی زبانی مبدل کرده است، تلاش برای ایجاد معنا از این آشفتگی اطلاعاتی و کمک به کاربر اعم از حرفه‌ای یا غیر حرفه‌ای برای جهت دهی به دانش بینا رشته‌ای‌اش چالش جدی این فناوری است و نیز بازنمایی و کاربردی کردن استنادی اسناد و صحت منابع اطلاعاتی آن محسوب می‌شود پرسشی بدیهی که چندان تازه نیست مطرح است، چگونه می‌شود با توجه به حجم فزاینده ثبت اسناد و اطلاعات الکترونیکی موجود و ناهمگونی میان آنها، اسناد، اطلاعات و منابع اصلی آنها را باز شناخت و از اطمینان یابی و اعتماد به این دانش با سندیت منابع و ارجاعاتش استفاده و بهره‌وری کرد و به چه روش و روش‌هایی نوینی می‌توان تکنولوژی و فناوری زبانی آنان به طرزی قابل اعتماد بدل کرد، نخست باید بدانیم تکنولوژی زبان چیست؟

تکنولوژی زبان

تکنولوژی زبان، حوزه از فناوری هوش مصنوعی Al به ماشین افزارهای الکترونیکی و دیجیتالی توانایی خواندن ، تجزیه و تحلیل و پردازش و محاسبه زبان انسان را می‌دهد، نمونه رایج آن عبارتند از تشخیص خودکار زبان گفتار، ترجمه و برگردان زبان، طبقه بندی، تجزیه و تحلیل ریشه شناسی کلمات و مفاهیم آن، محاسبات زنجیرها صداها و تحلیل و طبقه بندی آنها و معادل سازی، نحو و تجزیه بلاغی و صنعت گرامری و مورفولوژی زبان که توسط موتورهای پر قدرت و هوش مصنوعی به جذب، ذخیره، محاسبه، پردازش و… زبان انسانی می‌پردازد، تکنولوژی زبان، که معمولاً فناوری زبان انسانی (HLT ) نامیده می‌شود، روش‌هایی را جهت مطالعه بینارشته‌ای زبان انسانی به واسطه برنامه‌های رایانه‌ای یا ماشین افزارهای الکترونیکی مهیا کرده که در واقع به تجزیه و تحلیل، اصلاح ، محاسبه و جنبه‌های کاربردی زبان، متون، اسناد و گفتار انسانی میسر می‌سازد، تکنولوژی زبان اغلب به دانش گسترده و بینا رشته‌ای در مورد زبان شناسی، علوم رایانه روان زبانشناسی، تکامل شناختی زبان باستانی و… نیاز مبرم دارد که شامل پردازش زبان طبیعی (NLP) و زبان شناسی محاسباتی (CL) از یک سو، بسیاری از جنبه‌های کاربردگرا از این موارد نیز هست و نیز جنبه‌های سطح پایین‌تر مانند رمزگذاری و فناوری گفتاری، شفاهی، اصطلاحی، ترجمه و… زبان انسانی را نیز در بر می‌گیرد و توسعه و کاربری آنها در بهره‌وری از دانش زبانی دستگاه‌های الکترونیکی، دیجیتالی و مصنوعات و… در زندگی امروزی و آینده بشری را مورد مطالعه علمی قرار می‌دهد.

تکنولوژی زبان در واقع روش‌هایی را ارائه می‌دهد که بر پردازش محتوای اطلاعاتی اسناد، متون با در نظر گرفتن سطوح صرفی، نحوی و معنایی آنها تمرکز یافته و قابل پردازش، محاسبه، تجزیه، تحلیل و مقایسه، ترجمه و اصلاح و توسعه استتکنولوژی زبان در واقع روش‌هایی را ارائه می‌دهد که بر پردازش محتوای اطلاعاتی اسناد، متون با در نظر گرفتن سطوح صرفی، نحوی و معنایی آنها تمرکز یافته و قابل پردازش، محاسبه، تجزیه، تحلیل و مقایسه، ترجمه و اصلاح و توسعه است.

روش نخست

از نظر تاریخی نخستین رویکرد تکنولوژی زبان به آغاز قرن بیستم و انفجار مستندات متنی بر می‌گردد، این پروژه شامل طراحی و برنامه‌ریزی زبان‌های مستند است که در دهه پنجاه و شصت میلادی انجام پذیرفت، اختلال در فناوری دیجیتالی سیستم‌های اسنادی مستلزم توسعه روش‌ها و ابزارهایی بود که بتواند خودکارسازی، نمایه سازی کنترل شده را ارائه دهد، نخستین پایگاه اطلاعاتی و داده‌ایی کتاب‌شناختی رایانه‌ای تأسیس شد، پروژه‌ای که شامل ساختن نمایشی از یک سند مکتوب با انتخاب توصیف گره‌ای آن که در یک زبان مستند از پیش تعیین و تعریف شده که شامل (فهرست توصیف‌گرها، فرهنگ اصطلاحات، فرهنگ دیکشنری و…) بود، این نمایه سازی از بهره‌وری توصیف گره‌ای غیر رسمی و غیر مجاز ممانعت به عمل می‌آورد و قصد داشت نمایش همگن اسناد را تضمین نماید، در هنگام جست‌وجو و پرسمان از مبنای استنادی اسناد، معمولاً کار نمی‌کرد و متوقف می‌ماند، اگر چه آزمایشات بسیاری بعد آن صورت گرفت و درگاه‌های و شبکه‌های برای باز تعریف و یا انتقال آن به شبکه‌های مرتبط تعبیه شد اما این خلأ و نقصان همچنان برای دسترسی به مبنای اطلاعات و صحت و سقم آن متخصصان را وا داشت که به ابزارها و شبکه‌های استنادی و منابع قابل دسترس‌تر فکر کنند و ابداعات موفق آمیزی داشته باشند

روش دوم

به طور گسترده به واسطه چند موتور جست‌وجوگر در فضای وب سایتی رایج شد، نشان دادن اسناد که توسط یک موتور پویشی و خزنده که با اتکا به کلمات موجود در اسناد شبکه‌ای از اطلاعات نمایه سازی شده رایگان را در اختیار کاربر قرار می‌داد که می‌توانست به صورت خودکار و با استفاده از کلمات موجود اطلاعات اسناد را در نمایشگر جست‌وجو کند و مهم‌ترین عنوان‌ها انتخاب شده از طریق این موتور پویشی و توصیف‌گر را بر اساس تکنیک‌های آماری که امکان محاسبه واجی، آوایی و موسیقیایی در سطوحی از اسناد را قابل رؤیت کند، در صفحه نمایش در اختیار کاربر قرار دهد، در این رویکرد شبکه‌ای از کاراکترهای نمایه‌ای (توکن‌ها) را شناسایی می‌کرد و آنها را از ذخیره‌گاه، آرشیو آورده و نمایش می‌داد، این رویکرد چنان نبود که بتواند واحدهای معنایی و مفاهیم آن را در هر گونه برخورد زبانی مستثنی کرده و تفکیک دهد، در واقع نقص موجود این بود که پدیده‌های همنام، چند معنایی یا مترادف به صورت کلی مورد پردازش قرار نگرفته بود و در این سیستم تعبیه نشده بود، برای چنین نقص عمده‌ای که محدودیت برانگیز بود تکنولوژی زبان روش‌های نوینی را بر اساس پردازش محتوایی و کاربردی شدن آنها در اطلاعات و اسناد در سطوح صرفی، نحوی، معنایی زبان در نظر گرفت.

روش سوم

که در تکنولوژی زبان و در این سیستم فراگیر به سرعت انجام پذیرفت عبارت بود از ساختاردهی، و قالب بندی منابع اطلاعاتی به ویژه در وب سایت‌ها و منابع لینکی آنها، این روش به طور صریح روابط معنایی و محتوایی واحدهای اطلاعاتی مختلف را دسته بندی نمود و مجموعه اسناد که حاوی شبکه‌ای از معناها و محتوای مشترک با اتکا از ابر داده‌ها بر اساس عمدتاً زبان XML و انواع دیگر آن به ساختار دهی و ساماندهی رسمی و دقیق‌تر این اطلاعات و اسناد از این روش به چالش جدی وب معنایی و جستجوگر معنایی و محتوای در تکنولوژی زبان تبدیل شد مثلاً اینکه تعریف و تفسیر خود سند، یا طرح‌واره‌های آن اسناد که توصیفات معنایی را از اسناد با درجه بندی‌ها محتوای شروع به طبقه بندی کرد و در واقع برای تسهیل جست‌وجوگر اطلاعات می‌توانست به صورت یک جستجوگر مکمل در طول و عرض اسناد و اطلاعات با ابر داده‌ها و نمایه سازی آنها در سطح نمایشگر به کاربر زبانی کمک شایانی نماید، چنانکه یک واسطه در زبان طبیعی در زیر شاخه‌های معنایی و محتوای آنها می‌توانست جست‌وجو را آغاز کند و دسترسی را تسهیل نماید، این روش بر اساس تکنولوژی آماری از زبان تهیه و تنظیم شده بود، در نهایت سیستم‌های پشتیبانی و بازیابی اطلاعات آماری زبان بیشتر ماژول‌های زبانی را به صورت ساختاری و یکپارچه سازماندهی کرده بودند که بتواند مکمل‌ها را در اختیار کاربر بگذارد.

روش‌های کاربردی و سطوح آن

طبقه بندی، دسته بندی اسناد متنی برای استخراج دانش، نمایه سازی خودکار یا خلاصه سازی آنها عملی است که اهمیت آن مدت که مورد توجه قرار گرفته، این سیستم‌های پردازش خودکار متون مجموعه‌هایی از متون را به‌عنوان ورودی می‌گیرند که آنها را برای به دست آوردن یک یا چند نمایش از معنا و محتوا به عنوان خروجی تبدیل می‌کنند. وظیفه اصلی این عملیات تبدیل کردن اسناد مبهم بالقوه به نمایش‌های بدون ابهام (به جز ابهامات ساختاری اولیه) برگرداندن و ترجمه (تعریف و تسهیل) آنهاست، مسئله «درک» یک سند متنی که در بطن این ماشین افزار تعبیه شده، وظیفه پردازش خودکار زبان (NLP) است بنابراین به دو مشکل عمده اشاره دارد اولی مربوط به نمایش معنای متن و دومی در نظر گرفتن دنیای دانش مرجع و منبع اسناد و متون است، به همین ترتیب یک سیستم NLP می‌تواند تجزیه و تحلیل، توصیف را در سطح کلمه آغاز کند تا ماهیت و ساختار صرفی آن را تعیین کند.

نخستین وظیفه سیستم تکنولوژی زبان شناسایی کلمات و سپس جملات سازنده متن است. این جمله در واقع، در اکثریت قریب به اتفاق موارد، واحد زبانی مرجع برای تحلیل استدر سطح جمله نیز چنین تجزیه و تحلیلی را برای تعیین ترتیب کلمه (کلمات) ساختار نحوی و معنای کلی جمله را بررسی نماید، این روش می‌تواند پیش از آنکه در نهایت به پس زمینه‌ها و پس نوشت‌ها و خود متن برسد محیط و محدوده محتوا و معناها و یا حوزه مرجع و منبعی یک کلمه یا یک عبارت را با توجه به یک زمینه یا یک زمینه معنای خاصش یا یک مفهوم خاص‌تر محاسبه و توصیف نماید و در واقع از کوچک‌ترین جز حرفی و صامت، مصوتی یک کلمه تا قرار گرفتن آن در رکن‌ها و سطوح کلمات و یا جملات، یا عبارات دیگر در یک زمینه‌های خاص یا بر اساس یک کاربرد خاص‌تر آنها در متون را منعکس کند، برای انجام یک عملیات سیستم زبانی NLP، ما معمولاً (برای زبان نوشتاری) شش سطح پردازش را متمایز می‌کنیم:

سطح تقسیم بندی به کلمات و جملات

سطح صرفی که به نحوه تشکیل واحدهای واژگانی در واحد حرفی (واک، رکن، پایه و برش، ترکیب و..) می‌پردازد و هدف آن تعیین مقوله گفتمان واحد مورد نظر است.

سطح نحوی که ساختار جملات را با توجه به دستور زبان مرجع تعیین می‌کند.

سطح معنایی که به معنای کلمات و جملات می‌پردازد.

سطح گفتمانی که هدف آن شناسایی ساختار گفتمانی و استدلالی سند است.

سطح عمل‌گرایانه‌ای یا کنشی و کاربردی زبان است که با دنیای دانش مرجع سروکار دارد، یعنی اطلاعات برون‌زبانی را در نظر می‌گیرد که می‌تواند به درک متن کمک کند.

این تقسیم‌بندی به ۶ سطح البته کاملاً تئوری است. لزوماً با حالت عملکرد واقعی همه نرم افزارهای NLP مطابقت ندارد. برخی از سطوح دوم، سوم و چهارم را در یک مرحله پردازش واحد قرار می‌دهد در حالی که بعضی دیگر از مراحل ذکر شده را در نظر نمی‌گیرند (به عنوان مثال، سطح عمل گرایانه و بینارشته‌ای به ندرت در نظر می‌گیرد، اما دانش و ماهیت عمل گرایانه را می‌تواند در مرجع آنها ادغام کند و لغت نامه‌ها، فرهنگنامه‌ها و به ویژه دانش تجاری و…) به صورت زیر مجموعه‌ها به شبکه‌های مرتبطش ارجاع دهد، در نهایت، الگوریتم‌های مورد استفاده برای سطوح مختلف تحلیل، همه به یک شکل پیش نمی‌روند (تحلیل رو به پایین یا رو به بالا، یا بدون پس گرد و غیره) این امکان البته در حال توسعه و بارآوری مجدد هست که شبکه‌ای فعال‌تر و پر سرعت با دسترسی آسان‌تر را به نمایش بگذارد.

البته امروزه عملکرد چهار سطح نخست را که در حال حاضر با پیشرفته‌ترین سیستم‌های اینترنتی و دیجیتالی برنامه نویسی و پردازش شده این فقدان با توسعه فناوری دیجیتالی و سیستم‌های تجاری نیز در اکثر کشورهای اروپایی و آمریکا سازماندهی شده که با توسعه سیستم تکنولوژی زبانی مطابقت تام دارد، نخستین وظیفه سیستم تکنولوژی زبان شناسایی کلمات و سپس جملات سازنده متن است. این جمله در واقع، در اکثریت قریب به اتفاق موارد، واحد زبانی مرجع برای تحلیل است. از آنجایی که یک متن مجموعه‌ای از گزاره‌های جدا شده از یکدیگر نیست، بلکه مجموعه‌ای از گزاره‌های به هم پیوسته و ارجاع شده است، به این معنا که بیان شده و برای یکدیگر «معنا» دارند، در این سیستم به سنجش و پردازش هر کلمه، جمله، عبارات یک متن و توسعه و هم پیوندی میان آنها برای رسیدن به یک اجماع نظری و مفاهیم کلی در مجموعه و زیر مجموعه ارجاعی و منبعی آنها به‌کار می‌رود.

البته بحث از تکنولوژی زبان بخاطر دانش بینارشته‌ای و فناوری رایانه، علوم دیجیتالی نیاز به دانش بسیار وسیع و پیچیده، فنی از نوع عملکرد این سیستم‌ها و هوش مصنوعی و رباتیک دارد و عاملیت علوم فناوری ارتباطات و رایانه‌ای و سیستم‌های عامل، پشتیبانی پروژه‌ای بسیار پیچیده، تخصصی و فنی است. اما قصد نگارنده از نوشتن این مقال در حد نیاز به توجه مؤسسات فناوری اطلاعات و دانش بینارشته‌ای از تکنولوژی زبان است، ضرورتی که ایجاب می‌کند برای بقا زبان فارسی و جلوگیری از انقراض گونه‌گی زبان‌های در حال خفتگی در سرزمین ایران، چنانکه گفته آمد، نیاز به این سیستمانه و فناوری زبان در مؤسسات دانشگاهی و ملی، یک ضرورت اجتناب ناپذیر تلقی می‌شود، زبان فارسی به گفته استاد داریوش آشوری در کتاب (زبان باز) و مدرنیته دارای آن ظرفیت‌ها و پتانسیل‌های غنی در خود هست که می‌تواند با مقاومت و پرورش خود در برابر هجوم مدرنیته و امپریالیسم زبانی و زبان مدرنیته، به هضم و بروزرسانی خود با اتکا به این فناوری و سیستم تکنولوژیکی زبانی دست یابد.

منابع

• Language Technology, its applications, and the undergraduate units on offer by the Centre for Language Technology.

• The site of the Australasian Language Technology Association (ALTA). It contains a mailing list and further information about language technology in Australia and New Zealand.

• A Survey of the State of the Art in Human Language Technology. You can get a feel for the broad range of issues addressed in language technology research by browsing the contents of this online survey.

• کتاب زبان باز _پژوهشی در زبان و مدرنیته، نوشته داریوش آشوری، سال ۱۳۸۷ نشر مرکز چاپ اول