پیکره متنی یا text corpus

در زبان‌شناسی پیکره‌ای، پیکرهٔ متنی یا پیکرهٔ واژگانی (به‌اختصار: پیکره) (به انگلیسیtext corpus, corpus) به مجموعه‌ای خام از داده‌های زبانیِ نوشتاری یا گفتاری گفته می‌شود که می‌توان در توصیف و تحلیل زبان از آن بهره گرفت، از جمله در ارزیابی‌ها و تحلیل‌های آماریِ زبان‌شناختی و نیز در فرهنگ‌نویسی، دستورنویسی، گویش‌شناسی و جز آنها.[1]

 

منبع

 

روش‌های فراهم ساختن پیکره

در گذشته، فراهم ساختن پیکره‌های زبانی برای تألیف فرهنگ بسیار وقت‌گیر، پرزحمت و پرهزینه بود؛ مثلاً علی‌اکبر دهخدا برای تألیف لغت‌نامه سالیان درازی متون منظوم و منثور زبان فارسی را سطربه‌سطر خواند و برگه‌های انبوهی حاوی واژه‌ها، شواهد و ارجاعات آنها فراهم آورد. مجموعهٔ داده‌های زبانی‌ای که دهخدا به روش سنتیِ برگه‌نویسی فراهم آورد، به‌لحاظ حجم، به‌ویژه درمورد متون کهن زبان فارسی، در آن زمان و حتی تا زمانهٔ ما، بی‌نظیر بوده و هست. امروزه، پیشرفت‌های شگرف بشر در زمینهٔ فناوری اطلاعات، به‌ویژه رایانه، استفاده از این ابزار را برای گردآوری داده‌های زبانی و تألیف فرهنگ‌های مختلف براساس این داده‌ها ناگزیر می‌سازد؛ چنان‌که در کشورهای پیشرفته، روش سنتی گردآوری داده‌ها به‌کلی متروک شده و فرهنگ‌های گوناگونی، ازجمله کوبیلد(COBUILD)، فرهنگ بیست‌جلدی آکسفورد و جز آنها براساس پیکره‌های زبانیِ رایانه‌ای تألیف یا تکمیل می‌گردند.[2]

  • اشتراک گذاری

همچنین ممکن است مطالب زیر را بخواهید بررسی کنید

نظرات

نظر شما چیه؟

مرجع تخصصب پردازش زبان فارسی

NLP Farsi .ir

خبرنامه

برای اطلاع از به روز رسانی های جدید، اطلاعات و غیره، در خبرنامه ما مشترک شوید.