پیکره متنی یا text corpus

در زبان‌شناسی پیکره‌ای، پیکرهٔ متنی یا پیکرهٔ واژگانی (به‌اختصار: پیکره) (به انگلیسیtext corpus, corpus) به مجموعه‌ای خام از داده‌های زبانیِ نوشتاری یا گفتاری گفته می‌شود که می‌توان در توصیف و تحلیل زبان از آن بهره گرفت، از جمله در ارزیابی‌ها و تحلیل‌های آماریِ زبان‌شناختی و نیز در فرهنگ‌نویسی، دستورنویسی، گویش‌شناسی و جز آنها.[1]

 

منبع

 

روش‌های فراهم ساختن پیکره

در گذشته، فراهم ساختن پیکره‌های زبانی برای تألیف فرهنگ بسیار وقت‌گیر، پرزحمت و پرهزینه بود؛ مثلاً علی‌اکبر دهخدا برای تألیف لغت‌نامه سالیان درازی متون منظوم و منثور زبان فارسی را سطربه‌سطر خواند و برگه‌های انبوهی حاوی واژه‌ها، شواهد و ارجاعات آنها فراهم آورد. مجموعهٔ داده‌های زبانی‌ای که دهخدا به روش سنتیِ برگه‌نویسی فراهم آورد، به‌لحاظ حجم، به‌ویژه درمورد متون کهن زبان فارسی، در آن زمان و حتی تا زمانهٔ ما، بی‌نظیر بوده و هست. امروزه، پیشرفت‌های شگرف بشر در زمینهٔ فناوری اطلاعات، به‌ویژه رایانه، استفاده از این ابزار را برای گردآوری داده‌های زبانی و تألیف فرهنگ‌های مختلف براساس این داده‌ها ناگزیر می‌سازد؛ چنان‌که در کشورهای پیشرفته، روش سنتی گردآوری داده‌ها به‌کلی متروک شده و فرهنگ‌های گوناگونی، ازجمله کوبیلد(COBUILD)، فرهنگ بیست‌جلدی آکسفورد و جز آنها براساس پیکره‌های زبانیِ رایانه‌ای تألیف یا تکمیل می‌گردند.[2]

  • اشتراک گذاری

همچنین ممکن است مطالب زیر را بخواهید بررسی کنید

نظرات

نظر شما چیه؟