بخشی از متن:مدلسازی زبان بخش اصلی بسیاری از وظایف مرتبط با پردازش زبان طبیعی است.در این نوشتار ما بطور خلاصه با این مبحث آشنا خواهیم شد.
مدلسازی زبان بصورت ساده به عمل پیش بینی کلمه بعدی در یک دنباله داده شده گفته میشود. بعنوان مثال جمله “من در حال نوشتن یک …” را در نظر بگیرید . کلمه بعدی که میتواند در ادامه بیایید میتواند “نامه”، “جمله” یا “پست وبلاگ” و… باشد. بعبارت دیگر به ازای کلمات ارائه شده x(1) و x(2) و… x(t) مدلهای زبانی توزیع احتمالاتی کلمه بعدی (t+1)x را محاسبه میکنند.
پایه ای ترین مدل زبانی مدل n-gram است.n-gram یکی از رایج ترین شیوه های مدلسازی زبانی آماری است. یک n-gram مجموعه ای از n کلمه پشت سر هم است. بعنوان مثال به ازای جمله “من در حال نوشتن یک …” ما با n-gram های زیر مواجه هستیم :
• unigram : “من”, “در”,”حال”, “نوشتن”, “یک”
• bigram : “من در”, “در حال”, “حال نوشتن” ,” نوشتن یک”
• trigram : “من در حال”, “در حال نوشتن” , “حال نوشتن یک”
• ۴-gram : “من در حال نوشتن” , “در حال نوشتن یک”
• ۵-gram : ” من در حال نوشتن یک”
برچسب ها:
مدلينگ