ان-گرم
در حوزههای زبانشناسی رایانشی و احتمالات، n-gram دنبالهای پیوسته از n قلم در یک دنبالهٔ معین از متن یا کلام است. بسته به کاربردشان، اقلام میتوانند واج، هجا، حرف، واژه، یا جفتباز باشند. n-gramها معمولاً از یک پیکرهٔ متنی یا شفاهی جمعآوری میشوند. وقتی اقلام مورد مطالعه واژه باشند، معمولاً به n-gramها «شینگلز» گفته میشود.
به n-gram با اندازههای یک، دو، و سه به ترتیب تکگرم، دوگرم، و سهگرم گفته میشود و نامگذاری به همین منوال ادامه مییابد.
کاربرد
مدل n-gram نوعی مدل زبانی احتمالاتی است که برای پیشبینی قلم بعدی در دنبالهای به شکل مرتبهٔ (n − 1) مارکوف به کار میرود. امروزه مدلهای n-gram در احتمالات، نظریهٔ ارتباطات، زبانشناسی رایانشی (مثلاً پردازش آماری زبان طبیعی)، زیستشناسی رایانشی (مثلاً آنالیز دنباله زیستشناختی) و فشردهسازی دادهها کاربرد گسترده دارند. دو مزیت مهم مدلهای n-gram (و الگوریتمهای وابسته) سادگی و میزانپذیری است؛ در nهای بزرگ، مدل میتواند محتوای بیشتری را با بدهبستان مشخص زمان–مکان ذخیره کند، و آزمایشهای کوچک را بهطور بهینه scale up کند.
مثال
حوزه | واحد | نمونه | دنبالهٔ ۱-گرم | دنبالهٔ ۲-گرم | دنبالهٔ ۳-گرم |
---|---|---|---|---|---|
مرتبهٔ مدل مارکوف حاصله | ۰ | ۱ | ۲ | ||
تعیین توالی پروتئین | اسید آمینه | … Cys-Gly-Leu-Ser-Trp … | …، Cys، Gly، Leu، Ser، Trp، … | …، Cys-Gly، Gly-Leu، Leu-Ser، Ser-Trp، … | …، Cys-Gly-Leu، Gly-Leu-Ser، Leu-Ser-Trp، … |
تعیین توالی دیانای | جفتباز | …AGCTTCGA… | …، A، G، C، T، T، C، G، A، … | …، AG، GC، CT، TT، TC، CG، GA، … | …، AGC، GCT، CTT، TTC، TCG، CGA، … |
زبانشناسی رایانشی | نویسه | توانا بود هر که دانا بود | ت، و، ا، ن، ا، _، ب، و، د، _، ه، ر، _، ک، ه، _، د، ا، ن، ا، _، ب، و، د | تو، وا، ان، نا، ا_، _ب، بو، ود، د_، _ه، هر، ر_، _ک، که، ه_، _د، دا، ان، نا، ا_، _ب، بو، ود، د_ | توا، وان، انا، نا_، ا_ب، _بود، بود، ود_، د_ه، _هر، هر_، ر_ک، _که، که_، ه_د، _دا، دان، انا، نا_، ا_ب، _بو، بود |
زبانشناسی رایانشی | واژه | توانا بود هر که دانا بود | توانا، بود، هر، که، دانا، بود | توانا بود، بود هر، هر که، که دانا، دانا بود | توانا بود هر، بود هر که، هر که دانا، که دانا بود |
منابع
- Wikipedia contributors, "N-gram," Wikipedia, The Free Encyclopedia, https://en.wikipedia.org/w/index.php?title=N-gram&oldid=835900923 (accessed May 29, 2018).