ماتریس‌های فاصله در فیلوژنی

ماتریس‌های فاصله در فیلوژنی طبق همان روش که فاصلهٔ غیر پارامتری قبلاً در میان داده‌های phenetic و به شکل ماتریسی از فاصله‌های دوتایی استفاده شده‌است به کار می‌رود. این فاصله‌ها بعداً طوری تطبیق داده می‌شود که بتواند یک درخت (یک فیلوگرام با طول شاخه‌های اطلاعاتی) تولید کند. ماتریس فاصله را می‌توان از منابع مختلفی بدست آورد.

به‌طور مثال: فاصلهٔ اندازه‌گیری شده (مثلاً از مطالعات ایمونولوژیکی)، تحلیل‌های مورفومتریک و فرمول‌های فاصله‌گذاری مختلف (مانند فاصلهٔ اقلیدسی) و پیاده کردن ان بر روی کاراکترهای مورفولوژیکی گسسته، یا فاصله‌های ژنتیکی برامده از توالی قطعات محدود. در مورد داده‌های کاراکترهای فیلوژنتیکی فاصلهٔ خام را می‌توان به سادگی و با شمارش تعداد دوتایی‌های متمایز در نواحی کاراکتری محاسبه کرد (فاصلهٔ منهتن).

روش‌های ایجاد ماتریس فاصله

روش‌های یافتن ماتریس فاصله در تحلیل‌های فیلوژنتیکی متّکی بر اندازه‌گیری فاصلهٔ ژنتیکی بین توالی‌های دسته‌بندی شده‌است بنابراین پیش نیاز این کار یک تطابق چندگانه توالی‌ها (multiple sequence alignment) است. فاصله معمولی به عنوان تابعی از تمایزها (mismatch) تعریف می‌شود و شکاف‌ها (gap) نیز به‌طور دلخواه حذف یا به عنوان تمایز در نظر گرفته می‌شود.

روش‌های فاصله‌گذاری سعی شان بر اینست که ماتریسی بسازند که فاصلهٔ هر جفت از توالی‌ها را مشخص کند. با استفاده از این اطلاعات درخت فیلوژنتیکی ساخته می‌شود که در ان توالی‌هایی که شباهت بسیار زیادی به هم دارند تحت ریشه‌های مشترک قرار می‌گیرند و طول شاخه‌ها نیز نمایانگر فاصلهٔ بین توالی هاست. ماتریس‌های فاصله بنابر الگوریتمی که برای ساختن شان به کار میرود می‌توانند هم درخت‌های ریشه دار بسازند و هم درخت‌های بدون ریشه.

آن‌ها همچنین مکررا به عنوان پایه‌ای برای انواع روش‌های پیش رونده (progressive) یا تکراری (iterative) تطابق چندگانه توالی‌ها (MSA) به کار میرود.ضعف اصلی روش‌های ماتریس فاصله عدم توانایی‌شان برای استفاده مناسب از اطلاعات مربوط به نواحی با تغییر بالای موضعی است که در میان زیر درخت‌های چندگانه مشاهده می‌شوند.

اتصال مجاور

روش‌های اتصال مجاور (N-J) تکنیک‌های عمومی خوشه بندی داده‌ها را با استفاده از فاصلهٔ ژنتیکی به عنوان یک متریک خوشه بندی، در مورد آنالیز توالی‌ها استفاده می‌کند. روش سادهٔ اتصال مجاور یک درخت بدون ریشه تولید می‌کند اما در این روش یک نرخ تکامل ثابت (ساعت مولکولی) در طی نسل‌های مختلف در نظر گرفته نمیشود. اما در روش UPGMA (روش جفت گروه بدون وزن با میانگین حسابی) درخت‌های ریشه دار تولید می‌شود و فرض را بر ثابت بودن نرخ تکامل میگذارند؛ در واقع درختی فرامتریک تولید می‌شود که در ان فاصله از ریشه تا هر سرشاخه یکسان است.

روش فیچ-مارگولیش

روش فیچ-مارگولیش یک متد کمترین مربعات وزندار را برای خوشه بندی بر مبنای فاصلهٔ ژنتیکی به کار می‌برد. توالی‌های بسیار نزدیک به هم در این روش وزن بیشتری می‌گیرند تا افزایش خطایی که در اندازه‌گیری فاصلهٔ بین توالی‌های دورتر رخ می‌دهد را جبران کند. داده‌هایی که به عنوان ورودی الگوریتم استفاده می‌شوند را باید پیش از استفاده نرمال کرد تا مانع بروز مشکلاتی شود که در محاسبه رابطه بین گروه‌های نزدیک و دور رخ می‌دهد. فاصله‌هایی که در این روش محاسبه می‌شوند باید خطی باشند، خطی بودن در اینجا به این معنی است که مقدار مورد انتظار برای مجموع طول دو شاخه جدا باید برابر با مجموع مقدار مورد انتظار طول آن‌ها باشد، ویژگی ای که تنها زمانی در مورد توالی‌های زیستی اعمال می‌شود که آن‌ها برای امکان جهش بازگشتی تطبیق داده شده باشند.

این تصحیح از طریق ماتریس‌های جانشانی مانند آنچه که از مدل تکاملی DNA، منسوب به junkes-cantor بدست می‌اید انجام می‌شود. تصحیح فاصله‌ها عملاً زمانی مورد نیاز است که نرخ تکامل در میان شاخه‌های مختلف متفاوت باشد.

معیار کمترین مربعات که در این روش استفاده می‌شود نسبت به روش اتصال مجاور از صحت بیشتر اما کارایی کمتری برخوردار است. در مواردی که هزینه‌های محاسباتی افزایش می‌یابد می‌توان از روش‌های اصلاحی دیگری نیز برای تصحیح همبستگی فاصله‌هایی که از توالی‌های بسیار نزدیک بدست می‌ایند استفاده کرد. یافتن درخت بهینهٔ کمترین مربعات در هر صورت یک مسئلهٔ NP-کامل است به همین دلیل روش‌های هیوریستیکی مشابه آنچه در تحلیل‌های ماکسیمم-پارسیمونی استفاده می‌شود در اینجا نیز برای جستجو در فضای درخت‌ها بکار میروند.

استفاده از اطلاعات تاریخ تکاملی

اطلاعات مستقل دربارهٔ روابط بین توالی‌ها یا گروه‌ها می‌تواند کمک کند تا حجم جستجو در فضای درخت‌ها کاهش یابد. کاربرد استاندارد روش ماتریس فاصله ما را با مسئله وجود حداقل یک توالی outgroup که فاصلهٔ دوری با توالی‌های فضای جستجو دارد روبرو می‌کند. این کاربرد می‌تواند به عنوان یک نوع کنترل تجربی محسوب شود. اگر outgroup به درستی انتخاب شده باشد انگاه شامل یک فاصله ژنتیکی بسیار بزرگ خواهد بود و بنابراین یک طول شاخهٔ بسیار بزرگتر نسبت به سایر توالی‌ها خواهد داشت و این مورد در همسایگی ریشهٔ یک درخت ریشه دار مشاهده خواهد شد. انتخاب یک outgroup مناسب مستلزم انتخاب یک توالی است که فاصلهٔ میانه‌ای را با توالی‌های مورد نظر داشته باشد داشتن رابطهٔ بیش از حد نزدیک غرض انتخاب outgroup را نقض می‌کند و همچنین فاصلهٔ بیش از حد دود باعث ورود خطا در تحلیل می‌شود باید احتیاط‌های لازم لحاظ شود تا موقعیت‌هایی پیش نیاید که در ان توالی‌ها از گونه‌هایی انتخاب شده‌اند که فاصلهٔ دوری از هم دارند اما ژنی که توسط توالی‌ها کد می‌شود در طی تغییرات نسل محفوظ مانده‌است. انتقال افقی ژن به ویژه بین انشعابات باکتریایی می‌تواند کاربرد outgroup را مختل کند.

نقاط ضعف روش‌های گوناگون

در حالت کلّی فاصلهٔ دوتایی یک تخمین دست پایین از فاصله مسیری بین taxa‌های روی یک فیلوگرام است. فاصلهٔ دوتایی در قیاس با فاصلهٔ جغرافیایی تقریب خامدستانه تری را ارائه می‌کند: فاصله بین دو شهر ممکن است روی خط مستقیم ۱۰۰ کیلومتر باشد اما یک مسافر ممکن است مجبور باشد ۱۲۰ کیلومتر را بین دو شهر طی کند و ان هم به خاطر پیچ و خم‌های جاده و ایستکاه‌های متعدد قطار و.... در بین جفت‌های یک taxa برخی تغییرات در بین نسل‌های گذشته ممکن است قابل ردگیری نباشد چون تغییرات بعدی شواهد موجود را از بین برده‌است. این مشکل در میان همهٔ تخمین‌های فیلوژنتیک مشترک است اما در مورد روش‌های فاصله‌ای بسیار حادتر است، به این خاطر که تنها دو نمونه برای محاسبه هر فاصله به کار میرود، بقیه روش‌ها از شواهد این تغییر پنهان که ممکن است در taxa‌های دیگری که در مقایسهٔ دوتایی لحاظ نشده‌اند وجود داشته باشند سود میبرند.

در مورد داده‌های توالی امینو اسیدها و نوکلئوتید اسیدها مدل‌های اماری مشابه آنچه که در روش درست نمایی بیشینه برای مدل کردن تغییرات هسته‌ای بکار میروند قابل استفاده‌است تا فاصله‌ها تصحیح شوند و انالیز داده‌ها به یک روش نیمه پارامتری تحویل شود.

الگوریتم‌های سادهٔ بسیاری موجودند تا مستقیما از روی فاصله‌های دوتایی بتوان یک درخت تولید کرد، روش‌هایی چون UPGMA و اتصال مجاور اما این روش‌ها لزوما بهترین درخت را مطابق با داده‌های موجود ارائه نمیکنند. برای پیشگیری از پیچیدگی‌های ذکر شده و به منظور یافتن بهترین درخت برای داده‌ها تحلیل فاصله می‌تواند یک پروتکل جستجوی درخت را که مستلزم براورده کردن معیار روشنی برای بهینه بودن است در بر بگیرد. ۲ معیار بهینگی معمولاً در این موارد بکار میروند: تکامل کمینه و استنباط کمترین مربعات. روش کمترین مربعات بخشی از یک کلاس گسترده‌تر از روش‌های رگرسیون پایه است که در اینجا به خاطر سادگی به‌طور فشرده آورده شده‌است. این فرمول رگرسیون با برازش یک درخت به فاصله‌های تجربی تفاوت بین فاصله‌های مسیری در طول درخت و فاصله‌های جفتی در داده‌ها را مینیمم می‌کند. در مقابل تکامل کمینه درخت با کوتاهترین مجموع طول شاخه‌ها را میپذیرد و از اینروست که مقدار کل پذیرفته شده برای تکامل را مینیمم می‌کند.

تکامل کمینه به شدت وابسته به پارسیمونی است و تحت شرایط مشخص تحلیل فاصلهٔ تکامل کمینه بر پایهٔ یک مجموعه داده از کاراکترهای گسسته همان درختی را پیشنهاد می‌کند که تحلیل‌های پارسیمونی مناسب از داده‌های مشابه تولید می‌کنند.

تخمین فیلوژنی با استفاده از روش‌های فاصله بحث‌های زیادی را برانگیخت. UPGMA یک درخت فرامتریک (درختی که طول تمام مسیرها از ریشه به سرشاخه‌ها یکسان باشد) را مد نظر میگیرد. اگر نرخ تکامل در تمام نسل‌های موجود در نمونه یکسان باشد (یک ساعت مولکولی) و اگر درخت به‌طور کامل متوازن باشد انگاه UPGMA نباید یک نتیجهٔ پیشقدر دار را تولید کند. این انتظارات در اکثر مجموعه‌های داده دیده نمیشود و با وجود اینکه UPGMA تا حدی برای برطرف کردن این نقایص توانایی دارد اما معمولاً ان را برای تخمین فیلوژنی بکار نمیبرند. مزیت UPGMA اینست که سریعست و می‌تواند با بسیاری از توالی‌ها کار کند.

اتصال مجاور یکی از انواع روش‌های تجزیهٔ ستاره‌ای است و همانند روش‌های هیوریستیکی معمولاً دارای کمترین محاسبات است. این روش در جای خود بسیار مورد استفاده‌است و در واقع به‌طور مکرر برای تولید دخت‌های قابل اتکا بکار میرود این روش فاقد هر گونه ترتیبی برای جستجوی درختان و هر گونه معیاری برای بهینگی است به همین دلیل هیچ تضمینی وجود ندارد که درختی که در این روش تولید می‌شود بهترین برازش را بر داده‌های موجود داشته باشد. در واقع باید از اتصال همسایه برای تولید یک درخت اغازی برای یک روش تحلیلی مناسبتر استفاده کرد، انگاه یک روش جستجوی درخت با معیار بهینگی را بکار برد تا به‌طور قطعی جستجو به بازیابی بهترین درخت ختم شود.

بسیاری از دانشمندان از روش‌های فاصله پرهیز می‌کنند در بسیاری از موارد این به خاطر دلایل مبهم فلسفی است یک دلیل اینست که فاصله‌ها ذاتا phenetic هستند تا فیلوژنتیک، به این ترتیب که آن‌ها شباهت‌های ذاتی را از شباهتهای اکتسابی متمایز نمیکنند. این انتقاد کاملاً هم منصفانه نیست: بسیاری از عملیات‌های اخیر استنباط‌های فیلوژنتیک بیزی، درست نمایی بیشینه و پارسیمونی مدل‌های با زمان برگشت پذیر را به کار میبرند و از اینرو هیچتطابقی را میان حالتهای اکسابی و اجدادی ایجاد نمیکنند. تحت این مل‌ها درخت به صورت بدون ریشه تخمین زده می‌شود و ریشه‌گذاری و تعریف قطب‌ها پس از تحلیل انجام می‌شود. تفاوت اولیهٔ این روش‌ها با روش فاصله در اینست که روش‌های بیزی، درست نمایی بیشینه و پارسیمونی کاراکترها را جداگانه بر درخت‌ها برازش می‌کنند در صورتی که روش فاصله همهٔ کاراکترها را یکجا بکار میبرد و در واقع هیچ چیز ذاتا کمتر فیلوژنتیک در این روش وجود ندارد. از نگاه عملی تر بیشتر به این خاطر از روش‌های فاصله پرهیز می‌شود که رابطهٔ بین کاراکترهای انفرادی و درخت در طی فرایند تقلیل کاراکترها به فاصله از بین میرود به این خاطر که این روش‌ها مستقیما داده‌های کاراکتری را بکار نمیبرند و از اینرو اطلاعات موجد در کاراکترها تا حدر در طی فراین مقایسهٔ جفتی از بین میروند. همچنین برخی روابط مختلط فیلوژنتیکی می‌تواند فاصله‌های پیشقدر دار تولید کند. در هر فیلوگرامی طول شاخه‌ها را باید تخمین دست پایین گرفت زیرا برخی تغییرات به خاطر انقراض برخی گونه‌ها یا دلایل دیگر قابل شناسایی نیستند. در هر حال اگر داده‌های حاصل از فاصله‌های ژنتیکی توسط مدل‌های اماری مورد استفاده برای تکامل تصحیح شده باشند می‌توان به اسانی آن‌ها را به هر درخت دیگری که توسط تحلیل داده‌های مشابه با روش درست نمایی بیشینه تولید شده اضافه شوند. و این بدین خاطر است که فاصله‌های جفتی مستقل نیستند؛ هر شاخه روی درخت در اندازه‌گیری فاصله‌های تمام taxa‌هایی که جدایشان می‌کند نمایان می‌شود. هر خطای نتیجه‌گیری ناشی از کاراکترهای شاخه که ممکن است باعث اختلال در فیلوژنی شود ( مانند تغییرات تصادفی، تغییر در پارامترهای تکاملی یک طول غیر نرمال در شاخه ها) از طریق تمام اندازه‌گیری‌های فاصله مرتبط تکثیر می‌شود. انگاه ماتریس فاصله ممکن است یک درخت کمتر بهینه را برازش کند. علی رغم همهٔ این مشکلات روش‌های فاصله بسیار سریع هستند و معمولاً تخمین‌های معقولی از فیلوژنی تولید می‌کنند، همچنین انه مزیت قطعی بر روش‌هایی دارند که داده‌های کاراکتری را مستیما استفتده می‌کنند. و قابل توجه است که روش‌های فاصله بکارگیری داده‌هایی که ممکن است به اسانی به داده‌های کاراکتری قابل تبدیل نباشند را ممکن میسازد نظیر ازمایش‌های پیوند DNA-DNA . برای برخی روش‌های تخمین شبکه‌ای ( به‌طور ویژ neighbor net ) مجردسازی اطلاعات مربوط به کاراکترهای انفرادی در داده‌های فاصله‌ای یک مزیت است. زمانی که کاراکتر به کاراکتر پیش میرویم تناقضات بین کاراکتر و درخت که ناشی از شبکه بندی است را نمیتوان به‌طور قطع ناشی از تشابه ساختمانی دانست یا به بروز خطا اما معمولاً این تناقض‌ها پیش از انکه داده‌ها پیشقدر دار شوند مربوط به خطا یا تشابه ساختمانی نیستند و معمولاً به شبکه بندی مربوط می‌شود. روش‌های فاصله‌گذاری به‌طور عمده در بین گروهی از متخصصان سیستم‌های مولکولی رایج است اما با رشد فزایندهٔ روش‌های کاراکتر پایه برخی مزایای روش فاصله‌گذاری رو به کمرنگ شدن دارند؛ با این وجود مزایای چون پیاده‌سازی تقریباً هم‌زمان NJ، توانایی همراه کردن یک مدل تکاملی با یک تحلیل نسبتا سریع، روش‌های تخمین شبکه‌ای و مزایای دیگر تضمین می‌کند که همچنان برای مدتی طولانی روش‌های فاصله‌گذاری در کانون توجه باشند.

همچنین ببینید

List of phylogenetics software

منابع

↑ Mount DM. (2004). Bioinformatics: Sequence and Genome Analysis 2nd ed. Cold Spring Harbor Laboratory Press: Cold Spring Harbor, NY.
↑ Felsenstein J. (2004). Inferring Phylogenies Sinauer Associates: Sunderland, MA.
↑ Fitch WM; Margoliash E (1967). «Construction of phylogenetic trees». Science 155 (760): 279–284. doi:10.1126/science.155.3760.279. PMID 5334057.
↑ Day, WHE. (1986). Computational complexity of inferring phylogenies from dissimilarity matrices. Bulletin of Mathematical Biology 49:461-7.

[Mount_DM._2004-1] Mount DM. (2004). Bioinformatics: Sequence and Genome Analysis 2nd ed. Cold Spring Harbor Laboratory Press: Cold Spring Harbor, NY.

[Felsenstein_J._2004-2] Felsenstein J. (2004). Inferring Phylogenies Sinauer Associates: Sunderland, MA.

[3] Fitch WM; Margoliash E (1967). «Construction of phylogenetic trees». Science 155 (760): 279–284. doi:10.1126/science.155.3760.279. PMID 5334057.

[4] Day, WHE. (1986). Computational complexity of inferring phylogenies from dissimilarity matrices. Bulletin of Mathematical Biology 49:461-7.