ماتریسهای فاصله در فیلوژنی
ماتریسهای فاصله در فیلوژنی طبق همان روش که فاصلهٔ غیر پارامتری قبلاً در میان دادههای phenetic و به شکل ماتریسی از فاصلههای دوتایی استفاده شدهاست به کار میرود. این فاصلهها بعداً طوری تطبیق داده میشود که بتواند یک درخت (یک فیلوگرام با طول شاخههای اطلاعاتی) تولید کند. ماتریس فاصله را میتوان از منابع مختلفی بدست آورد.
بهطور مثال: فاصلهٔ اندازهگیری شده (مثلاً از مطالعات ایمونولوژیکی)، تحلیلهای مورفومتریک و فرمولهای فاصلهگذاری مختلف (مانند فاصلهٔ اقلیدسی) و پیاده کردن ان بر روی کاراکترهای مورفولوژیکی گسسته، یا فاصلههای ژنتیکی برامده از توالی قطعات محدود. در مورد دادههای کاراکترهای فیلوژنتیکی فاصلهٔ خام را میتوان به سادگی و با شمارش تعداد دوتاییهای متمایز در نواحی کاراکتری محاسبه کرد (فاصلهٔ منهتن).
روشهای ایجاد ماتریس فاصله
روشهای یافتن ماتریس فاصله در تحلیلهای فیلوژنتیکی متّکی بر اندازهگیری فاصلهٔ ژنتیکی بین توالیهای دستهبندی شدهاست بنابراین پیش نیاز این کار یک تطابق چندگانه توالیها (multiple sequence alignment) است. فاصله معمولی به عنوان تابعی از تمایزها (mismatch) تعریف میشود و شکافها (gap) نیز بهطور دلخواه حذف یا به عنوان تمایز در نظر گرفته میشود.
روشهای فاصلهگذاری سعی شان بر اینست که ماتریسی بسازند که فاصلهٔ هر جفت از توالیها را مشخص کند. با استفاده از این اطلاعات درخت فیلوژنتیکی ساخته میشود که در ان توالیهایی که شباهت بسیار زیادی به هم دارند تحت ریشههای مشترک قرار میگیرند و طول شاخهها نیز نمایانگر فاصلهٔ بین توالی هاست. ماتریسهای فاصله بنابر الگوریتمی که برای ساختن شان به کار میرود میتوانند هم درختهای ریشه دار بسازند و هم درختهای بدون ریشه.
آنها همچنین مکررا به عنوان پایهای برای انواع روشهای پیش رونده (progressive) یا تکراری (iterative) تطابق چندگانه توالیها (MSA) به کار میرود.ضعف اصلی روشهای ماتریس فاصله عدم تواناییشان برای استفاده مناسب از اطلاعات مربوط به نواحی با تغییر بالای موضعی است که در میان زیر درختهای چندگانه مشاهده میشوند.
اتصال مجاور
روشهای اتصال مجاور (N-J) تکنیکهای عمومی خوشه بندی دادهها را با استفاده از فاصلهٔ ژنتیکی به عنوان یک متریک خوشه بندی، در مورد آنالیز توالیها استفاده میکند. روش سادهٔ اتصال مجاور یک درخت بدون ریشه تولید میکند اما در این روش یک نرخ تکامل ثابت (ساعت مولکولی) در طی نسلهای مختلف در نظر گرفته نمیشود. اما در روش UPGMA (روش جفت گروه بدون وزن با میانگین حسابی) درختهای ریشه دار تولید میشود و فرض را بر ثابت بودن نرخ تکامل میگذارند؛ در واقع درختی فرامتریک تولید میشود که در ان فاصله از ریشه تا هر سرشاخه یکسان است.
روش فیچ-مارگولیش
روش فیچ-مارگولیش یک متد کمترین مربعات وزندار را برای خوشه بندی بر مبنای فاصلهٔ ژنتیکی به کار میبرد. توالیهای بسیار نزدیک به هم در این روش وزن بیشتری میگیرند تا افزایش خطایی که در اندازهگیری فاصلهٔ بین توالیهای دورتر رخ میدهد را جبران کند. دادههایی که به عنوان ورودی الگوریتم استفاده میشوند را باید پیش از استفاده نرمال کرد تا مانع بروز مشکلاتی شود که در محاسبه رابطه بین گروههای نزدیک و دور رخ میدهد. فاصلههایی که در این روش محاسبه میشوند باید خطی باشند، خطی بودن در اینجا به این معنی است که مقدار مورد انتظار برای مجموع طول دو شاخه جدا باید برابر با مجموع مقدار مورد انتظار طول آنها باشد، ویژگی ای که تنها زمانی در مورد توالیهای زیستی اعمال میشود که آنها برای امکان جهش بازگشتی تطبیق داده شده باشند.
این تصحیح از طریق ماتریسهای جانشانی مانند آنچه که از مدل تکاملی DNA، منسوب به junkes-cantor بدست میاید انجام میشود. تصحیح فاصلهها عملاً زمانی مورد نیاز است که نرخ تکامل در میان شاخههای مختلف متفاوت باشد.
معیار کمترین مربعات که در این روش استفاده میشود نسبت به روش اتصال مجاور از صحت بیشتر اما کارایی کمتری برخوردار است. در مواردی که هزینههای محاسباتی افزایش مییابد میتوان از روشهای اصلاحی دیگری نیز برای تصحیح همبستگی فاصلههایی که از توالیهای بسیار نزدیک بدست میایند استفاده کرد. یافتن درخت بهینهٔ کمترین مربعات در هر صورت یک مسئلهٔ NP-کامل است به همین دلیل روشهای هیوریستیکی مشابه آنچه در تحلیلهای ماکسیمم-پارسیمونی استفاده میشود در اینجا نیز برای جستجو در فضای درختها بکار میروند.
استفاده از اطلاعات تاریخ تکاملی
اطلاعات مستقل دربارهٔ روابط بین توالیها یا گروهها میتواند کمک کند تا حجم جستجو در فضای درختها کاهش یابد. کاربرد استاندارد روش ماتریس فاصله ما را با مسئله وجود حداقل یک توالی outgroup که فاصلهٔ دوری با توالیهای فضای جستجو دارد روبرو میکند. این کاربرد میتواند به عنوان یک نوع کنترل تجربی محسوب شود. اگر outgroup به درستی انتخاب شده باشد انگاه شامل یک فاصله ژنتیکی بسیار بزرگ خواهد بود و بنابراین یک طول شاخهٔ بسیار بزرگتر نسبت به سایر توالیها خواهد داشت و این مورد در همسایگی ریشهٔ یک درخت ریشه دار مشاهده خواهد شد. انتخاب یک outgroup مناسب مستلزم انتخاب یک توالی است که فاصلهٔ میانهای را با توالیهای مورد نظر داشته باشد داشتن رابطهٔ بیش از حد نزدیک غرض انتخاب outgroup را نقض میکند و همچنین فاصلهٔ بیش از حد دود باعث ورود خطا در تحلیل میشود باید احتیاطهای لازم لحاظ شود تا موقعیتهایی پیش نیاید که در ان توالیها از گونههایی انتخاب شدهاند که فاصلهٔ دوری از هم دارند اما ژنی که توسط توالیها کد میشود در طی تغییرات نسل محفوظ ماندهاست. انتقال افقی ژن به ویژه بین انشعابات باکتریایی میتواند کاربرد outgroup را مختل کند.
نقاط ضعف روشهای گوناگون
در حالت کلّی فاصلهٔ دوتایی یک تخمین دست پایین از فاصله مسیری بین taxaهای روی یک فیلوگرام است. فاصلهٔ دوتایی در قیاس با فاصلهٔ جغرافیایی تقریب خامدستانه تری را ارائه میکند: فاصله بین دو شهر ممکن است روی خط مستقیم ۱۰۰ کیلومتر باشد اما یک مسافر ممکن است مجبور باشد ۱۲۰ کیلومتر را بین دو شهر طی کند و ان هم به خاطر پیچ و خمهای جاده و ایستکاههای متعدد قطار و.... در بین جفتهای یک taxa برخی تغییرات در بین نسلهای گذشته ممکن است قابل ردگیری نباشد چون تغییرات بعدی شواهد موجود را از بین بردهاست. این مشکل در میان همهٔ تخمینهای فیلوژنتیک مشترک است اما در مورد روشهای فاصلهای بسیار حادتر است، به این خاطر که تنها دو نمونه برای محاسبه هر فاصله به کار میرود، بقیه روشها از شواهد این تغییر پنهان که ممکن است در taxaهای دیگری که در مقایسهٔ دوتایی لحاظ نشدهاند وجود داشته باشند سود میبرند.
در مورد دادههای توالی امینو اسیدها و نوکلئوتید اسیدها مدلهای اماری مشابه آنچه که در روش درست نمایی بیشینه برای مدل کردن تغییرات هستهای بکار میروند قابل استفادهاست تا فاصلهها تصحیح شوند و انالیز دادهها به یک روش نیمه پارامتری تحویل شود.
الگوریتمهای سادهٔ بسیاری موجودند تا مستقیما از روی فاصلههای دوتایی بتوان یک درخت تولید کرد، روشهایی چون UPGMA و اتصال مجاور اما این روشها لزوما بهترین درخت را مطابق با دادههای موجود ارائه نمیکنند. برای پیشگیری از پیچیدگیهای ذکر شده و به منظور یافتن بهترین درخت برای دادهها تحلیل فاصله میتواند یک پروتکل جستجوی درخت را که مستلزم براورده کردن معیار روشنی برای بهینه بودن است در بر بگیرد. ۲ معیار بهینگی معمولاً در این موارد بکار میروند: تکامل کمینه و استنباط کمترین مربعات. روش کمترین مربعات بخشی از یک کلاس گستردهتر از روشهای رگرسیون پایه است که در اینجا به خاطر سادگی بهطور فشرده آورده شدهاست. این فرمول رگرسیون با برازش یک درخت به فاصلههای تجربی تفاوت بین فاصلههای مسیری در طول درخت و فاصلههای جفتی در دادهها را مینیمم میکند. در مقابل تکامل کمینه درخت با کوتاهترین مجموع طول شاخهها را میپذیرد و از اینروست که مقدار کل پذیرفته شده برای تکامل را مینیمم میکند.
تکامل کمینه به شدت وابسته به پارسیمونی است و تحت شرایط مشخص تحلیل فاصلهٔ تکامل کمینه بر پایهٔ یک مجموعه داده از کاراکترهای گسسته همان درختی را پیشنهاد میکند که تحلیلهای پارسیمونی مناسب از دادههای مشابه تولید میکنند.
تخمین فیلوژنی با استفاده از روشهای فاصله بحثهای زیادی را برانگیخت. UPGMA یک درخت فرامتریک (درختی که طول تمام مسیرها از ریشه به سرشاخهها یکسان باشد) را مد نظر میگیرد. اگر نرخ تکامل در تمام نسلهای موجود در نمونه یکسان باشد (یک ساعت مولکولی) و اگر درخت بهطور کامل متوازن باشد انگاه UPGMA نباید یک نتیجهٔ پیشقدر دار را تولید کند. این انتظارات در اکثر مجموعههای داده دیده نمیشود و با وجود اینکه UPGMA تا حدی برای برطرف کردن این نقایص توانایی دارد اما معمولاً ان را برای تخمین فیلوژنی بکار نمیبرند. مزیت UPGMA اینست که سریعست و میتواند با بسیاری از توالیها کار کند.
اتصال مجاور یکی از انواع روشهای تجزیهٔ ستارهای است و همانند روشهای هیوریستیکی معمولاً دارای کمترین محاسبات است. این روش در جای خود بسیار مورد استفادهاست و در واقع بهطور مکرر برای تولید دختهای قابل اتکا بکار میرود این روش فاقد هر گونه ترتیبی برای جستجوی درختان و هر گونه معیاری برای بهینگی است به همین دلیل هیچ تضمینی وجود ندارد که درختی که در این روش تولید میشود بهترین برازش را بر دادههای موجود داشته باشد. در واقع باید از اتصال همسایه برای تولید یک درخت اغازی برای یک روش تحلیلی مناسبتر استفاده کرد، انگاه یک روش جستجوی درخت با معیار بهینگی را بکار برد تا بهطور قطعی جستجو به بازیابی بهترین درخت ختم شود.
بسیاری از دانشمندان از روشهای فاصله پرهیز میکنند در بسیاری از موارد این به خاطر دلایل مبهم فلسفی است یک دلیل اینست که فاصلهها ذاتا phenetic هستند تا فیلوژنتیک، به این ترتیب که آنها شباهتهای ذاتی را از شباهتهای اکتسابی متمایز نمیکنند. این انتقاد کاملاً هم منصفانه نیست: بسیاری از عملیاتهای اخیر استنباطهای فیلوژنتیک بیزی، درست نمایی بیشینه و پارسیمونی مدلهای با زمان برگشت پذیر را به کار میبرند و از اینرو هیچتطابقی را میان حالتهای اکسابی و اجدادی ایجاد نمیکنند. تحت این ملها درخت به صورت بدون ریشه تخمین زده میشود و ریشهگذاری و تعریف قطبها پس از تحلیل انجام میشود. تفاوت اولیهٔ این روشها با روش فاصله در اینست که روشهای بیزی، درست نمایی بیشینه و پارسیمونی کاراکترها را جداگانه بر درختها برازش میکنند در صورتی که روش فاصله همهٔ کاراکترها را یکجا بکار میبرد و در واقع هیچ چیز ذاتا کمتر فیلوژنتیک در این روش وجود ندارد. از نگاه عملی تر بیشتر به این خاطر از روشهای فاصله پرهیز میشود که رابطهٔ بین کاراکترهای انفرادی و درخت در طی فرایند تقلیل کاراکترها به فاصله از بین میرود به این خاطر که این روشها مستقیما دادههای کاراکتری را بکار نمیبرند و از اینرو اطلاعات موجد در کاراکترها تا حدر در طی فراین مقایسهٔ جفتی از بین میروند. همچنین برخی روابط مختلط فیلوژنتیکی میتواند فاصلههای پیشقدر دار تولید کند. در هر فیلوگرامی طول شاخهها را باید تخمین دست پایین گرفت زیرا برخی تغییرات به خاطر انقراض برخی گونهها یا دلایل دیگر قابل شناسایی نیستند. در هر حال اگر دادههای حاصل از فاصلههای ژنتیکی توسط مدلهای اماری مورد استفاده برای تکامل تصحیح شده باشند میتوان به اسانی آنها را به هر درخت دیگری که توسط تحلیل دادههای مشابه با روش درست نمایی بیشینه تولید شده اضافه شوند. و این بدین خاطر است که فاصلههای جفتی مستقل نیستند؛ هر شاخه روی درخت در اندازهگیری فاصلههای تمام taxaهایی که جدایشان میکند نمایان میشود. هر خطای نتیجهگیری ناشی از کاراکترهای شاخه که ممکن است باعث اختلال در فیلوژنی شود ( مانند تغییرات تصادفی، تغییر در پارامترهای تکاملی یک طول غیر نرمال در شاخه ها) از طریق تمام اندازهگیریهای فاصله مرتبط تکثیر میشود. انگاه ماتریس فاصله ممکن است یک درخت کمتر بهینه را برازش کند. علی رغم همهٔ این مشکلات روشهای فاصله بسیار سریع هستند و معمولاً تخمینهای معقولی از فیلوژنی تولید میکنند، همچنین انه مزیت قطعی بر روشهایی دارند که دادههای کاراکتری را مستیما استفتده میکنند. و قابل توجه است که روشهای فاصله بکارگیری دادههایی که ممکن است به اسانی به دادههای کاراکتری قابل تبدیل نباشند را ممکن میسازد نظیر ازمایشهای پیوند DNA-DNA . برای برخی روشهای تخمین شبکهای ( بهطور ویژ neighbor net ) مجردسازی اطلاعات مربوط به کاراکترهای انفرادی در دادههای فاصلهای یک مزیت است. زمانی که کاراکتر به کاراکتر پیش میرویم تناقضات بین کاراکتر و درخت که ناشی از شبکه بندی است را نمیتوان بهطور قطع ناشی از تشابه ساختمانی دانست یا به بروز خطا اما معمولاً این تناقضها پیش از انکه دادهها پیشقدر دار شوند مربوط به خطا یا تشابه ساختمانی نیستند و معمولاً به شبکه بندی مربوط میشود. روشهای فاصلهگذاری بهطور عمده در بین گروهی از متخصصان سیستمهای مولکولی رایج است اما با رشد فزایندهٔ روشهای کاراکتر پایه برخی مزایای روش فاصلهگذاری رو به کمرنگ شدن دارند؛ با این وجود مزایای چون پیادهسازی تقریباً همزمان NJ، توانایی همراه کردن یک مدل تکاملی با یک تحلیل نسبتا سریع، روشهای تخمین شبکهای و مزایای دیگر تضمین میکند که همچنان برای مدتی طولانی روشهای فاصلهگذاری در کانون توجه باشند.
همچنین ببینید
منابع
- ↑ Mount DM. (2004). Bioinformatics: Sequence and Genome Analysis 2nd ed. Cold Spring Harbor Laboratory Press: Cold Spring Harbor, NY.
- ↑ Felsenstein J. (2004). Inferring Phylogenies Sinauer Associates: Sunderland, MA.
- ↑ Fitch WM; Margoliash E (1967). «Construction of phylogenetic trees». Science 155 (760): 279–284. doi:10.1126/science.155.3760.279. PMID 5334057.
- ↑ Day, WHE. (1986). Computational complexity of inferring phylogenies from dissimilarity matrices. Bulletin of Mathematical Biology 49:461-7.