معلومة

هل استخدام نماذج ماركوف المخفية لإيجاد المتماثلات منطقية في التسلسلات المجردة والقصيرة؟


تتفوق أدوات المحاذاة HMM مثل hhpred في العثور على متماثلات دقيقة للبروتينات المطوية التي قد تفوتها تقنيات التسجيل الأبسط (مثل تلك المستخدمة في خوارزميات BLAST).

أنا أنظر فقط إلى تسلسل صغير (20AA) وهو حلزوني طوال الوقت.

هل لا يزال من المحتمل أن يلتقط hhpred أوجه التشابه الدقيقة في البنية الثانوية الأساسية كما هو الحال في تسلسل البروتين المطوي ، أم أن المحاذاة الأبسط ستكون مناسبة تمامًا؟


TMHMM هو معيار جيد جدًا للتنبؤ بـ TMHs في المقام الأول ، لذلك من المنطقي أن التنبؤ بالمتناظرين باستخدام هذا النهج قابل للتطبيق تمامًا.


Master Blaster: نهج لتحديد دقيق للبروتينات ذات الصلة عن بعد

مشاريع تسلسل الجينوم تكشف عن تسلسل جميع تسلسلات البروتين المشفرة في الجينوم. كخطوة أولى ، يتم استخدام اكتشاف التماثل للحصول على أدلة لهيكل ووظيفة هذه البروتينات. ومع ذلك ، فإن الاختلاف التطوري العالي بين البروتينات المتماثلة يتحدى قدرتنا على اكتشاف العلاقات البعيدة. في الماضي ، تم العثور على نهج يتضمن مصفوفات درجات محددة للمواقع (PSSMs) ليكون أكثر فاعلية من PSSM الفردية التقليدية. البحث المتتالي هو نهج ناجح آخر حيث يتم الاستعلام عن نتائج البحث لاكتشاف المزيد من المتجانسات. نقترح بروتوكول "Master Blaster" ، والذي يجمع بين المبادئ المعتمدة في هذين النهجين لتعزيز قدرتنا على اكتشاف المتماثلات البعيدة بشكل أكبر. تم إجراء تقييم النهج باستخدام العلاقات المعروفة المتاحة في قاعدة بيانات SCOP70 ، وتمت مقارنة النتائج مع تلك الخاصة بـ PSI-BLAST و HHblits ، وهي طريقة مخفية تستند إلى نموذج ماركوف. مقارنة بـ PSI-BLAST ، نتج عن Master Blaster تحسن بنسبة 10٪ فيما يتعلق باكتشاف الاتصالات عبر العائلات ، وتحسن بنسبة 35٪ تقريبًا في تقاطع العائلة وأكثر من 80٪ تحسن في الاتصالات داخل الأسرة. من النتائج لوحظ أن HHblits أكثر حساسية في الكشف عن المتماثلات البعيدة مقارنة بـ Master Blaster. ومع ذلك ، هناك نتائج حقيقية من 46 ضعفًا أبلغ عنها Master Blaster عن متماثلات لم يتم الإبلاغ عنها بواسطة HHblits حتى باستخدام المعلمات المثلى التي تشير إلى أنه بالنسبة لاكتشاف المتماثلات البعيدة ، يمكن أن يكون استخدام طرق متعددة تستخدم مجموعة من الأساليب المختلفة أكثر فعالية في الكشف متماثلون عن بعد. يتوفر رمز Master Blaster المستقل للتنزيل في الأرشيف الإضافي.


الملخص

يعد الاكتشاف السريع والحساس والنوع للفيروس مكونًا مهمًا في التشخيص السريري. يتيح التسلسل المتوازي بشكل كبير فرصًا تشخيصية جديدة تكمل التقنيات المصلية والتقنيات القائمة على تفاعل البوليميراز المتسلسل. في حين أن التسلسل المتوازي على نطاق واسع يعد بفوائد كونه أكثر شمولاً وأقل تحيزًا من الأساليب التقليدية ، فإنه يمثل تحديات تحليلية جديدة ، خاصة فيما يتعلق باكتشاف تسلسل العوامل الممرضة في السياقات الميتاجينية. لتقريب أول ، يمكن تحقيق الاكتشاف الأولي للفيروسات ببساطة من خلال محاذاة قراءات التسلسل أو contigs المجمعة إلى قاعدة بيانات مرجعية لجينومات الممرض باستخدام أدوات مثل BLAST. ومع ذلك ، فإن التعرف على التسلسلات الفيروسية شديدة التباين يمثل مشكلة ، وقد يكون أكثر تعقيدًا بسبب معدلات الطفرات العالية بطبيعتها لبعض الأنواع الفيروسية ، وخاصة فيروسات الحمض النووي الريبي. في هذه الحالات ، يمكن تحقيق زيادة الحساسية من خلال الاستفادة من المعلومات الخاصة بالموضع أثناء عملية المحاذاة. هنا ، قمنا ببناء نماذج ماركوف المخفية للملف الشخصي المتوافق مع HMMER3 (ملف التعريف HMMs) من جميع البروتينات المشروحة فيروسياً في RefSeq بطريقة آلية باستخدام خط أنابيب معلوماتي بيولوجي مخصص. ثم اختبرنا قدرة HMMs (“vFams”) للملف الفيروسي على تصنيف التسلسلات بدقة على أنها فيروسية أو غير فيروسية. أظهرت تجارب التحقق من الصحة المتقاطعة مع تسلسل الجينات كامل الطول أن vFams كانت قادرة على استدعاء 91 ٪ من متواليات الاختبار الفيروسي المتروكة دون تصنيف أي تسلسلات غير فيروسية إلى مجموعات بروتين فيروسية بشكل خاطئ. أظهر التحليل الشامل لمجموعات البيانات metagenomic المنشورة سابقًا مع مجموعة من أفضل vFams أداءً أنها كانت أكثر حساسية من BLAST لاكتشاف التسلسلات الناشئة من أقارب أبعد من الفيروسات المعروفة. لتسهيل استخدام vFams للكشف السريع عن المتماثلات الفيروسية البعيدة في البيانات metagenomic ، نقدم مجموعتين من vFams ، تضم أكثر من 4000 vFams لكل منهما ، بتنسيق HMMER3. نوفر أيضًا البرامج اللازمة لإنشاء ملفات تعريف مخصصة HMMs أو تحديث vFams مع اكتشاف المزيد من الفيروسات (http://derisilab.ucsf.edu/software/vFam).

الاقتباس: Skewes-Cox P، Sharpton TJ، Pollard KS، DeRisi JL (2014) Profile Hidden Markov Models للكشف عن الفيروسات داخل بيانات تسلسل Metagenomic. بلوس واحد 9 (8): e105067. https://doi.org/10.1371/journal.pone.0105067

محرر: هيرمان تسي ، جامعة هونغ كونغ ، هونغ كونغ

تم الاستلام: 16 فبراير 2014 وافقت: 20 يوليو 2014 نشرت: 20 أغسطس 2014

حقوق النشر: © 2014 Skewes-Cox et al. هذا مقال مفتوح الوصول يتم توزيعه بموجب شروط ترخيص Creative Commons Attribution License ، والذي يسمح بالاستخدام غير المقيد والتوزيع والاستنساخ بأي وسيلة ، بشرط ذكر المؤلف الأصلي والمصدر.

التمويل: تم دعم هذا العمل من قبل معهد هوارد هيوز الطبي (JLD) ، ومؤسسة جوردون وبيتي مور (المنح # 1660 و # 3300) ، والمؤسسة الوطنية للعلوم (المنحة # DMS-1069303) ، ومعاهد جلادستون (KSP ، TJS) ، مؤسسة أبحاث تصلب الجلد وبرنامج زمالة المعلومات الحيوية لما قبل الدكتوراه لمؤسسة PhRMA (PS-C). لم يكن للممولين أي دور في تصميم الدراسة أو جمع البيانات وتحليلها أو اتخاذ قرار النشر أو إعداد المخطوطة.

تضارب المصالح: وقد أعلن الباحثون إلى أن لا المصالح المتنافسة موجودة.


الملخص

كثيرًا ما يتم نمذجة التبعيات في تسلسل الحمض النووي باستخدام نماذج ماركوف. ومع ذلك ، لا يمكن لسلاسل ماركوف تفسير عدم التجانس الذي قد يكون موجودًا في مناطق مختلفة من نفس تسلسل الحمض النووي. تعد نماذج ماركوف المخفية أكثر واقعية من نماذج ماركوف لأنها تسمح بتحديد المناطق غير المتجانسة في تسلسل الحمض النووي. في هذه الدراسة ، نقدم تطبيقًا لنماذج ماركوف المخفية إلى نتائج لاحقة من بيانات DNA Xylella fastidiosa. وجدنا أن نموذجًا من ثلاث حالات يوفر وصفًا جيدًا للبيانات التي تم النظر فيها.

DNA Xylella fastidiosa مخفية نماذج ماركوف

جينات الكائنات الدقيقة

تم تطبيق نماذج ماركوف المخفية على أحد إصدارات Xylella fastidiosa الجينوم

Universidade Federal de Minas Gerais، Departmento de Estatística، Belo Horizonte، MG، Brazil

مراسلة

كثيرًا ما يتم نمذجة التبعيات في تسلسل الحمض النووي باستخدام نماذج ماركوف. ومع ذلك ، لا يمكن لسلاسل ماركوف تفسير عدم التجانس الذي قد يكون موجودًا في مناطق مختلفة من نفس تسلسل الحمض النووي. تعد نماذج ماركوف المخفية أكثر واقعية من نماذج ماركوف لأنها تسمح بتحديد المناطق غير المتجانسة في تسلسل الحمض النووي. في هذه الدراسة ، نقدم تطبيقًا لنماذج Markov المخفية إلى تالٍ من Xylella fastidiosa بيانات الحمض النووي. وجدنا أن نموذجًا من ثلاث حالات يوفر وصفًا جيدًا للبيانات التي تم النظر فيها.

الكلمات الدالة: الحمض النووي، Xylella fastidiosaنماذج ماركوف المخفية.

لقد وفر معدل توليد بيانات التسلسل في السنوات الأخيرة فرصًا وفيرة ليس فقط لتطوير مناهج جديدة لمشاكل البيولوجيا الحسابية ولكن أيضًا لاستكشاف التقنيات المعروفة بالفعل على البيانات التي لم يتم تحليلها من قبل.

تتكون نقطة البداية في معظم تحليل البيانات من استخدام منهجية راسخة. مع تقدم التحليل ، قد تتطلب خصوصيات البيانات تطوير أدوات محددة أكثر ملاءمة لوصف البيانات ونمذجتها بشكل أفضل. يتطلب إنشاء طرق جديدة فهمًا عميقًا للطرق الحالية ، خاصةً عندما تكون هذه الأساليب قوية بشكل لا يصدق ولا تكون معروفة كما ينبغي بسبب تعقيدها الرياضي والحسابي. نحن نعتبر أن نماذج ماركوف المخفية (HMM) تمثل هذه الفكرة بشكل جيد للغاية لأنه على الرغم من أن هذه النماذج ليست جديدة ، فإننا نعتقد أن علماء الأحياء الجزيئية ليسوا على دراية بالإمكانيات التي توفرها هذه النماذج.

هدفنا في هذه الدراسة هو مناقشة التبعيات وعدم التجانس في بيانات الحمض النووي وكيف يمكن حسابها بشكل مناسب عن طريق استخدام HMM. لقد طبقنا هذا النوع من النموذج على سلسلة لاحقة من Xylella fastidiosa (Xf) الجينوم كطريقة لاقتراح تحليل محتمل للجينوم بأكمله.

بحسب لامبيز وآخرون. (2000), Xylella fastidiosa هي بكتيريا مرتبطة بأمراض تسبب خسائر فادحة في العديد من النباتات المهمة اقتصاديًا ، بما في ذلك الحمضيات. Xylella fastidiosa هو العامل المسبب لمرض كلور الحمضيات المتنوع (CVC) ، وهو مرض يصيب جميع أصناف البرتقال الحلو التجاري ويمثل مصدر قلق كبير لصناعة الحمضيات البرازيلية. يهاجم العامل الممرض للنبات ثمار الحمضيات وينتج عنه ثمار عديمة العصير ليس لها قيمة تجارية. Xylella fastidiosa هو أول مُمْرِض للنبات يتم تسلسل الجينوم الخاص به (إجمالي المعلومات الوراثية المخزنة في كروموسومات الكائن الحي) بشكل كامل. بالإضافة إلى ذلك ، من المحتمل أن يكون هذا هو الأقل دراسة من قبل لأي كائن حي يتوفر له تسلسل الجينوم الكامل.

مجموعات البيانات التي تم إنشاؤها عن طريق تسلسل كامل Xylella fastidiosa يطرح الجينوم تحديات جديدة لأن علماء الأحياء يحتاجون الآن إلى أدوات كمية وأساليب إحصائية لمساعدتهم على تحليل التسلسلات. بعض المنشورات الحديثة حول Xylella fastidiosa تشير ليس فقط إلى الحاجة إلى تطبيق الأساليب الإحصائية الحالية المتاحة لتحليل بياناتها المتسلسلة ولكن أيضًا للبحث الإحصائي لمهاجمة خصوصياتها. تشين وآخرون. (2000) تحليل البيانات المتسلسلة من 16 سلالة من Xylella fastidiosa نشأت من تسعة مضيفين مختلفين. درسوا جوانب مثل عدم تجانس التسلسل في تصنيف X. fastidiosa على مستوى الأنواع الفرعية. دراسات تشين وآخرون. (2000) وميهتا وآخرون. (2001) معنية بتقييم Xylella fastidiosa التنوع الجيني المعزول من الحمضيات والقهوة المصابة في البرازيل.

نظرًا للحجم الهائل لمجموعات البيانات ، تتطلب التحليلات الإحصائية للجينوم الكامل للعديد من الكائنات الحية استخدام أجهزة كمبيوتر عالية الطاقة من أحدث طراز. قد يمثل ذلك مشكلة كبيرة لأننا لا نملك ما يكفي لهذا الغرض.

في هذه الدراسة نلائم نماذج ماركوف المخفية مع مجموعة بيانات البكتيريا Xylella fastidiosa الجينوم. يتم اختيار النموذج باستخدام معيار المعلومات Bayesian (BIC) ومعايير معلومات Akaike (AIC). في القسم 2 نتحدث عن التبعيات في بيانات الحمض النووي. في القسم 3 نناقش عدم التجانس في تسلسل الحمض النووي. يتم تقديم نماذج ماركوف المخفية في القسم 4. في القسم 5 نقدم بإيجاز AIC و BIC لاختيار النموذج. Phage lambda و Xylella fastidiosa يتم تحليل مجموعات البيانات في القسم 6.

الملخص الأول الواضح لتسلسل الحمض النووي هو مجرد توزيع الأنواع الأساسية الأربعة. على الرغم من أنه سيكون من المناسب للنمذجة الرياضية إذا كانت القواعد الأربعة متكررة بشكل متساوٍ ، إلا أن جميع الدراسات التجريبية تقريبًا تظهر توزيعًا غير متكافئ. هذا يعني أن نموذج الاستقلال البسيط لتسلسل الحمض النووي له استخداماته ، ولكنه يذهب قليلاً فقط.

نحن بحاجة إلى أن نأخذ في الاعتبار في النموذج حقيقة أن القواعد المجاورة في تسلسل الحمض النووي ليست مستقلة. وفقًا لـ Tavaré و Giddings (1989) ، ستؤدي الارتباطات بين القواعد المتجاورة إلى ارتباطات بين القواعد البعيدة وتقدير إلى أي مدى يمكن العثور على العلاقات الممتدة من نظرية سلسلة ماركوف.

وفقًا لـ Weir (1996) ، فإن تحليلات ماركوف المتسلسلة مفيدة على مستوى الجينوم ، وليس على مستوى الجين الفردي ، لأن الأخير قد يتضمن تسلسلات قصيرة جدًا لا تكفي لإثبات وجود سلاسل ذات ترتيب أعلى. لاحظ المؤلف نفسه أنه من غير المحتمل أن تصف سلسلة ماركوف نفسها الجينوم بأكمله ، وإذا تم تركيب سلسلة ماركوف على الجينوم ، فلا توجد آلية بيولوجية متضمنة ، ولكن يمكن الإجابة على أسئلة مفيدة. على سبيل المثال ، يمكن توقع تواتر كلمات (كلمات) لاحقة معينة.

وفقًا لموقع الويب http://www.accessexcellence.org/AE/AEC/ ، من الشائع في الهندسة الوراثية استخدام العديد من الإنزيمات القادرة على تعديل أو الانضمام إلى جزيئات الحمض النووي الموجودة ، أو المساعدة في تخليق الحمض النووي الجديد الجزيئات. على سبيل المثال ، يتيح إنزيم بوليميراز الحمض النووي ربط جزيئين أو أكثر من جزيئات الحمض النووي ببعضها البعض. يقوم إنزيم DNA ligase بتقسيم جزيئات الحمض النووي إلى أجزاء ، بينما يعمل ما يسمى بإنزيم نوكلياز التقييد (REE) عن طريق "مسح" طول جزيء الحمض النووي. بمجرد أن تواجه العناصر الأرضية النادرة تسلسل التعرف المحدد الخاص بها (كلمة) ، فإنها سترتبط بجزيء الحمض النووي وتقطعه بطريقة يمكن التنبؤ بها وقابلة للتكرار. من المهم استخدام سلاسل ماركوف لمساعدة عالم الأحياء على تقدير العدد المتوقع للشظايا الناتجة عند تطبيق إنزيم تقييد معين على الجينوم.

قد تصف سلاسل ماركوف تسلسل الحمض النووي من حيث تكوين النيوكليوتيدات ، بمعنى آخر.، كسلسلة من الأحرف من أربعة أحرف أبجدية ، <أ ، ج ، ج ، ت>. دعونا نشير إلى كل نوع من أنواع القواعد الأربعة على أنه تنص على. سنقدم بعض المصطلحات والترميز المفيدة لسلاسل ماركوف.

بشكل عام ، بالنسبة لموضوع معين ، دع Xر تشير إلى الاستجابة على متغير فئوي في الوقت t ، t = 0 ، 1 ،. T. التسلسل (X0، X1، X2و. ) هو مثال على عملية عشوائية ، وهي عائلة مفهرسة من المتغيرات العشوائية. في هذه الورقة Xر يشير إلى النوكليوتيدات في الموضع ر في التسلسل.

دون التذرع بأي آلية بيولوجية ، سلسلة نظام ماركوف ص يعني ضمناً أن القاعدة الموجودة في موضع معين في تسلسل تعتمد فقط على القواعد الموجودة في السابق ص المواقف. في أسس أكثر رسمية ، فإن العملية العشوائية هي أ ص-ترتيب سلسلة ماركوف إذا ، للجميع ر التوزيع الشرطي لـ Xر + 1، بالنظر إلى X0و. Xر، مطابق للتوزيع الشرطي لـ Xر + 1، بالنظر إلى Xرو. Xر - ص + 1. نظرا للدول في السابق ص مرات ، يكون السلوك المستقبلي للسلسلة مستقلاً عن السلوك السابق قبل ذلك ص مرات. للحصول على سلسلة Markov من الدرجة الأولى مع أنا الحالات الممكنة ، الاحتمالات الشرطية

مع i ، j = 1 ،. أنا مدعو انتقال الاحتمالات. التمديد للطلبات الأعلى فوري. إذا كانت hاي جاي(ر) لا تعتمد على ر، سلسلة ماركوف تسمى متجانسة.

يستخدم الاستدلال الإحصائي لسلسلة ماركوف الأساليب القياسية لتحليل البيانات الفئوية ، مثل النماذج اللوغاريتمية الخطية. بعض المراجع المفيدة هي أندرسون وغودمان (1957) ، بيرش (1963) ، بيشوب وآخرون. (1975) ، McCullagh and Nelder (1989) ، Agresti (1990) ، و Avery وآخرون. (1999).

عدم التجانس في تسلسل الحمض النووي

سلاسل ماركوف ونماذج اللوغاريتمات الخطية أدوات مهمة لمساعدتنا في وصف الخصائص المحلية لتسلسل الحمض النووي. ومع ذلك ، لا يمكن لسلاسل ماركوف تفسير عدم التجانس الذي قد يكون موجودًا في مناطق مختلفة من نفس تسلسل الحمض النووي. الافتراض الأساسي لهذا النوع من النماذج هو أن السلسلة متجانسة ، مما يعني أن نفس مصفوفة احتمالية الانتقال يُفترض أنها صحيحة بالنسبة للتسلسل الكامل الذي يتم تحليله. ومع ذلك ، يعرف علماء الأحياء أن المناطق المشفرة وغير المشفرة للحمض النووي تقدم ترددات نيوكليوتيدات مختلفة. وبالتالي فإن نموذج ماركوف يتنبأ ببعض السلوكيات التي لم يتم ملاحظتها في البيانات. لذلك ، قد يكون لهذا النوع من النماذج فائدة عملية قليلة في مجموعة متنوعة من المشاكل.

مثال على الحمض النووي غير المتجانس قدمه برناردي وبرناردي (1986). من خلال العمل مع الجوانب البيوكيميائية للحمض النووي ، يشرحون أن الجينوم النووي للفقاريات ذوات الدم الحار يُظهر تقسيمًا تركيبيًا ، من حيث أنه يتكون أساسًا من فسيفساء من مقاطع DNA طويلة جدًا ، isochores. وفقًا للمؤلفين ، تتميز isochores بمناطق متجانسة إلى حد ما في سي + جي المحتوى ، و isochores متميزة تقدم نسب متميزة من سي + جي. يذكر المؤلفون أيضًا أن الجينوم لا يقدم عددًا كبيرًا جدًا من المتساويات وأن عدم التجانس داخل isochore منخفض جدًا ولكنه مرتفع بين isochores. قد يرجع عدم التجانس إلى الاختلافات في أنماط التكوين الأساسي والاعتماد بين القواعد المجاورة ، وقد يعكس الاختلافات الوظيفية والهيكلية بين المناطق.

من الممكن وصف تلك المناطق غير المتجانسة غير المرصودة من جينوم كائن حي معين باستخدام أدوات إحصائية بدلاً من الأدوات الكيميائية الحيوية التي يمكن استخدامها بعد ذلك بشكل شحيح. الأدوات المشار إليها هي نماذج إحصائية يمكن أن تفسر عدم التجانس الموجود في التسلسلات. هذا هو موضوع مناقشتنا القادمة.

نموذج ماركوف المخفي لتسلسلات الحمض النووي

في هذا القسم سوف نقدم بعض نماذج ماركوف المخفية التي طورها تشرشل (1989). لا تزال هذه النماذج تحظى بشعبية كبيرة (انظر الأولاد وآخرون.، 2000). سنقدم وصفًا موجزًا ​​لإعادة ذكر بعض جوانب القسم 4 في تشرشل (1989). للحصول على تفاصيل رئيسية حول هذه القضية يجب الرجوع إلى الورقة المشار إليها.

بينما القواعد أ ، ج ، ج ، ت تركيز النتائج المرصودة وباختصار سوف تدل النتائج، سيتم استدعاء المناطق المتجانسة غير المرصودة التي نبحث عنها الدول المخفية وللإيجاز سوف تدل تنص على. تتمثل مهمتنا في تقدير عدد الدول المخفية الموجودة وتقديم خريطة توضح مكان وجودها. يعتبر عدد الحالات محدودًا وثابتًا ويتوافق مع مناطق الحمض النووي المختلفة. نقدم الآن بعض الرموز والتعريفات اللازمة لوصف نماذج ماركوف المخفية لتسلسل الحمض النووي.

ضع في اعتبارك تسلسل متغير عشوائي <>أنا: أنا = 1 ،. n> مع التوزيع الذي يحدده تسلسل مناظر من الحالات غير المرصودة <>أنا>. تشير إلى تسلسل النتائج المرصودة والحالات حتى وقت ر بواسطة ، على التوالي ، y t = <>1و. ذر> و s ر = <>1و. سر>.

قبول عدد ثابت من الحالات والنتائج متعددة الحدود ، دع yر = (صر ، 0و. ذر ، م -1) متجهًا جميع مكوناته صفرًا باستثناء واحد يساوي واحدًا ، مما يشير إلى أي من النتائج المحتملة يتم ملاحظتها من بين م. ترتبط كل ملاحظة بواحدة من حالات r المشار إليها بواسطة المتجه sر = (sر ، 0و. سر ، ص -1). هناك متجه ص0 من الاحتمالات الأولية المرتبطة بـ s1، مثل أن S.أناص0 ط = 1. وهكذا ، بالنسبة لـ p0 طهناك معلمات r - 1 لتقديرها.

توزيع ذر بالنظر إلى أن الحالة في الوقت t هي k متعددة الحدود ، أي yر | سر ، ك متعدد الحدود (1 ، ص0 ، كو. صم -1 ، ك). المعلمة صأنا ، ك هو احتمال ملاحظة النتيجة i عندما تكون الحالة الحالية ك ، تخضع للقيود


مناقشة

إعادة تعريف المجموعتين الفرعيتين RIFIN و STEVOR

تصف الدراسات السابقة تسلسل RIFIN و STEVOR كمجموعة كبيرة من البروتينات ذات الصلة الفريدة من نوعها المتصورة المنجلية. أظهر التحليل اللاحق لعائلة بروتين RIFIN ، استنادًا إلى الجينوم المرجعي ، أنه يمكن تقسيم عائلة RIFIN إلى مجموعات فرعية أخرى في متواليات A- و B-RIFIN ، والأخيرة مقسمة إلى B1- و B2- و B3-RIFIN [12] .

يؤكد تحليلنا الحالي ، الذي يتضمن العديد من المتواليات ، التقسيم الفرعي لتسلسلات RIFIN إلى مجموعات A- و B1- و B2-RIFIN ، والتي تتميز جميعها بخصائص محددة. ومع ذلك ، فمن المبالغة إنشاء مجموعة محددة لتسلسلات B-RIFIN المتبقية. تمثل هذه التسلسلات مجموعة غير متجانسة (10 جينات في السلالة المرجعية 3D7) من التسلسلات التي يتم تحديدها من خلال حقيقة أنها ليست متواليات A-RIFIN ولديها تشابه قليل نسبيًا مع بروتينات B1- و B2-RIFIN. لذلك قررنا إرجاع تسلسلات B3-RIFIN إلى رتبة B-RIFIN.

حددت دراسة حديثة مجموعات فرعية محتملة ضمن تسلسل A-RIFIN ، و rifA1 و rifA3. تعتمد هذه المجموعات على تشابه التسلسل بنسبة 71٪ و 84٪ ، ولأغلبية كبيرة ، موقعها الجينومي في اتجاه وجهاً لوجه مع جينات المجموعة A var [21]. لم نقم بتدريب HMMs للتعرف على هذه المجموعات بسبب قلة عدد التسلسلات المتاحة من مجموعات البيانات المنسقة. أيضًا ، نجد أن هناك العديد من المجموعات الفرعية الأخرى المرشحة ، لكن العدد القليل من التسلسلات داخل جينوم واحد يجعل من الصعب التمييز بين حسن النية المجموعات الفرعية والجينات الموسعة حديثًا.

حدد هؤلاء المؤلفون أيضًا مجموعة فرعية ، rifA2 ، والتي تتكون من تسلسل RIFIN متباين واحد موجود ، مع حفظ 78 ٪ ، في جميع الجينومات التي تم فحصها [21]. من المحتمل أن تكون حالة جينات النسخة المفردة المحفوظة جدًا بين الجينومات مصنفة بشكل أفضل على أنها جينات محفوظة بدلاً من مجموعات فرعية. لاحظنا أيضًا أن البروتينات التي تتكون منها مجموعة RIFA2 تسجل أدنى مستوى من جميع سلاسل RIFIN ، مع توقع أن يكون أحدها "خاطئًا". حقيقة أن تسلسل بروتين A-RIFIN الجزئي يسجل أعلى من طول RifA2 الكامل وتباعد هذه التسلسلات عن بروتينات RIFIN النموذجية تشير بقوة إلى أن هذه المتواليات مرتبطة ببروتينات RIFIN ولكن لها وظيفة مختلفة لا تتطلب نسخًا متعددة لبقاء الطفيل على قيد الحياة .

في هذه الدراسة ، ركزنا فقط على الجينومات الثلاثة (3D7 و HB3 و DD2) التي تتوفر لها التعليقات التوضيحية بالإضافة إلى قاعدة بيانات Uniprot التي تحتوي على بيانات من الدراسات الميدانية. نحن نؤكد النتيجة ، من قبل وانغ وآخرون.[21] ، أن العديد من متواليات RIFIN محفوظة نسبيًا عبر السلالات ، ولكن من الصعب تقييم ما إذا كان هذا يمثل مقياسًا للتباعد بين مجموعات الطفيليات أو إذا تم اختيارها تطوريًا لوظائف محددة.

أيضًا ، اخترنا اعتماد نهج متحفظ لتعيين STEVOR. سيتم تمييز جميع التسلسلات التي ترتبط بشكل واضح بتسلسلات STEVOR ، ولكنها ليست عالية بما يكفي ، بعلامة STEVOR-like بواسطة برنامج RSpred.

تسلسلات غامضة

أربعة تسلسلات يُتوقع أن تكون بروتينات A-RIFIN لها أيضًا درجات عالية نسبيًا (& gt 300) مع B1- أو B2-RIFIN HMM. عند فحص هذه التسلسلات عن كثب ، وتطبيق تحليل النشوء والتطور على محاذاة كل نصف من هذه البروتينات ، يبدو أن نصفها الطرفي N يتوافق بشكل جيد مع متواليات A-RIFIN بينما نصف الطرف C الخاص بهم يتميز ببروتينات B1- أو B2-RIFIN (البيانات غير ظاهرة). هذه التسلسلات هي هجينة بين بروتينات A- و B1 / 2-RIFIN وتؤكد التقارير السابقة عن إعادة التركيب كوسيلة لتنويع عائلات جينات VSA [29].

مزايا وحدود وفائدة RSpred

لقد قمنا بتسمية مجموعتنا من HMMs وبرنامج التقييم RSpred ، لمتنبئ RIFIN و STEVOR. لقد أظهرنا أنه يكتشف بكفاءة بروتينات RIFIN و STEVOR ويصنفها وفقًا لمجموعتها الفرعية. على الرغم من عدم وجود اكتشافات إيجابية خاطئة ، إلا أن RSpred متحفظ مع التسلسلات المقطوعة والمتصلة عن بعد. ومع ذلك ، فإن معظم هذه التسلسلات يتم التعرف عليها على الأقل والتنبؤ بها كبروتينات RIFIN أو STEVOR. أخيرًا ، أثبت RSpred أنه أكثر حساسية من Pfam و TIGRFAMs HMMs الموجودة [18 ، 19] ، والتي تقتصر أيضًا على نطاق تصنيفها ، لأنها لا تتعرف على مجموعات RIFIN أو STEVOR الفرعية.

لقد طبقنا RSpred على البروتينات الكاملة المستخرجة من مجموعات الجينوم الجديدة. على الرغم من أن هذه الجينومات يتم تسلسلها في الغالب إلى تغطية منخفضة جدًا (1.25 ×) ، فقد تمكنا من اكتشاف جميع المجموعات الفرعية داخل هذه الجينومات. سيكون هذا المورد مفيدًا بشكل متزايد حيث يتم ترتيب المزيد من الجينومات: على وجه الخصوص ، هناك عدد كبير المتصورة مشروع تسلسل الجينوم [30] الذي من المقرر أن يتسلسل أكثر من 100 المتصورة جينومات الطفيليات ، والتي ستسمح بتحليل الجينوم التلوي لعائلات بروتين RIFIN و STEVOR.


توافر البيانات

البيانات الأساسية

UniProtKB - Q3B820 (F161A_HUMAN) ، رقم الانضمام Q3B820: https://www.uniprot.org/uniprot/Q3B820

UniProtKB - Q9ULW0 (TPX2_HUMAN)، رقم الانضمام Q9ULW0: https://www.uniprot.org/uniprot/Q9ULW0

البيانات الموسعة

يحتوي هذا المشروع على ملف "الأشكال التكميلية. pdf" ، والذي يحتوي على البيانات الموسعة التالية:

الشكل التكميلي S1: أ. اضغط على titin في التكرار الثاني لـ PSI-BLAST في قاعدة البيانات nr50 B. مناطق التعقيد المنخفضة في FAM161A.

الشكل التكميلي S2: أ. نتيجة HH لمحاذاة زوجية متناظرة لـ Fam161A و Tpx2 B. بحث HHpred مع محاذاة معاد ضبطها باستخدام خوارزمية أقصى دقة

الشكل التكميلي S3: يتم دفن اللولب الوتدي لـ Tpx2 بعمق في الجيب المكون من أربعة مونومرات توبيولين

الشكل التكميلي S4: خصائص اللوالب التي تتبع تسلسل التلال في Tpx2 و FAM161A

الشكل التكميلي S5: متواليات في حلزونات amphipathic في عائلة FAM161

الشكل التكميلي S6: تباين تسلسل سلسلة التلال والإسفين Tpx2 عبر الأنواع.

تتوفر البيانات بموجب شروط التنازل عن البيانات "بدون حقوق محفوظة" Creative Commons Zero (CC0 1.0 Public domain dedication).


2. نموذج ماركوف للوقت المنفصل الاحتمالي المعدل للفضاء

لاستنتاج حالات UP و DOWN العصبية ، نطور في هذا القسم نموذجًا بسيطًا ومُعدَّلًا لفضاء الحالة بوقت منفصل من Markov يمكن اعتباره متغيرًا لمعيار HMM المطبق على تحليل القطار المرتفع. البنية الاحتمالية الأساسية هي ماركوفيان ومتجانسة ، وخوارزمية الاستدلال فعالة في تحديد إحصائيات عملية الحالة المخفية. بناءً على ذلك ، في القسم التالي ، نطور نموذجًا احتماليًا مستمرًا للتغلب على بعض القيود التي يفرضها هذا النموذج الاحتمالي المنفصل للوقت.

2.1. نموذج ماركوف المخفي.

يتم الإشارة إلى الاحتمال الأولي للحالة بواسطة متجه π = <>أنا> ، أين πأنا = العلاقات العامة (س0 = أنا) (أنا = 0 ، 1). بدون فقدان العمومية ، نفترض أن سعة الحالة المخفية محددة مسبقًا والمتغير المنفصل سك ∈ <0 ، 1> تشير إما إلى حالة DOWN (0) أو UP (1).

ecO1yAIjyZRZvGMRW9R-SM8T4A __ & ampKey-Pair-Id = APKAIE5G5CRDK6RD3PGA "/> ⁠ ، مشتق على أنه (بتجاهل الثابت)


2. منهج ABC MLE لتقدير المعلمات

يقترب مرشح الجسيمات بالتسلسل من تسلسل الكثافات الخلفية

t ≥ 1 من HMM <Xر, صر>ر ⩾ 1 باستخدام توزيع منفصل مرجح مع ن نقاط الدعم ل X1: ر التي تسمى الجسيمات. في كل مرة ر، يتم إعادة أخذ عينات الجسيمات وفقًا لأوزانها الحالية ، ثم يتم نشر الجسيمات المعاد تشكيلها بشكل مستقل عن بعضها البعض باستخدام كثافة الانتقال المقترحة صθ(xر + 1|xر). ثم يتم إعادة وزن الجسيمات لتصحيح التناقض بين p θ (x 1: t + 1 | Y 1: t + 1 = y ^ 1: t + 1) وقانون الجسيمات المقترحة وهو p θ (x 1) : t | Y 1: t = y ^ 1: t) r θ (xt + 1 | xt). هذا هو أخذ العينات ذو الأهمية القياسية والافتراض في خطوة تصحيح الوزن هو أن قانون كل جسيم تمت إعادة تشكيله في الوقت المناسب ر هو p θ (x 1: t | Y 1: t = y ^ 1: t) ، وهو خطأ خاطئ ولكنه صحيح بشكل تدريجي مثل ن يزداد (Chopin 2002 Crisan and Doucet 2002 Del Moral 2004). في تنفيذ مرشح الجسيمات ، ليست هناك حاجة إلى ثوابت التطبيع لتسلسل الخلفية المستهدفة ولكن حساب الأوزان الجديدة يتطلب g θ (y ^ | x) لتكون قابلة للتتبع. أظهر Del Moral (2004) أن أوزان تقريب الجسيمات

t ≥ 1 يمكن استخدامها للحصول على تقدير غير متحيز للاحتمالات < p (Y 1: t = y ^ 1: t)> t ≥ 1. انظر الملحق للحصول على رمز مثال لمرشح الجسيمات.

Jasra et al. (2012) نظر في مشكلة إنشاء تقريب SMC لـ منقي p θ (xt | Y 1: t = y ^ 1: t) ، وهو الهامش لتقريب الجسيمات لـ p θ (x 1: t | Y 1: t = y ^ 1: t) ، لـ HMM مع كثافة الملاحظة المستعصية زθ(ذ|x). نظرًا لأنه لا يمكن حساب أوزان مرشح الجسيمات لمثل هذا HMM حيث زθ(ذ|x) مستعصية على الحل ، فقد اقترحوا تقريب مرشح الجسيمات لـ HMM الممتد <(Xر, صر), ص ε ر>ر ⩾ 1 حيث العملية المشتركةXر, صر>ر ⩾ 1، والتي هي الآن العملية الكامنة لـ HMM الموسعة ، يتم تعريفها بواسطة (1) و (2) والتسلسل الجديد <ص ε ر>ر ⩾ 1 هو (5) Y t ϵ = Y t + ϵ V t، V t ∼ iid Unif B 0 1، t ≥ 1، (5) حيث ب ص ذ يدل على كرة نصف القطر ص & gt 0 متمركزة في y ∈ R d y و Unif (B) هي التوزيع المنتظم على المجموعة ب. ثم الكثافة p * x t | Y 1: t ϵ = y ^ 1: يعتبر t من HMM الممتد بمثابة تقريب لـ p * (xt | Y 1: t = y ^ 1: t) حيث ε & gt 0 يعكس خطأ التقريب وهذا يتضاءل الخطأ مثل ε → 0 انظر أيضًا Calvet and Czellar (2012) Martin et al. (2014) للنتائج النظرية حول هذا التقريب. لاحظ أن p θ * (xt | Y 1: t ϵ = y ^ 1: t) لا يتطابق مع p * (xt | Y 1: t = y ^ 1: t) لأن y ^ 1: t يطيع القانون (1) - (2) وليس (5). Jasra et al. (2012) لاحظ أن p * (x t | Y 1: t ϵ = y ^ 1: t) هو تقريب ABC لمرشح HMM. علاوة على ذلك ، أظهروا أنه من السهل تقريب p θ * (x t | Y 1: t ϵ = y ^ 1: t) باستخدام مرشح جسيمات التمهيد.

ضع في اعتبارك الآن HMM الممتد <(Xر, صر), ص ε ر>ر ⩾ 1 المحدد بواسطة (1) و (2) و (5) والسماح صθ(ص ε 1: ن = ذ1: ن) تشير إلى كثافة الاحتمال (أو دالة الاحتمال) للعملية <ص ε ر>ر ⩾ 1 تم تقييمها عند بعض y 1: n ∈ (R d y) n. (انظر (12) للتعبير الدقيق عن هذه الكثافة). دين وآخرون. (2014) درس الخصائص النظرية لتقدير الاحتمال الأقصى التالي لـ θ *: (6) θ n ϵ = arg max θ ∈ Θ p θ Y 1: n ϵ = y ^ 1: n. (6) (نلاحظ أن (4) هو p θ (Y 1: n ϵ = y ^ 1: n) عندما يتم حذف مجلدات Lebesgue من الكرات B y ^ 1 ϵ،.، B y ^ n ϵ من الأخير) دين وآخرون. (2014) يسمى الإجراء (6) ABC MLE. (استخدام الاختصار ABC هو التأكيد على أنه نفس الاحتمال التقريبي الذي يتم تكبيره هنا). مرشح جسيمات التمهيد من Jasra et al. (2012) يوفر تقريب SMC غير متحيز لاحتمال p (Y 1: n ϵ = y ^ 1: n) ويمكن تعظيم هذا الاحتمال من خلال تقييم التقريب عبر شبكة من القيم لـ θ. ومع ذلك ، من الواضح أن هذا غير عملي لأن بُعد يزيد ، وليس له امتداد مباشر للتقدير العودي وليس طريقة متقاربة دقيقة.

دين وآخرون. أظهر (2014) أن ABC MLE (6) يؤدي إلى تقدير متحيز لمتجه المعلمة θ * بمعنى أنه ن → ∞ ، θ ε ن سوف تتقارب إلى نقطة ما θ * ، ε ≠ θ * ∈ Θ وأن هذا التحيز يمكن أن يكون صغيرًا بشكل تعسفي ، أي ، θ * ، ε → θ * مثل ε → 0. دين وآخرون. (2014) أظهر أن التحيز هو O (ϵ) Dean and Singh (2011) صقل هذا إلى O (ϵ 2). يرجع انحياز ABC MLE إلى حقيقة أن التسلسل المرصود y ^ 1 ، y ^ 2 ،. هي نتيجة القانون (2) لـ θ = θ * وليس (5). دين وآخرون. (2014) اقترح إزالة تحيز θ ε ن في (6) عن طريق إضافة ضوضاء إلى البيانات الحقيقية ثم حساب تقدير الاحتمال الأقصى ، أي دعونا الخامس1, …, الخامسن يكون تحقيقًا لعينات iid من Unif (B 0 1) ودع (7) y t ϵ = y ^ t + ϵ v t ، 1 ≤ t ≤ n. (7) لاحظ أن البيانات الصاخبة ذ ε 1: ن الآن طاعة قانون <ص ε ر>ر ⩾ 1 عندما θ = θ *. لذلك ، فإن الإجراء (8) θ n ϵ = arg max θ ∈ Θ p θ Y 1: n ϵ = y 1: n ϵ ، (8) الذي سيُطلق عليه صاخبة ABC MLE من الآن فصاعدًا ، يمكن أن ينتج الآن مقدرًا ثابتًا من متجه المعلمة θ * as ن → ∞. أثبتت هذه النتيجة من قبل دين وآخرون. (2014) يمكن تفسيره على أنه التكافؤ المتكرر لملاحظة ويلكنسون بأن التوزيع اللاحق ABC دقيق في ظل افتراض خطأ النموذج (Wilkinson 2013).

أخيرًا ، دين وآخرون. (2014) لاحظ أيضًا أن استخدام أنواع أخرى من الضوضاء في (5) ممكن دون المساومة على مقاربات ABC MLE الصاخبة ، أي (9) Y t ϵ = Y t + ϵ V t، V t ∼ iid κ ، t ≥ 1، (9) حيث κ كثافة متمركزة على نحو سلس. (وفقًا لذلك ، يتم إجراء ABC MLE المزعج في (8) مع الملاحظات التالفة الضوضاء (7) حيث الآن الخامسأنا هي تحقيق لعينات iid من κ.) كما أوضحنا ، فإن التفاضل المستمر κ مهم لتطوير تقنيات MLE العملية القائمة على التدرج. في هذا العمل ، اخترنا κ لتكون الكثافة الاحتمالية لمتغير وحدة التباين العشوائي الغاوسي ذي المتوسط ​​الصفري. الخيارات الأخرى ممكنة (لكن لم يتم التحقيق فيها) وسيظل إطار عملنا قابلاً للتطبيق.

نلاحظ أنه على الرغم من أن الأساس النظري لـ ABC MLE قد تم تأسيسه في Dean et al. ( 2014 ), the authors do not propose a practical methodology for implementing ABC MLE in their work this is indeed an important void to be filled. In this article we demonstrate how, by using ideas from Poyiadjis, Doucet, and Singh ( 2011 ), both batch and online versions of noisy ABC MLE can be implemented with SMC.


خيارات الوصول

احصل على حق الوصول الكامل إلى دفتر اليومية لمدة عام واحد

جميع الأسعار أسعار صافي.
سيتم إضافة ضريبة القيمة المضافة في وقت لاحق عند الخروج.
سيتم الانتهاء من حساب الضريبة أثناء الخروج.

احصل على وصول محدود أو وصول كامل للمقالات على ReadCube.

جميع الأسعار أسعار صافي.


[47] Recall that the hidden state حأنا = (xأنا, ذأنا, رأنا, يأنا, جأنا, أأنا), recording the longitude and the latitude of the epicenter, the occurrence time, the index of the most recent mother earthquake up to أنا, the indicator of whether or not the earthquake أنا is a cluster earthquake, and the indicator of whether or not a cluster is active.

[48] Five parameters are introduced in our model: γ is the intensity of the point process for single earthquakes, λ is the extra intensity when a cluster is active, ε is the intensity of the initiation of a new cluster, د is the variance parameter of the bivariate Gaussian distribution, ص is the probability that the mother earthquake becomes sterile after giving birth to one more offspring. Note that the mother earthquake is born reproductive, which guarantees that each cluster contains at least two earthquakes. In the data set, the earthquakes occurred in the rectangular area 33°–39°N and 131°–140°E. The area of the rectangle is 54 square degrees.