توالی یابی نسل جدید(مبانی، تجزیه و تحلیل جامع داده ها) .
نویسنده:
سجاد رشیدی منفرد
مترجم:
.
سال نشر:
1403
صفحه:
1134
نوبت چاپ:
1

در این اثر علمی تقریباً همۀ حوزههای مطرح و در دست­ پژوهش رایج راجع به تجریۀ دادههای حاصل از توالییابی نسل جدید درباره مطالعۀ ژنوم و ترنسکریپتوم پوشش داده شود و برای درک بهتر علاوه بر تأکید روی مبانی آنها به ذکر شیوۀ اجرای درست و دقیق پروژهها با ذکر دستورات کاربردی سلسلهوار و استفاده از منابع تصویری متعدد برای قابل فهمتر کردن موضوع یا تجزیۀ در دست بحث استفاده شود. بهطور کلی در این اثر علمی بیش از 1120 دستور کاربردی مهم (شامل بیش از 850 دستور قابل اجراء در محیط پایتون و Perl و 270 دستور در محیط R) به همراه توضیح دقیقی راجعبه چرایی استفاده از آنها و گزینههای لازم و مناسب برای تجزیههای منظور، 383 تصویر با کیفیّت مناسب برای درک بهتر مطالب و تجزیهها و 86 جدول مفید در راستای کمک به مقایسه‌های‌ مختلف یا توضیح نتایج تجزیهها آمده است. با این اوصاف کتاب پیش رو بدون اقراق تنها کتاب جامع درباره تجزیه‌وتحلیل دادههای NGS به زبان فارسی است­ که با زبانی ساده، روان و پروژه‌محورانه نگاشته شده است. محتوی و روشهای بیانشده در فصلهای مختلف آن مناسب پژوهشگران‌ عرصههای مختلف زیستی مانند زیستشناسی، کشاورزی و پزشکی است­ و نیز میتواند بهعنوان منبع درسی برای دورههای کارشناسی ارشد و دکتری در رشتههای مختلف؛ زیستشناسی مولکولی، بیوتکنولوژی کشاورزی و پزشکی، ژنتیک گیاهی و دامی و میکروبیولوژی صنعتی، کشاورزی و پزشکی استفاده شود.

پیشگفتار مؤلف 35

فصل اول: روش‎های مختلف توالی یابی نسل دوم و کاربردهای آن‎ها 41

مقدمه 41

تعیین توالی به وسیلۀ واکنش زنجیره‌ای پلی‌مراز 42

فنّاوری‎های توالی یابی Ilumina 48

فراخوانی بازها در روش توالی یابی Illumina 53

فنّاوری توالی یابی نانوحلقۀ DNA 54

مراحل اجرا 56

آماده سازی نمونه 56

ساخت DNB 56

بارگذاری DNB 57

فنّاوری cPAS 58

معرف توالی ‎یابی CoolmpStm 58

آماده سازی رشتۀ دوم 59

فنّاوری توالی ‎یابی جریان یونی (Ion Torrent) 59

آماده‌سازی نمونه و توالی یابی در سکوی جریان یونی 60

تراشه‌های نیمه ‎هادی و توالی ‎یابی غیر اپتیکی 61

فراخوانی بازها 63

بررسی و تحلیل ترنسکریپتوم 63

توالی‎یابی و سرهم کردن ترنسکریپتوم 64

توالی ‎یابی RNA 64

روش‌های مختلف توالی یابی RNA 65

توالی یابی RNA کل 65

توالی‌یابی RNA هدف 65

توالی‌یابی RNA تکسلول (scRNA-seq) 66

توالی یابی Small RNA 67

توالی یابی مختص رشته‎ 68

نمایه ریبوزوم (Ribo-Seq) 70

توالی یابی mRNA (mRNA-seq) 73

فصل دوم: مبانی کنترل کیفیّت و کیفی سنجی نتایج توالی یابی 75

مقدمه 75

قالب FASTQ و مبانی کنترل کیفیّت بازها و خوانش‎ها 75

اجرای برنامۀ fastp در محیط پایتون 79

اجرای برنامۀ Rfastp در محیط R 82

فصل سوم: الگوریتمهای سرهم کردن خوانشها 85

مقدمه 85

الگوریتم‌های سرهم‌کردن: OLC و DBG 85

تعریف عمومی ‌از گراف دی‌بروین 87

ضرورت استفاده از گراف دی‌بروین برای سرهم‎کردن خوانش‎های ژنوم 88

ماهیت دورشته‌ای ژنوم 91

تأثیر موتاسیون در اندازۀ  K-mer 91

گراف دی‌بروین برای نواحی تکراری 93

چند نکته مهم درباره گراف de Bruijn 94

روش سرهم‎کردن ژنوم با استفاده از گراف دی‌بروین 95

سرهم ‎کردن ژنوم از طریق خوانش‌های کامل و صحیح 95

گراف دی‎بروین و روش توالی یابی سنگر 97

تفاوت در اندازۀ K-mer برای جبران کمبودها 98

چرا کانتیگهای سرهم شده کوتاه‌تر از طول خوانشها هستند؟ 100

حافظه (RAM) لازم و توزیع K-mer در یک کتابخانه 100

سرهم کردن ژنوم با خوانش‌های نادرست. تأثیرات و اقدامات 101

چرا نرم‌افزارهای مبتنی ‎بر گراف دی‌بروین به میزان بالایی حافظه احتیاج دارند؟ 101

تأثیر خطاهای توالی‌یابی در ساختار گراف دی‌بروین 105

انشعابات، حباب‌ها و اتصالات کاذب 106

شاخه‌ها و حباب‌ها: خطا در توالی‎یابی یا پلی‌مورفیسم؟! 109

تأثیر توالی‌یابی‌های ناهم‌شکل 109

ترسیم گراف دی‌بروین از یک توالی کوتاه 110

گراف ‌دی‌بروین برای داده‌های ترنسکریپتوم یا کتابخانۀ RNA-Seq 111

گراف دی‌بروین برای ژن‎هایی با پیرایش متناوب 113

گراف دی‌بروین برای ژنوم‌هایی با میزان پلی‌مورفیسم بالا 114

گراف دی‌بروین برای خوانش‎هایی با طول بلند 115

گراف دی‎بروین برای مطالعات متاژنومیکس 116

فصل چهارم: توصیف قالب‎های پرکاربرد داده‎ها و ساخت آن‎ها 119

مقدمه 119

قالب GFF 119

ایجاد فایل GFF3 120

اجرای برنامۀ Gmap 120

مراحل اجرای برنامۀ Gmap 122

اجرای برنامۀ spaln 123

فیلتر و مرتّب ‎کردن نتایج هم‌ردیفی بین ژن‎ها و ژنوم 125

هم‌ردیفی محلّی و نیمه‌کلی 126

بهره ‎برداری از فایل GFF3 با استفاده از برنامۀ BEDTools 126

استخراج ویژگی‎های ژنومی با استفاده از ابزار GAD 127

قالب BED 131

قالب BedGraph 132

مراحل ساخت فایل Bedgraph 133

اجرای برنامۀ SAMtools 137

حذف خوانش‎های هم‌ردیف شده در چند مکان ژنوم 138

نشان‎گذاری و حذف خوانش‎های که در دو مکان هم‌ردیف شده ‎اند 139

قالب BAM 139

قالب VCF 140

قالب Sequence Read Archive (SRA) 143

دانلود داده از پایگاه SRA 144

قالب FASTQ 146

دست‌کاری و استخراج اطلاعات از فایل‎های fa  و fq با استفاده از برنامۀ SeqKit 147

ارائه شاخص‎های آماری یک فایل fa (stats) 148

تبدیل فایل fq به fa (fq2fa) 148

تبدیل FASTA/Q در قالب جدول و ارائه اطلاعات لازم (fx2tab) 148

حذف توالی‎های تکراری دارای ID/name/sequence یکسان (rmdup) 149

شناسایی توالی‎های مشترک بین چند فایل (common) 150

تقسیم یک فایل بزرگ به فایل‎های کوچک‌تر (split2) 151

تبدیل یک فایل دارای چندتوالی در قالب FASTA به فایل‎های مجزا 153

مرتّب‎سازی توالی‎های یک فایل بر‌اساس شاخصه‎های مختلف (sort) 153

فصل پنجم: همردیفی، مبانی و ابزارها 155

مقدمه 155

اهداف عملکردی و تکاملی هم‌ردیفی ژن‎ها 156

درج 156

حذف 157

جانشینی 157

واژگان استفاده‌شده در هم‌ردیفی 157

انواع هم‌ردیفی 157

از نظر هم‌ردیفی 158

الف- هم‌ردیفی کلی 158

ب) هم‌ردیفی موضعی 158

از نظر تعداد توالی هم‌ردیفی‎شده 159

الف- هم‌ردیفی جفتی 159

ب- هم‌ردیفی چندگانه 159

هم‌ردیفی مبتنی بر ماتریس امتیازدهی 159

اصول امتیاز‌دهی در هم‌ردیفی جفتی توالی‌ها 159

مدل‌های و ابزار‌های استفاده‌شده در هم‌ردیفی پروتئین‌ها 163

الف- حفظ شدن 164

ب- فراوانی 164

ج- تکامل 164

شناسایی طول کامل کانتیگ‎ها با استفاده از داده‎های ترنسکریپتوم یک یا چند پروژه 172

اجرای برنامۀ BLAST 173

شناسایی عملکرد کانتیگ‎ها 177

اجرای پروژۀ شناسایی توالی‎های تقاضای منحصر به یک گونه 177

فصل ششم: راهبردهای سرهمکردن ترنسکریپتوم و ابزارهای آن‎ها 181

مقدمه 181

راهبرد برپایه ژنوم مرجع (رفرنس) 181

راهبرد سرهم‌کردن de novo 184

مرور اجمالی سرهم‎کردن ترنسکریپتوم بر‌اساس ژنوم مرجع 184

دست‌آوردها و مزایای روش de novo 184

سرهم کردن de novo در عمل 185

معایب و مشکلات سرهم ‎کردن de novo 186

سرهم ‎کردن ترنسکریپتوم به صورت ترکیبی با ژنوم مرجع 188

برنامۀ Trinity 192

خروجی Trinity 198

سرهم ‎کردن de novo با استفاده از برنامۀ Trinity 199

سرهم‌کردن خوانش‌های دوطرفه 199

سرهم ‎کردن خوانش‎های یک‎طرفه 200

سرهم‌کردن خوانش‎های هیبرید 200

سرهم‌کردن خوانش‎های هم‌ردیف‎شده روی ژنوم 202

سرهم‌کردن خوانش‎های حاصل از روش توالی‎یابی ویژه رشته 202

مثال نتایج سرهم‌کردن توالی‎یابی ترنسکریپتوم گیاه گلپر با نرم‎افزار Trinity 203

شناسایی نواحی رمزکننده در توالی‎های سرهم ‎شده 207

شناسایی بلندترین ORF 207

شناسایی ORFها بر‌اساس فایل GTF ژنوم 208

فایل‎های نتایج 209

سرهم کردن با استفاده از ژنوم مرجع 210

نمایه سازی؛ الگوریتم‎های هم‌ردیفی توالی‎ها در NGS 210

هم‌ردیفی توالی‎ها با استفاده از جدول hash 210

هم‌ردیفی توالی‎ها با استفاده از روش درخت پسوند 214

جست‎جوی توالی در ژنوم مرجع با استفاده از الگوریتم BWT 216

ابزارهای سرهم‌کردن با استفاده از ژنوم مرجع (رفرنس) 217

اجرای برنامۀ STAR 217

خوشه بندی، دوخت و امتیازدهی 219

ساخت فایل ایندکس ژنوم مرجع 220

اجرای هم‌ردیفی خوانش‌ها با ژنوم مرجع 222

اجرای برنامۀ HISAT2 224

ساخت فایل ایندکس ژنوم 224

هم‌ردیفی خوانش‎ها روی ژنوم 225

اجرای برنامۀ subread در دو محیط پایتون و R 226

شناسایی اتصالات اگزون-اگزون 229

اجرای برنامۀ subread در محیط R 229

هم‌ردیفی توالی خوانش‎های کنترل کیفیّت شده روی ژنوم 230

اجرای برنامۀ subread در محیط پایتون 231

هم‌ردیفی خوانش‎های DNA روی ژنوم در محیط R 231

شناسایی SNPها با استفاده از برنامۀ  exactSNPاز بستۀ subread در محیط R 232

شناسایی SNPها در محیط پایتون 232

اجرای هم‌ردیفی ژنوم با استفاده از برنامۀ subjunc در محیط R 232

اجرای هم‌ردیفی ژنوم با استفاده از برنامۀ subjunc در محیط پایتون 233

هم‌ردیفی خوانش‎های بلند روی ژنوم با استفاده از برنامی sublong در محیط R 233

هم‌ردیفی خوانش‎های بلند روی ژنوم با استفاده از برنامۀ sublong در محیط پایتون 234

هم‌ردیفی microRNAs روی ژنوم 234

فصل هفتم: بررسی بیان افتراقی ژن‎ها 237

مقدمه 237

کمّی‎سنجی نتایج هم‌ردیفی خوانش‎ها روی ژنوم مرجع 238

اجرای برنامۀ cufflinks 238

اجرای برنامۀ StringTie2 239

کمّی‎سنجی با استفاده از ماژول featureCounts بستۀ subread در محیط R 240

کمّی‎سنجی مکان-ژنومی با استفاده از فایلGTF 240

کمّی‎سنجی در محیط پایتون 240

کمّی‎سنجی نتایج هم‌ردیفی خوانش‎ها روی توالی‎های مرجع ترنسکریپتوم 243

اجرای برنامۀ BOWTIE2 243

ساخت فایل ایندکس مرجع ترنسکریپتوم 244

هم‌ردیفی خوانش‎ها 244

اجرای برنامه های bowtie و bowtie2 در محیط R 246

اجرای برنامۀ bowtie2 247

اجرای برنامۀ bowtie 247

کمّی سنجی ژن‎ها با استفاده از برنامۀ salmon 248

نرمال سازی داده‌های بیانی 248

نرمال سازی درون‌نمونه‌ای 249

مثال محاسبات RPKM 251

مثال محاسبات TPM 252

روش‎های نرمال سازی بین نمونه‎ای 253

نرمال سازی بر‌اساس چندک بالایی 255

روش نرمال سازی TMM 256

روش نرمال سازی RLE 258

مراحل روش نرمال سازی RLE 258

انجام محاسبات روش نرمال سازی TMM 259

محاسبۀ آمارۀ M-value 261

محاسبۀ آمارۀ A 262

محاسبۀ چندک سی‎ام یا دهک سوم M-valueها 264

انجام محاسبات روش نرمال سازی RLE 266

محاسبۀ TPM و RPKM در محیط R 270

حذف آثار ناخواستۀ دسته ‎ای 271

اجرای بستۀ sva 273

فراخوان بستۀ sva و داده‎های بیانی به‎منظور حذف آثار دسته ای 273

نمایش داده در فضای دو بعدی با استفاده از برنامۀ Rtsne 274

مراحل کار در الگوریتم t-SNE 275

اجرای برنامۀ Rtsne 279

اجرای برنامۀ ComBat_seq در بستۀ SVA 280

تجزیه بیان افتراقی ژن‎ها 282

مدل‎های آماری تجزیه داده های بیان ژن‎ها 283

مدل‎سازی داده های کانت 284

ترسیم نمودار پراکنش میانگین داده ‎ها در مقابل واریانس آن‎ها 285

اجرای برنامه های edgeR و DESeq2 287

اجرای بستۀ edgeR 289

محاسبۀ مقادیر تعدیلشدۀ p-value 293

بررسی بیان افتراقی ژن‎ها 296

اجرای برنامۀ DESEq2 299

تجزیه بیان افتراقی ژن‎ها 303

ترسیم نمودار بیان افتراقی ژن‎ها 303

تبدیل داده ها برای نمایش پراکنش آن‎ها 307

روش تثبیت واریانس 307

روشrlog 309

روش لگاریتمی  log(x+1) 309

تجزیه افتراقی بیان ژنها با استفاده از رویکرد ناپارامتریک 311

بستۀ NOISeq 311

برنامۀ NOISeq-real با استفاده از تکرار 313

برنامۀ NOISeq-si بدون تکرار 313

برنامۀ  NOISeqBIO 314

اجرای بستۀ NOISeq 316

نرمال‎سازی داده‎های بیانی 319

فیلتر داده‎ها 319

اجرای برنامۀ noiseq برای تجزیه داده‎های بیان بدون تکرار 324

استخراج نتایج برنامۀ noiseqbio 325

استخراج و ذخیرۀ نتایج 325

فصل هشتم: شناسایی پیرایش‎های متناوب و circRNAها 327

مقدمه 327

انواع پیرایش متناوب 328

اجرای برنامۀ rMATS 328

RNAهای حلقوی 334

بیوژنز circRNAها 335

خصوصیات circRNAها 337

عملکردهای بیولوژیک circRNAها 338

circRNAها در پاسخ به تنش‎های زیستی و غیر زیستی در گیاهان 342

کشف و بررسی نمایه بیان circRNAها 343

تنوع circRNA 344

نمایه سراسر ژنومی circRNAها 345

ساخت کتابخانۀ ترنسکریپتوم حاوی circRNA 345

پایگاه های دادۀ circRNA 347

الگوریتم ‎های محاسباتی برای شناسایی circRNAها 349

شناسایی نواحی پردازش برگشتی 349

شناسایی circRNAها با استفاده از برنامۀ CIRI2 353

تشخیص BSJ با استفاده از روش آماری حداکثر درستنمایی (MLE) 354

اجرای برنامۀ CIRI2 354

ماژول RO1 355

اجرای ماژول RO1 356

ماژول RO2 356

ماژول Merge 357

شناسایی circRNAها با استفاده از برنامۀ CIRCexplorer2 361

اجرای برنامۀ CIRCexplorer2 361

شناسایی پردازش‎های برگشتی متناوب 368

شناسایی رویدادهای پردازش متناوب درون circRNAها 369

کمّی سنجی و بررسی بیان افتراقی circRNAها با استفاده از ابزار CIRIquant 370

اجرای برنامۀ CIRIquant 371

محاسبۀ DE و DS 374

مراحل انجام بررسی بیان افتراقی ژن‎ها با وجود تکرارهای بیولوژیک 375

گام اول: تهیه فایل‎های ورودی لازم برای بررسی بیان 375

گام دوم: تهیه فایل داده های بیان ژن‎های حاصل از برنامۀ StringTie2 376

کمّی‎سنجی و بررسی بیان circRNAها به ‎صورت گام‎ به گام و دستی 379

مراحل انجام کار به‎صورت گام‎به‎گام 380

تأئید و تفسیر نتایج شناسایی و بررسی بیان افتراقی circRNAها 384

فصل نهم: شناسایی و بررسی بیان میکروRNAها 387

مقدمه 387

جایگاه ژنومی میکروRNAها و نقش آن‎ها 388

شناسایی میکروRNA با استفاده از روش‌های محاسباتی 390

توالی‎یابی نسل جدید روشی مناسب و جامع برای شناسایی و کمّی سنجی میکروRNA 393

نام‎گذاری میکروRNA 394

اجرای برنامۀ miRDeep2 به منظور شناسایی میکروRNAها 395

کمّی‎سنجی میکروRNA‎های بالغ 400

اجرای برنامۀ quantifier.pl 401

شناسایی میکروRNAهای جدید 402

فصل دهم: ترسیم شبکه های هم بیان 405

مقدمه 405

انواع شبکه های بیولوژیک 406

مراحل ساخت شبکۀ هم‌بیان 409

پیش‌پردازش داده‎ها 409

ساخت شبکۀ هم ‎بیان وزن‎دار 410

روش گام‌به‌گام 410

شناسایی ماژول 418

محاسبۀ ماتریس TOM 418

ترسیم دندروگرام بر‌اساس مقادیر عدم تشابه TOM 420

خوشه ‎بندی و روش‎های آن 420

شناسایی ماژول با تخصیص ژن‎ها به آن‎ها 423

تلفیق ماژول های بسیار مشابه 424

تجزیه مقادیر منفرد 425

مراحل انجام تجزیه به مؤلفه ‎های اصلی (PCA) و محاسبۀ بردارهای ویژه و مقادیر ویژه 428

مقادیر ویژه ماتریس 431

محاسبۀ مقادیر مؤلفۀ اصلی برای ژن‎ها 432

ارتباط بین ماژول‎ها و صفات 434

ساخت شبکه به صورت اتوماتیک با استفاده از عملگر بلوک 434

انتخاب ژن و ماژول 434

مطالعۀ ویژگی‎های توپولوژیک شبکه 435

تمرکز شبکه 440

قابلیت تصویر‎سازی 441

مرتبط‎ سازی با سایر نرم‎افزار‎ها 441

اجرای بستۀ WGCNA برای ترسیم شبکه های هم‎بیان 442

تعیین رنگ برای هر‌یک از ماژول‎ها 452

تلفیق ماژول‎ها 455

استخراج نتایج در قالب برنامۀ cytoscape 458

تصویرسازی نتایج با استفاده از برنامۀ WGCNA 459

شناسایی بلوک ماژولی برای شبکه های ‎بزرگ 462

ترسیم و تجزیۀ ماژول‎ها در برنامۀ Cytoscape 463

تصویر‎سازی شبکۀ ترسیم شده با استفاده از بستۀ WGCNA 464

تجزیه شبکه 466

1- روش‎های محلّی 467

2- روش‎های کلی 468

تعیین عملکرد ژن‌های درون ماژول‌های مرتبط با متابولیت ثانویه زعفران 471

شناسایی و تصویر‎سازی ماژول‎ها 472

شناسایی ماژول‎های اختصاصی و حفظ‎شده 473

آماره‎های حفظ‎شدگی ماژول برای شبکه ‎های عمومی 474

آماره‎های ‎حفظ‎شدگی ماژول برای شبکه های همبستگی 476

آمارۀ Zsummary حفظ‎ شدگی ماژول مرکب 478

ارزیابی معنی‎داری آماره های حفظ‎ شدگی ماژول با استفاده از آزمون جایگشت 480

شناسایی ماژول‎های حفظ‎ شده با استفاده از تابع modulePreservation در بستۀ WGCNA 482

اجرای برنامۀ modulePreservation در بستۀ WGCNA 485

شناسایی ماژول‎های حفظ‎ شده با استفاده از رویکرد جایگشت مقیاس پذیر 491

آماره‎های حفظ‎شدگی ماژول‎ها 494

داده های پراکنده 498

آزمون فرض 499

برآورد p-value به‎وسیلۀ آزمون جایگشت 500

مراحل انجام کار در برنامۀ NetRep 504

اجرای برنامۀ NetRep در محیط R 506

ساخت ماتریس همبستگی داده های بیانی نمونه های گلدار 506

ساخت ماتریس همبستگی داده های بیانی نمونه های بدونگل 508

بررسی نتایج 511

محاسبۀ خصوصیات ماژول در یک شبکه 518

شناسایی هابژن‌های مرتبط با گل‌دهی زعفران 520

اعتبارسنجی نتایج با استفاده از بررسی بیان افتراقی ژن‌های هاب مرتبط با گل‌دهی 521

فصل یازدهم: توالی یابی و راهبردهای سرهم‎کردن ژنوم ها 523

مقدمه 523

توالی ‎یابی ژنوم و پیچیدگی آن 524

کاربردهای توالی یابی ژنوم‎ها 526

توالی یابی خوانش کوتاه و مشکلات سرهم‎کردن ژنوم 526

فنّاوری‎های توالی یابی با طول بلند 527

توالی یابی به روش SMRT 528

فنّاوری ONT 531

خوانش‎ های طولانی پیوسته PacBio 533

خوانش‎ های بلند و بسیار بلند ONT 535

فنّاوری توالی یابی TSLR 537

مراحل انجام فنّاوری توالی یابی TSLR 537

ویژگی‎های ژنومی یوکاریوت‎ها و توالی ‎یابی آن‎ها 540

برآورد اندازۀ ژنوم با استفاده از نمودار توزیع K-mer 541

اجرای برنامۀ jellyfish 542

ترسیم نمودار‎ها در محیط R 544

محاسبۀ تعداد کل K-merها 544

طراحی بهترین نقشه به منظور توالی یابی ژنوم 550

استخراج DNA با کیفیّت 551

میزان پوشش و سایر آماره‎های مرتبط با توالی ‎یابی ژنومی 552

پوشش و مرجع آن 553

سیستم کامپیوتری لازم و چگونگی سرهم‎کردن خوانش‎های ژنومی 557

تصحیح خطاها در قطعات سرهم ‎شده با استفاده از خوانش‎های SGS 559

برنامه ‎های سرهم‎کردن توالی ‎های ژنوم 561

برنامۀ HASLR 561

اجرای برنامۀ HASLR 562

سرهم‎ کردن توالی‎ های حاصل از فنّاوری نسل سوم توالی‎یابی با استفاده از برنامۀ canu 563

گزینه‌های لازم برای همۀ مراحل 566

گزینه های لازم برای مرحلۀ تصحیح 567

گزینه های لازم برای مرحلۀ سرهم‎کردن 567

گزینه های لازم برای سرهم‎کردن ژنوم‎های پلی‎پلوئیدی 568

گزینه های لازم در سرهم‎کردن داده‎های متاژنوم 568

گزینه های لازم برای داده‎هایی با پوشش کم 569

گزینه های لازم برای داده‎هایی با پوشش بالا 569

ژنوم های دارای درصد AT/GC بالا 569

داده ‎هایی با همسانی کمتر از 80 درصد 570

بررسی کیفیّت و کمیّت ژنوم سرهم شده قبل از مستندسازی 574

ساخت ژنوم کامل با استفاده از خوانش‎های حاصل از روش Hi-C 575

فازبندی هاپلوتیپ‎ها و سرهم‎کردن ژنوم 577

راهبردهای مبتنی ‎بر هم‌ردیفی با ژنوم مرجع 578

فازبندی در ژنوم‎های دیپلوئیدی 578

فازبندی در ژنوم‎های پلی‎پلوئید 581

راهبردهای مبتنی‎ بر سرهم‎کردن de novo ژنوم 583

ژنوم های دیپلوئید 584

ژنوم ‎های پلی‎پلوئید 586

نواحی تکراری در ژنوم‎ها و راهبردهای سرهم کردن و فازبندی آن‎ها 587

سرهم کردن کانتیگ‎های مربوط به ژنوم‎های پلی‎پلوئیدی با استفاده از برنامۀ ALLHIC 592

مراحل اجرای برنامۀ ALLHiC به‎صورت گام‎به‎گام 595

کنترل کیفیت خوانش‎ های هم‌ردیف شده 596

سرهم کردن ژنوم بر‌اساس فازبندی‎ هاپلوتیپ‎ها با استفاده از برنامۀ GreenHill 608

خوانش‎های ورودی 611

ادغام هاپلوتیپ‎ها 612

نقشه‎یابی خوانش‎ها 614

ساخت داربست‎های توافقی به‎وسیلۀ خوانش‎های بلند 614

شناسایی یال‎های اشتباه به وسیلۀ خوانش‎های Hi-C 614

مرحلۀ فازبندی 617

اجرای برنامه GreenHill 619

تهیۀ نقشه‎های نوری (اپتیکی) بیونانو 621

الکتروفورز و خطی ‎کردن DNA 623

سرهمکردن de novo نقشۀ ژنوم 624

سرهم‎کردن ژنوم‎های کوچک 625

سرهم‎کردن ژنوم اندامک ‎ها 626

برنامۀ NOVOPlasty 626

اجرای برنامۀ NOVOPlasty 627

تهیۀ فایل تنظیمات (کانفیگ) 628

اجرای برنامۀ NOVOPlasty 630

سرهم کردن خوانش‎های بلند سینتتیک حاصل از فنّاوری TSLR 634

تصحیح کروموزوم باکتری سرهم‎شده با استفاده از برنامۀ Pilon (genome.fasta) 638

فصل دوازدهم: شناسایی محل اتصال پروتئین‎ها در ژنوم (ChIP-Seq) 641

مقدمه 641

مراحل اجرای روش  ChIP-Seq 642

هم‌ردیفی با ژنوم 644

مشخص کردن نقاط غنی 645

تجزیه‌وتحلیل‌های پایین‎دست 646

اجرای برنامۀ MACS 648

اجرای برنامۀ MACS برای شناسایی مکان اتصال عوامل رونویسی 653

اجرای برنامۀ IDR  از بسته نرم ‎افزاری phantompeakqualtools برای بررسی تکرار‎های مختلف 657

اجرای برنامۀ PePr برای داده‎های تکراردار 659

ارتباط بین پیک‎ها و ژن‎ها 662

شناسایی نزدیک‎ترین ژن‎ها به پیک‎ها در ژنوم با استفاده از برنامۀ bedtools closest 663

اجرای برنامۀ bedtools groupby 665

نمایش بهتر فایل BAM با استفاده از تبدیل آن به قالب bigwig 666

روش مستندسازی پیک‎ها با اجرای برنامۀ HOMMER 668

مستندسازی پیشرفته 675

ترسیم لوگوی موتیف‎ها برای پیک‎های شناسایی‎شده 676

فصل سیزدهم: اپیژنومیک (متیل سیکونسینگ) 679

مقدمه 679

متیلاسیون DNA 680

جزایر CpG در ژنوم موجودات 681

نقش متیلاسیون DNA در سرکوب رونویسی ژن‎ها 681

روش توالی‎یابی متیل برای شناسایی تغییرات اپی‌ژنتیکی از نوع متیلاسیون 683

هم‌ردیفی و پردازش اطلاعات 685

اجرای برنامۀ Bismark 686

مراحل اجرای برنامۀ bismark 687

خلاصه گزارش نتایج برنامۀ Bismark 691

مرحلۀ نهایی اجرای برنامۀ Bismark 692

گزارش پوشش نوکلئوتیدی به‎وسیلۀ برنامۀ Bismark 693

فیلتر کردن خوانش ‎های تیمار‌نشده با بی‎سولفیت 694

فصل چهاردهم: سینتنی، مبانی و ابزارها 697

مقدمه 697

سینتنی و تکامل 698

واژگان 698

ژن های همولوگ 700

ژن های اورتولوگ 700

ژن های پارالوگ 700

روش‌ها و ابزارهای تشخیص سینتنی 702

کاربردهای سینتنی 702

انواع سینتنی 703

اجرای برنامۀ MCScanX 704

شیوۀ عمل الگوریتم MCScanX 704

شمارش تعداد ژن ها در هر یک میلیون جفتباز در فایل 10oryza.bed 711

نمایش جایگاه کروموزومی ژن‎های مطالعه‌شده 713

اجرای برنامۀ  DensityMap 714

فصل پانزدهم: فراخوانی SNPها 721

مقدمه 721

توالی‎یابی ژنوم 721

مراحل انجام GBS 724

مراحل عملی انجام GWAS 726

فراخوانی SNPها 726

اجرای بستۀ stacks 727

اجرای پایپ لاین‎ها 734

برنامۀ ipyrad 735

اجرای برنامۀ ipyrad 738

فراخوانی SNPها با استفاده از برنامۀ GATK 741

کیفیّت نقشه یابی 742

واریانت‎ها در خوانش‎های تکراری 743

مراحل شناسایی SNPها 744

فیلتر SNPها 753

فیلتر بر‌اساس داده ‎های گم‌شده 758

برآورد ژنوتیپ داده‌های گم‌شده 758

فصل شانزدهم: پویش گستردۀ ارتباطات ژنومی (GWAS) 759

مقدمه 759

انتخاب به کمک نشانگر (MAS) 760

آشنایی با مفهوم عدم تعادل لینکاژی 762

عوامل مؤثر بر LD 765

نقشه‎یابی ارتباطی 767

مدل های آماری نقشه یابی ارتباطی 767

مدل خطی 767

مدل مخلوط چندلوکوسی 768

ساختار جمعیت 768

روابط خویشاوندی 773

نقشه ‎یابی ارتباطی 774

مقایسه کلی مدل‎ها 774

محاسبۀ ساختار ژنتیکی جمعیت‌ها 775

برنامۀ Structure 776

تهیه فایل داده‌ها برای نشانگرهای SNPs 776

اجرای برنامۀ Structure در محیط ویندوز 777

اجرای برنامۀ structure در محیط پایتون 785

نتایج 787

تجزیه ساختار جمعیت با استفاده از بستۀ LEA 790

مراحل انجام کار 790

تجزیۀ GWAS 793

داده‎های ورودی 793

تهیه داده های فنوتیپ 794

تهیه داده‎ های ژنوتیپی 794

قالب عددی 795

تهیه قالب خویشاوندی 796

تهیه قالب ماتریس متغیرهای کمکی 797

اجرای برنامۀ GAPIT به منظور انجام GWAS 798

اجرای بستۀ rMVP برای تجزیه GWAS 800

ارائه نتایج GWAS 802

نمودارQQ 802

نمودار منهتن 803

رویکرد GWAS مبتنی ‎بر k-mer 809

مبانی GWAS مبتنی ‎بر  k-mer 811

انواع k-merها و شمارش فراوانی آن‎ها 813

روش‎های استفاده‌شده در GWAS مبتنی ‎بر k-mer 815

اجرای برنامۀ KmerGWAS 823

ساخت ماتریس خویشاوندی 830

انجام محاسبات با یک مثال عملی 836

رگرسیون جزیی: تعیین اثر هر متغیر 851

اجرای برنامۀ kmers_gwas.py 856

تجزیه بیشتر k-merهای مهم 858

استخراج خوانش‎های حامل k-merهای مهم 861

تجزیه GWAS با استفاده از برنامۀ rMVP بر‌اساس جدول k-merها 864

محاسبۀ ساختار جمعیت 866

فصل هفدهم: تجزیه تفرق توده (BSA) 871

مقدمه 871

تجزیه تفرق توده (BSA) 872

اجرای بستۀ QTL-Seq 873

مستندسازی واریانت‎های ژنتیکی 878

اجرای برنامۀ SnpEff 878

انتخاب ژن‎های خاص برای آنوتیشن 882

فصل هیجدهم: متاژنومیکس 885

مقدمه 885

متاژنومیکس عملکردی 886

متاژنومیکس مبتنی ‎بر توالی‎یابی 889

شناسایی ژن‎های مفید با استفاده از متاژنومیک 891

ارزیابی متاژنومی دریای سارگاسو 893

اکولوژی و متاژنومیک 894

شاتگان متاژنومیکس 895

کنترل کیفیّت 896

سرهم کردن خوانش‎ها 896

سرهم کردن خوانش‎های خام با استفاده از برنامۀ metaSPAdes 897

سرهم کردن خوانش‎های خام به‎وسیلۀ برنامۀ megahit 899

به کارگیری ابزار خودکار MetaPlatanus در مطالعات متاژنوم 900

اجرای برنامۀ MetaPlatanus 902

کنترل کیفیت نتایج سرهم ‎شده 903

استفاده از ابزار متاکواست 905

تفکیک متاژنوم به اجزای تشکیل دهنده 906

تعیین ارگانیزم های موجود در میکروبیوم 908

پروفایلینگ تاکسونومی با متافلان 908

تعیین ژن‎ها و عملکرد آن‎ها در متاژنوم 909

استفاده از سرور ام جی رست 910

بررسی تنوع جمعیت در دست مطالعه 912

فصل نوزدهم: راهبردهای تلفیق داده‎های اُمیک و تجزیۀ eQTLs 917

مقدمه 917

مروری بر استراتژی‎های تلفیق و تجزیه‌وتحلیل داده های omics 918

متاآنالیز 920

تجزیه‌وتحلیل چندمرحله ای 920

تحلیل متابعدی 923

ملزومات تلفیق و تجزیه‌وتحلیل داده های omics 926

تجزیه‌وتحلیل eQTL 927

مراحل تجزیۀ eQTL 929

مبانی آماری شناسایی eQTLs به وسیلۀ بستۀ Matrix eQTL 929

رگرسیون خطی ساده 930

مدل با متغیرهای کمکی 934

نحوه برخورد با چندخطی 936

مدل ANOVA 937

هتروژنی خطاها یا ناهمگنی واریانس خطاهای معادلۀ رگرسیون 938

نمودارهای Q-Q و هیستوگرام تمام مقادیر p 939

نرخ کشف خطا (FDR) 939

اجرای برنامۀ MatrixEQTL در محیط R 940

فراخوانی برنامۀ  MatrixEQTL 940

فراخوانی و تنظیم قالب داده ‎ها برای بستۀ MatrixEQTL 942

تطبیق مدل های eQTL با MatrixEQTL 943

تجزیه سیس و ترانس eQTL 944

مشاهدۀ نتایج 945

فصل بیستم: هوش مصنوعی: یادگیری ماشین در ژنومیک و ترانسکریپتومیک 949

مقدمه 949

مقدمه ای بر روش‎های یادگیری ماشین در علم ژنتیک 950

کاربرد روش‎های یادگیری ماشین در حوزه‎های مختف زیست شناسی مولکولی 953

انتخاب ژن 954

مراحل انجام انتخاب ویژگی 957

روش انتخاب رو به ‌جلو 957

روش انتخاب رو به ‎عقب 958

مقایسه دو روش انتخاب رو به ‌جلو و رو به ‎عقب 959

انتخاب دومسیره (انتخاب گام‌به‌گام) 960

راهبردهای جست‎وجو 961

رویکردهای انتخاب ویژگی 962

الف) رویکرد انتخاب ویژگی Filter 962

ب) رویکرد انتخاب ویژگی Wrapper 963

ج) رویکرد انتخاب ویژگی Embedded 965

د) رویکرد انتخاب ویژگی ترکیبی 966

ه) رویکرد انتخاب ویژگی گروهی 966

روش Bagging 968

روشPasting 968

روش Boosting 968

تفاوت‌های کلیدی بین روش‌های ترکیبی و گروهی 969

معیار توقف 969

ارزیابی نتایج 970

الف) ماتریس درهم ریختگی 973

ب) اعتبارسنجی متقابل (w) 974

ج) ویژگی های بهینه سازی گیرنده (ROC) 975

برازش آماری 977

راه‌کارهای مقابله با بیش برازش 979

دلایل کم‎برازشی در مدل‌ها 981

راه‌های مقابله با کم‎برازشی 981

برازش خوب در یادگیری ماشین چیست؟ 981

تشکیل مجموعۀ آموزش و آزمون 982

مسئله تعداد ویژگی‌ها و تعداد نمونه‌ها 984

ملاحظات عملی درباره مطالعات ترانسکریپتوم و ژنومیک 985

تبیین مسئلۀ تعداد نمونه در مطالعات ژنتیکی 986

راه‌کارهای کاهش اثر تعداد نمونه‌های کم 988

به‎کارگیری توأم الگوریتم‎های طبقه ‎بندی کننده و انتخاب ویژگی 989

انتخاب ژن تحت ‎نظارت 991

مزیت‎ها 992

انتخاب ژن بدون ‎نظارت 996

انتخاب ژن نیمه‎ نظارت‎ شده 997

الگوریتم‌های رویکرد یادگیری ماشین تحت‎ نظارت 998

رگرسیون لجستیک 1000

رگرسیون لاسو 1002

مزایای رگرسیون لاسو 1004

واژه‌شناسی 1006

ساخت درخت 1006

تقسیم در داده‌های طبقه‌بندی 1007

بهرۀ اطلاعات 1008

فرآیند تقسیم در مدل‌های مبتنی بر رگرسیون 1009

تقسیم ویژگی‌های طبقه‌بندی 1011

تقسیم ویژگی‌های عددی 1012

ساخت درخت تصمیم برای مدل‌های رگرسیون 1015

الگوریتم جنگل تصادفی 1017

الگوریتم XGBoost 1023

شرایط استفاده مؤثر از الگوریتم XGBoost 1023

تقویت گرادیان برای متغیر هدف پیوسته (رگرسیونی) 1024

تقویت گرادیان برای متغیر هدف طبقه‎ای 1029

الگوریتم AdaBoost 1032

اجرای الگوریتم AdaBoost برای داده‌های طبقه‎ای 1033

اجرای الگوریتم AdaBoost برای داده‌های پیوسته (مدل رگرسیون) 1039

ساخت مجموعه دادۀ اصلاح‌شده 1042

ماشین بردار پشتیبان 1048

نحوۀ عملکرد SVM 1049

گاما پارامتر SVM gamma)) 1051

پارامتر (regularization) C 1053

انواع هسته‌های SVM 1055

هسته SVM چندجمله‌ای 1055

هسته تابع پایه شعاعی 1055

هستۀ تابع سیگموئیدی 1057

مزایا، معایب و شرایط استفاده از الگوریتم SVM 1057

شرایط استفادۀ مؤثر از SVM 1058

نزدیک‌ترین همسایه (KNN) 1059

مقایسه الگوریتم‌ها 1060

روش‎های یادگیری ماشین تحت ‎نظارت 1063

اجرای الگوریتم SVM-RFE در محیط R برای مجموعه دادۀ SNP با متغیر هدف پیوسته 1063

اجرای الگوریتم SVM-RFE در محیط R برای مجموعه دادۀ ترانسکریپتوم با متغیر هدف طبقه‌ای 1069

ساخت ماتریس درهم‌ریختگی 1071

محاسبۀ AUC برای مدل بالا 1073

اجرای الگوریتم XGBoost 1074

اجرای رگرسیون لاسو 1077

معیاره ‎های مختلف ارزیابی نتایج برای روش رگرسیونی در لاسو 1081

ارزیابی مدل‌ها روی داده‌های آزمون برای مدل دوجمله‌ای 1085

ارزیابی مدل‌ها روی داده‌های آزمون برای مدل پوآسن 1087

اندازه‌گیری کارآیی مدل ایجادشده 1087

اعتبار‌سنجی متقابل 1087

ساخت ماتریس درهم‌ریختگی و نمودار ROC برای داده‌های طبقه‌بندی 1088

منحنی‌های ROC برای داده‌های متغیر هدف دوجمله‌ای 1088

روش یادگیری ماشین بدون نظارت 1091

اجرای برنامۀ Omada 1091

انتخاب مناسب‌ترین رویکرد خوشه‌بندی بر‌اساس مجموعه داده 1095

استخراج نتایج 1096

انتخاب مناسب‌ترین ویژگی‌ها 1096

برآورد بهینه‌ترین تعداد خوشه‌ها 1097

اجرای خوشه‌بندی بهینه 1099

واژهنامه 1101

زبان‎های برنامه‎نویسی 1101

ابزارهای توالی‎یابی و شیمی آن 1103

تجزیه‌وتحلیل بیوانفورماتیک 1110

انواع فایل 1114

دستورات کاربردی قابل اجرا در ترمینال لینوکس 1118

مراحل نصب برنامه ‎های تجزیۀ داده ‎های NGS از مخزن conda 1124

مراحل نصب برنامه های تجزیۀ داده های NGS از مخازن Bioconductor و CRAN 1125

منابع 1127

نمایه 1135

 


تمامی حقوق این سایت برای سازمان ترویج مطالعه و نشر جهاد دانشگاهی محفوظ است. نقل مطالب با ذکر منبع بلامانع است.
Copyright ©2025 Iranian Students Booking Agency. All rights reserved