تجزیه و تحلیل داده پیشرفته با PySpark الگوهایی برای یادگیری از داده ها در مقیاس بزرگ با استفاده از پایتون و اسپارک
نویسنده:
آکاش تاندون، سندی رایزا، اوری لیزرسون، شان اوون،جاش ویلز
مترجم:
احسان باقری، پیمان حاجی زاده عنبران، محمدمهدی ذوالفقاری طهرانی،محمد ملکی نیا
سال نشر:
1403
صفحه:
324
نوبت چاپ:
1

مقدمه مترجمین/ 15

پیشگفتار/ 17

چرا اکنون این کتاب را نوشتیم؟ /18

این کتاب چگونه سازماندهی شده است /19

استفاده از نمونه کد /21

قدردانی ها/ 23

فصل 1: تجزیه و تحلیل داده‎های بزرگ /25

کار با داده‎های بزرگ/ 27

معرفی آپاچی‎اسپارک و پای‎اسپارک /30

اجزاء اسپارک /30

مقایسه با (MapReduce )/31

(PySpark) /32

زیست‎بوم/ 34

اسپارک 0/3 35

پای‎اسپارک به چالش‎های علم داده می‎پردازد/ 36

از اینجا کجا برویم /38

فصل 2: مقدمه‎ای بر تجزیه و تحلیل داده‎ها با پای‎اسپارک/ 39

(DataFrame) و (RDDs)/41

معماری اسپارک/ 42

در حال نصب پای‎اسپارک/ 44

تنظیم داده های ما /47

تجزیه و تحلیل داده ها با دیتافریم ای‎پی‎ای/ 55

آمار خلاصه سریع برای دیتافریمز /61

چرخش و تغییر شکل دیتافریم/ 63

امتیازدهی و ارزیابی مدل/ 68

از اینجا کجا برویم/ 71

فصل 3: توصیه موسیقی و مجموعه داده موسیقی (Audioscrobbler )/73

تنظیم داده‎ها 74

الزامات ما برای یک سامانه پیشنهاددهنده/ 77

الگوریتم حداقل مربعات متناوب /81

آماده سازی داده ها /83

ساخت اولین مدل/ 86

توصیه‎های بررسی نقطه ای/ 91

ارزیابی کیفیت توصیه /94

AUC محاسباتی/ 96

انتخاب فراپارامتر/ 98

ارائه توصیه ها /102

از اینجا کجا برویم /103

فصل 4: پیش‎بینی با درختان تصمیم و جنگل های تصمیم/ 105

درختان و جنگل های تصمیم/ 106

آماده‎سازی داده ها /111

اولین درخت تصمیم ما /116

فراپارامترهای درخت تصمیم /125

تنظیم درختان تصمیم/ 128

بازبینی ویژگی‎های دسته بندی/ 134

جنگل های تصادفی/ 138

پیش‎گویی/ 141

از اینجا کجا برویم /142

فصل 5: تشخیص ناهنجاری با (K-means Clustering )/145

K- به معنای خوشه بندی است/ 147

شناسایی ترافیک شبکه غیرعادی/ 148

مجموعه داده KDD Cup)( 1999) )  

اولین برداشت در مورد خوشه بندی/ 151

انتخاب (k )/154

تجسم با(spark R )/158

نرمال‎سازی ویژگی ها/ 164

متغیرهای طبقه بندی شده/ 167

استفاده از برچسب ها با آنتروپی /168

خوشه ‎بندی در عمل/ 171

از اینجا کجا برویم/ 172

فصل 6: آشنایی با ویکی پدیا با LDA و (SPARK NLP )/175

تخصیص دیریکله نهفته/ 176

LDA در (pyspark )/177

دریافت داده ‎ها/178

اسپارک ان آل پی/ 180

تنظیم محیط/ 181

تجزیه داده ها/ 182

آماده‎سازی داده ها با استفاده از اسپارک ان‎ال‎پی /184

(TF-IDF )/189

محاسبه (TF-IDFs)/190 

ایجاد مدل (LDA )/191

از اینجا کجا برویم/ 195

فصل 7: تجزیه و تحلیل داده ‎های مکانی و زمانی در داده های سفر تاکسی /197

آماده سازی داده ‎ها/ 200

تبدیل رشته های زمان تاریخ به مهر زمانی /202

رسیدگی به سوابق نامعتبر/ 205

تجزیه و تحلیل جغرافیایی/ 207

معرفی ژئوجیسون/ 207

ژئوپانداها /209

Sessionization در پای‎اسپارک/ 213

Building Sessions: Secondary Sorts در پای‎اسپارک /214

از اینجا کجا برویم/ 218

فصل 8: تخمین ریسک مالی /221

واژه شناسی/ 223

روش‎ های محاسبه (VaR )/224

واریانس-کوواریانس /224

شبیه سازی تاریخی/ 224

شبیه سازی مونت‎کارلو/ 224

مدل ما/ 225

دریافت داده ‎ها/ 227

آماده‎سازی داده ها/ 228

تعیین وزن عوامل /231

نمونه ‎برداری/ 236

توزیع نرمال چند متغیره/ 238

اجرای آزمایشی/ 239

تجسم توزیع بازده /244

از اینجا کجا برویم /245

فصل 9: تجزیه و تحلیل داده‎های ژنومیک و پروژه( BDG )/247

جداسازی فضای ذخیره سازی از مدل‎سازی/ 249

راه اندازی (ADAM )/253

مقدمه ‎ای بر کار با داده های ژنومیک با استفاده از (ADAM )/254

تبدیل فرمت فایل با (ADAM CLI )/255

بلع داده های ژنومیک با استفاده از پای‎اسپارک و آدام /256

پیش‎بینی سایت های اتصال فاکتور رونویسی از داده ‎های/ 262

از اینجا کجا برویم /269

فصل 10: تشخیص شباهت تصویر با یادگیری عمیق و (PySpark LSH)/271

(PyTorch )/272

نصب و راه اندازی/ 273

آماده‎سازی داده‎ ها/274

تغییر اندازه تصاویر با استفاده از (PyTorch )/275

مدل یادگیری عمیق برای نمایش برداری تصاویر/ 276

جاسازی های تصویر/ 276

جاسازی‎های تصویر را به پای‎اسپارک وارد کنید/ 279

جستجوی شباهت تصویر با استفاده از پای‎اسپارک( LSH )/281

جستجوی نزدیکترین همسایه /282

از اینجا کجا برویم /285

فصل 11: مدیریت یادگیری ماشینی - چرخه حیات با (MLflow )/287

چرخه زندگی یادگیری ماشینی /288

عدم تکرارپذیری /289

استاندارد نبودن مدل ها /289

(MLflow)/289

ردیابی (MLflow)/290

پروژه های (MLflow)/290

مدل های  (MLflow )/290

رجیستری (MLflow )/290

ردیابی آزمایش /291

مدیریت و ارائه مدل های (ML )/295

درخواست نصب (pip3 )/298

ایجاد و استفاده از پروژه های ام‎ال‎فلاو /299

از اینجا کجا برویم/ 303

فهرست کلمات /305

کولوفون/ 323

دسته بندی موضوعی موضوع فرعی
فنی و مهندسی مهندسی كامپيوتر

تمامی حقوق این سایت برای سازمان ترویج مطالعه و نشر جهاد دانشگاهی محفوظ است. نقل مطالب با ذکر منبع بلامانع است.
Copyright ©2025 Iranian Students Booking Agency. All rights reserved