مقدمه مترجمین/ 15
پیشگفتار/ 17
چرا اکنون این کتاب را نوشتیم؟ /18
این کتاب چگونه سازماندهی شده است /19
استفاده از نمونه کد /21
قدردانی ها/ 23
فصل 1: تجزیه و تحلیل دادههای بزرگ /25
کار با دادههای بزرگ/ 27
معرفی آپاچیاسپارک و پایاسپارک /30
اجزاء اسپارک /30
مقایسه با (MapReduce )/31
(PySpark) /32
زیستبوم/ 34
اسپارک 0/3 35
پایاسپارک به چالشهای علم داده میپردازد/ 36
از اینجا کجا برویم /38
فصل 2: مقدمهای بر تجزیه و تحلیل دادهها با پایاسپارک/ 39
(DataFrame) و (RDDs)/41
معماری اسپارک/ 42
در حال نصب پایاسپارک/ 44
تنظیم داده های ما /47
تجزیه و تحلیل داده ها با دیتافریم ایپیای/ 55
آمار خلاصه سریع برای دیتافریمز /61
چرخش و تغییر شکل دیتافریم/ 63
امتیازدهی و ارزیابی مدل/ 68
از اینجا کجا برویم/ 71
فصل 3: توصیه موسیقی و مجموعه داده موسیقی (Audioscrobbler )/73
تنظیم دادهها 74
الزامات ما برای یک سامانه پیشنهاددهنده/ 77
الگوریتم حداقل مربعات متناوب /81
آماده سازی داده ها /83
ساخت اولین مدل/ 86
توصیههای بررسی نقطه ای/ 91
ارزیابی کیفیت توصیه /94
AUC محاسباتی/ 96
انتخاب فراپارامتر/ 98
ارائه توصیه ها /102
از اینجا کجا برویم /103
فصل 4: پیشبینی با درختان تصمیم و جنگل های تصمیم/ 105
درختان و جنگل های تصمیم/ 106
آمادهسازی داده ها /111
اولین درخت تصمیم ما /116
فراپارامترهای درخت تصمیم /125
تنظیم درختان تصمیم/ 128
بازبینی ویژگیهای دسته بندی/ 134
جنگل های تصادفی/ 138
پیشگویی/ 141
از اینجا کجا برویم /142
فصل 5: تشخیص ناهنجاری با (K-means Clustering )/145
K- به معنای خوشه بندی است/ 147
شناسایی ترافیک شبکه غیرعادی/ 148
مجموعه داده KDD Cup)( 1999) )
اولین برداشت در مورد خوشه بندی/ 151
انتخاب (k )/154
تجسم با(spark R )/158
نرمالسازی ویژگی ها/ 164
متغیرهای طبقه بندی شده/ 167
استفاده از برچسب ها با آنتروپی /168
خوشه بندی در عمل/ 171
از اینجا کجا برویم/ 172
فصل 6: آشنایی با ویکی پدیا با LDA و (SPARK NLP )/175
تخصیص دیریکله نهفته/ 176
LDA در (pyspark )/177
دریافت داده ها/178
اسپارک ان آل پی/ 180
تنظیم محیط/ 181
تجزیه داده ها/ 182
آمادهسازی داده ها با استفاده از اسپارک انالپی /184
(TF-IDF )/189
محاسبه (TF-IDFs)/190
ایجاد مدل (LDA )/191
از اینجا کجا برویم/ 195
فصل 7: تجزیه و تحلیل داده های مکانی و زمانی در داده های سفر تاکسی /197
آماده سازی داده ها/ 200
تبدیل رشته های زمان تاریخ به مهر زمانی /202
رسیدگی به سوابق نامعتبر/ 205
تجزیه و تحلیل جغرافیایی/ 207
معرفی ژئوجیسون/ 207
ژئوپانداها /209
Sessionization در پایاسپارک/ 213
Building Sessions: Secondary Sorts در پایاسپارک /214
از اینجا کجا برویم/ 218
فصل 8: تخمین ریسک مالی /221
واژه شناسی/ 223
روش های محاسبه (VaR )/224
واریانس-کوواریانس /224
شبیه سازی تاریخی/ 224
شبیه سازی مونتکارلو/ 224
مدل ما/ 225
دریافت داده ها/ 227
آمادهسازی داده ها/ 228
تعیین وزن عوامل /231
نمونه برداری/ 236
توزیع نرمال چند متغیره/ 238
اجرای آزمایشی/ 239
تجسم توزیع بازده /244
از اینجا کجا برویم /245
فصل 9: تجزیه و تحلیل دادههای ژنومیک و پروژه( BDG )/247
جداسازی فضای ذخیره سازی از مدلسازی/ 249
راه اندازی (ADAM )/253
مقدمه ای بر کار با داده های ژنومیک با استفاده از (ADAM )/254
تبدیل فرمت فایل با (ADAM CLI )/255
بلع داده های ژنومیک با استفاده از پایاسپارک و آدام /256
پیشبینی سایت های اتصال فاکتور رونویسی از داده های/ 262
از اینجا کجا برویم /269
فصل 10: تشخیص شباهت تصویر با یادگیری عمیق و (PySpark LSH)/271
(PyTorch )/272
نصب و راه اندازی/ 273
آمادهسازی داده ها/274
تغییر اندازه تصاویر با استفاده از (PyTorch )/275
مدل یادگیری عمیق برای نمایش برداری تصاویر/ 276
جاسازی های تصویر/ 276
جاسازیهای تصویر را به پایاسپارک وارد کنید/ 279
جستجوی شباهت تصویر با استفاده از پایاسپارک( LSH )/281
جستجوی نزدیکترین همسایه /282
از اینجا کجا برویم /285
فصل 11: مدیریت یادگیری ماشینی - چرخه حیات با (MLflow )/287
چرخه زندگی یادگیری ماشینی /288
عدم تکرارپذیری /289
استاندارد نبودن مدل ها /289
(MLflow)/289
ردیابی (MLflow)/290
پروژه های (MLflow)/290
مدل های (MLflow )/290
رجیستری (MLflow )/290
ردیابی آزمایش /291
مدیریت و ارائه مدل های (ML )/295
درخواست نصب (pip3 )/298
ایجاد و استفاده از پروژه های امالفلاو /299
از اینجا کجا برویم/ 303
فهرست کلمات /305
کولوفون/ 323
دسته بندی موضوعی | موضوع فرعی |
فنی و مهندسی |
مهندسی كامپيوتر
|