‏‫داده‌کاوی با
نویسنده:
سینا دامی،‌فرشته خیری‌طرقبه
مترجم:
-
سال نشر:
1399
صفحه:
344
نوبت چاپ:
1

در طول دهه گذشته، ذخیره ارزان­تر داده­ها، سخت­افزار سریعتر و پیشرفت چشمگیر الگوریتم­ها با هم ترکیب شده­اند تا راهی برای صعود سریع علم داده­ها به عنوان یکی از مهمترین فرصت­ها در محاسبات فراهم شود. درحالی که اصطلاح علم داده می­تواند شامل همه چیز، از تمیز کردن داده­ها و ذخیره­سازی داده­ها تا تجسم آن در نمودارها باشد. استفاده از رایانه­ها برای یافتن الگوهای جالب موجود در حجم عظیم داده­ها، داده­کاوی نامیده می­شود، جایی که شامل عناصر سیستم­های پایگاه داده، آمار و یادگیری ماشینی است.

در حال حاضر ده­ها کتاب بزرگ داده­کاوی و یادگیری ماشین وجود دارد که برای توسعه­دهندگان نرم­افزار به روز می شود تا از همه این پیشرفت­های موجود در این زمینه اطلاع­رسانی کند. آنچه در بیشتر این کتاب­ها با هم مشترک هستند این است که همه آنها مجموعه کوچکی از روش­های آزمایش شده و واقعی را برای یافتن الگوهای داده­ها شامل می­شوند: طبقه­بندی، خوشه­بندی، درخت تصمیم­گیری و رگرسیون. البته همه این­ها روش­های مهمی هستند که می­توان از هر جستجوی داده اطلاعاتی بدست آورد و از محبوبیت بالایی برخوردار است زیرا می­تواند موثر باشد. اما همین چند تکنیک کل داستان نیست. داده­کاوی زمینه­ای غنی است که شامل ده­ها تکنیک برای کشف الگوها و پیش­بینی­ها است. یک استاد واقعی داده­کاوی باید ابزارهای بسیاری در جعبه ابزار خود داشته باشد، نه تنها چند مورد. بنابراین، مأموریت این کتاب، داده­کاوی با پایتون، معرفی برخی از مفاهیم داده­کاوی کمتر شناخته شده است که معمولاً فقط در کتب درسی دانشگاهی پوشیده شده­اند. این کتاب از زبان برنامه نویسی پایتون و یک رویکرد مبتنی بر پروژه برای معرفی مفاهیم متنوع و غالباً نادیده گرفته شده از داده­کاوی، مانند قوانین انجمن، تطبیق موجودیت، تجزیه و تحلیل شبکه، استخراج متن و کشف ناهنجاری استفاده می­کند. هر فصل اصول اولیه یک تکنیک داده­کاوی خاص را به طور کامل نشان می­دهد. گزینه­های دیگری برای ارزیابی اثربخشی آن ارائه می­دهد، و سپس این تکنیک را با استفاده از داده­های دنیای واقعی پیاده­سازی می­کند.

تمرکز ما روی داده­های دنیای واقعی از دیگر ویژگی­های این کتاب است که آن را از بسیاری از کتاب­های داده­کاوی دیگر جدا می­کند. آزمون واقعی این که آیا ما یک مفهوم را به دست آورده­ایم این است که آیا می­توانیم از یک روش برای یک مشکل جدید و ناشناخته استفاده کنیم. در مورد ما، این به معنی استفاده از هر روش داده­کاوی در یک مکان مشکل جدید یا یک مجموعه داده جدید است. تأکید بر داده­های واقعی همچنین بدان معنی است که نتایج ما ممکن است همیشه به اندازه نتایج حاصل از یک مجموعه داده­های ذخیره شده، پاک و مرتب نباشد. به همین دلیل، هر فصل شامل بحث در مورد چگونگی ارزیابی انتقادی روش است. آیا نتایج معنی­دار است؟ این نتایج چه معنی­ای می­دهد؟ چگونه می­توان نتایج را بهبود بخشید؟

بنابراین، از بسیاری جهات، این کتاب جایی را انتخاب می­کند که برخی دیگر از کتاب­های داده­کاوی آن را نادیده می­گیرند. اگر می­خواهید جعبه ابزار کاوی داده در حال رشد خود را با مجموعه­ای از تکنیک­های جالب اما غالبا نادیده گرفته شده، دور هم جمع کنید در ادامه مطلب بخوانید تا موضوعات خاصی را که ما پوشش خواهیم داد و نحوه استفاده آنها در هر فصل بیاموزید.

پیشگفتار...................................................................................................................................... 21

فصل اول: ابزار داده­کاوی خود را گسترش دهید.................................................................... 27

داده­کاوی چیست؟ ..................................................................................................................... 28

به چه شکل از داده­کاوی استفاده کنیم؟ ................................................................................... 31

فیاد(Fayyad) و همکاران- فرآیند KDD........................................................................ 31

هان(Han) و همکاران- فرآیند KDD............................................................................... 32

فرآیند CRISP-DM ....................................................................................................... 33

روند شش مرحله ................................................................................................................. 34

کدام روش داده­کاوی بهترین است؟........................................................................................... 35

در این کتاب از چه تکنیکی استفاده خواهیم کرد؟............................................................... 38

چگونه می­توان محیط کار داده­کاوی خود را تنظیم کرد؟.......................................................... 38

خلاصه......................................................................................................................................... 46

فصل دوم: کاوش قواعد انجمنی................................................................................................. 47

آیتم­های پرتکرار چیست؟........................................................................................................... 48

پوشک و افسانه شهری آبجو ................................................................................................ 48

اصول اولیه استخراج آیتم­های پرتکرار................................................................................... 50

پیروی از قواعد انجمن................................................................................................................ 52

پشتیبانی .............................................................................................................................. 52

اعتماد ................................................................................................................................... 53

قواعد انجمن ........................................................................................................................ 54

مثالی با داده­ها ..................................................................................................................... 54

ارزش افزوده - رفع نقص در طرح.......................................................................................... 56

روش­های پیدا کردن آیتم­های پرتکرار.................................................................................. 58

یک پروژه - کشف قواعد انجمن در برچسب­های پروژه نرم افزاری............................................ 60

خلاصه........................................................................................................................................ 79

فصل سوم: تطبیق موجودیت..................................................................................................... 81

تطبیق موجودیت چیست؟......................................................................................................... 82

ادغام داده­ها........................................................................................................................... 86

    ادغام داده­ها به صورت عمودی......................................................................................... 86

    ادغام مجموعه داده­ها به صورت افقی.............................................................................. 88

تکنیک­های تطبیق................................................................................................................ 89

تطبیق شباهت مبتنی بر ویژگی........................................................................................... 90

    مراقب مقایسه­های زوج باشید.......................................................................................... 90

    مقادیر کمیاب را اعمال می­کند....................................................................................... 90

روش­هایی برای تطبیق ویژگی­ها........................................................................................... 91

    مبتنی بر محدوده یا فاصله از هدف ............................................................................... 91

    فاصله را ویرایش کنید..................................................................................................... 91

    چکش­کاری...................................................................................................................... 92

    فاصله Levenshtein ................................................................................................... 92

    Soundex...................................................................................................................... 93

مجموعه­های جداگانه اعمال نفوذ......................................................................................... 94

تطبیق شباهت مبتنی بر متن............................................................................................... 95

تطبیق موجودیت مبتنی بر یادگیری ماشین........................................................................ 96

ارزیابی تکنیک­های سازگاری موجودیت............................................................................... 97

    کارآیی-چقدر طول می­کشد تا تطبیق انجام شود؟......................................................... 97

    اثربخشی -جفت­هایی که تولید می­کنیم چقدر دقیق هستند؟........................................ 98

    سودمندی-روش تطبیق چقدر عملی است؟................................................................. 100

پروژه تطبیق موجودیت........................................................................................................... 101

مشکلات در تطبیق پروژه­های نرم افزاری........................................................................... 102

دو مثال............................................................................................................................... 102

مطابقت با نام پروژه............................................................................................................ 104

تطبیق نام افراد................................................................................................................... 105

مطابقت باURLها............................................................................................................. 105

تطبیق با موضوعات و کلمات کلیدی توضیحات................................................................ 105

مجموعه داده...................................................................................................................... 107

کد....................................................................................................................................... 109

نتایج................................................................................................................................... 115

    چند مورد موجودیت را پیدا کردیم؟............................................................................. 115

    جفت­هایی که پیدا کردیم چقدر خوب هستند؟........................................................... 117

خلاصه...................................................................................................................................... 120

فصل چهارم: تحلیل گراف ........................................................................................................ 121

گراف چیست؟.......................................................................................................................... 122

اندازه­گیری گراف؟.................................................................................................................... 125

درجه یک گراف.................................................................................................................. 126

قطرگراف ........................................................................................................................... 127

پیاده­روی مسیرها و مسیرهای پیاده­روی در یک گراف...................................................... 129

اجزای یک گراف................................................................................................................. 130

مرکزیت یک گراف ............................................................................................................ 131

     مرکزیت نزدیک بودن.................................................................................................. 131

     مرکزیت درجه.............................................................................................................. 132

     بین مرکزیت ............................................................................................................... 133

     سایر اقدامات مرکزیت ................................................................................................ 135

نمایش داده­های گراف.............................................................................................................. 135

ماتریس مجاورت................................................................................................................. 135

لیست­های لبه و لیست­های مجاور..................................................................................... 137

تفاوت بین ساختار داده­های گراف...................................................................................... 138

وارد کردن داده­ها به یک ساختار گراف.............................................................................. 139

قالب لیست دلخواه............................................................................................................. 139

فرمت لیست لبه................................................................................................................. 140

GEXF و GraphML .................................................................................................. 141

GDF................................................................................................................................ 142

Python pickle.............................................................................................................. 142

JSON.............................................................................................................................. 143

JSON node وlink series.......................................................................................... 143

درخت­های JSON............................................................................................................ 144

Pajek format................................................................................................................ 145

یک پروژه واقعی....................................................................................................................... 147

کاوش در داده­ها.................................................................................................................. 147

ایجاد پرونده­های گراف ...................................................................................................... 156

درک داده­های ما به عنوان گراف ...................................................................................... 157

     ایجاد معیارهای ساده گراف ........................................................................................ 157

     بازی با پارامترهای یک گراف ..................................................................................... 161

     تحلیل زیرگراف............................................................................................................ 163

     تجزیه و تحلیل کلکسیون­ها و مرکزیت در زیرگراف­ها................................................. 166

     به دنبال تغییر با گذشت زمان هستید........................................................................ 169

خلاصه...................................................................................................................................... 188

فصل پنجم: تحلیل احساسات در متن.................................................................................... 181

تحلیل احساسات چیست؟....................................................................................................... 182

مبانی تحلیل احساسات........................................................................................................... 183

ساختار یک عقیده.............................................................................................................. 184

تجزیه و تحلیل سطح اسناد و جمله­ها............................................................................... 186

ویژگی­های مهم عقاید......................................................................................................... 186

الگوریتم­های تحلیل احساسات................................................................................................ 187

مجموعه داده­های عمومی................................................................................................... 188

واژگان تجزیه و تحلیل احساسات Hu and Liu's.......................................................... 189

SentiWordNet............................................................................................................ 190

Vader sentiment........................................................................................................ 190

کاربرد تحلیل احساسات ......................................................................................................... 192

ایجاد انگیزه در پروژه.......................................................................................................... 192

آماده­سازی داده­ها .............................................................................................................. 193

تجزیه و تحلیل داده­های پیام­های چت.............................................................................. 197

تجزیه و تحلیل داده­های پیام­های ایمیل............................................................................ 202

خلاصه...................................................................................................................................... 209

فصل ششم: شناسایی موجودیت در متن .............................................................................. 211

چرا به دنبال موجودیت­های نام­دار می­گردید؟........................................................................ 212

تکنیک­های به رسمیت شناختن موجودیت............................................................................. 214

برچسب زدن بخش­هایی از گفتار....................................................................................... 216

کلاس موجودیت نام­دار....................................................................................................... 218

ساخت و ارزیابی سیستم­های NER....................................................................................... 218

تطابق NER و جزئی........................................................................................................ 219

انجام تطابق جزئی.............................................................................................................. 220

پروژه شناسایی موجودیت........................................................................................................ 223

یک ابزار ساده  NER....................................................................................................... 223

Apache Board meeting minutes........................................................................ 225

چت IRC Django......................................................................................................... 227

خلاصه GnuIRC............................................................................................................ 231

نامه­های الکترونیکی LKML........................................................................................... 234

خلاصه...................................................................................................................................... 235

فصل هفتم: خلاصه­سازی خودکار متن.................................................................................. 237

خلاصه­سازی خودکار متن چیست؟......................................................................................... 238

ابزارهایی برای خلاصه کردن متن............................................................................................ 239

خلاصه متن ساده با استفاده از NLTK........................................................................... 239

خلاصه متن با استفاده از Gensim.................................................................................. 243

خلاصه متن با استفاده از Sumy....................................................................................... 246

      خلاصه­ساز Sumy's Luhn .................................................................................... 248

      خلاصه­ساز TextRank Sumy's .......................................................................... 249

      خلاصه­ساز LSA Sumy's ..................................................................................... 249

      خلاصه نویسنده ادموندسون....................................................................................... 251

خلاصه...................................................................................................................................... 253

فصل هشتم:  مدل­سازی موضوع در متن.............................................................................. 255

مدل­سازی موضوعی  چیست؟................................................................................................. 256

اختصاصی Latich Dirichlet.............................................................................................. 257

Gensim برای مدل­سازی موضوع.......................................................................................... 258

درک موضوعات Gensim LDA.................................................................................... 262

درک گذرهای Gensim LDA ...................................................................................... 263

استفاده از یک مدل Gensim LDA در اسناد جدید..................................................... 265

سریال کردن اشیاء Gensim LDA................................................................................ 266

      سریال­سازی واژه­نامه................................................................................................... 266

      سریال­سازی پیکره...................................................................................................... 267

      سریال­سازی مدل........................................................................................................ 267

Gensim LDA برای یک پروژه بزرگتر............................................................................... 268

خلاصه...................................................................................................................................... 271

فصل نهم: کاوش ناهنجاری داده­ها ........................................................................................ 273

ناهنجاری داده چیست؟........................................................................................................... 273

داده­های از دست رفته........................................................................................................ 274

      یافتن داده­های از دست رفته...................................................................................... 274

      مقادیر صفر.................................................................................................................. 276

برگرداندن داده­های از دست رفته....................................................................................... 276

     مشکل ردیف­ها را نادیده بگیرید................................................................................. 277

     مشکل را به صورت دستی برطرف کنید..................................................................... 277

     از یک مقدار ساختگی استفاده کنید............................................................................ 278

     از یک معیار مرکزی استفاده کنید............................................................................... 279

     استفاده از آخرین مشاهده انجام شده ......................................................................... 280

     از یک مقدار مشابه استفاده کنید................................................................................ 281

     از بیشترین مقدار استفاده کنید................................................................................... 281

خطاهای داده...................................................................................................................... 281

    زمینه­های کوتاه شده..................................................................................................... 282

    خطاهای مجموعه داده و نوع داده................................................................................. 283

    خطاهای منطقی یا معنایی........................................................................................... 284

داده­های پرت...................................................................................................................... 286

Visual mining for outliers   ................................................................................. 287

   شناسایی آماری داده­های پرت........................................................................................ 288

ردیابی فاصله با نمرات z اصلاح شده................................................................................. 289

خلاصه...................................................................................................................................... 296

فصل دهم: استلزام متنی ........................................................................................................ 297

شناخت استلزام متنی.............................................................................................................. 298

حوزه استلزام متنی................................................................................................................... 299

نقش دانش پیش­زمینه....................................................................................................... 302

استلزام متنی در مقابل مفهوم زبانی استلزام....................................................................... 303

توسعه شناسایی استلزام متنی با تشخیص تناقض‌ها.......................................................... 305

    فرصت‌ها و چالش‌های RTE........................................................................................ 305

    استفاده از راه­حل‌های استلزام متنی............................................................................... 307

    پاسخ­دهی به سوال........................................................................................................ 308

    استخراج روایط.............................................................................................................. 309

    خلاصه­سازی متن.......................................................................................................... 311

    کاربردهای دیگر............................................................................................................ 312

    ارزیابی استلزام متنی..................................................................................................... 315

    RTE1 تا RTE5........................................................................................................ 315

    RTE6 و RTE7......................................................................................................... 318

مثال آخر.................................................................................................................................. 320

کار با مجموعه کلمات Stanford’s GloVe + مجموعه داده SNLI.............................. 322

منابع...................................................................................................................................... 327

واژه­نامه................................................................................................................................... 331

 


تمامی حقوق این سایت برای سازمان ترویج مطالعه و نشر جهاد دانشگاهی محفوظ است. نقل مطالب با ذکر منبع بلامانع است.
Copyright ©2024 Iranian Students Booking Agency. All rights reserved