توضیحات
بذر
نخستین گام زنجیرۀ در داده کاوی شبکۀ هدف در بستر پلتفرمهای شبکۀ اجتماعی، انتخاب بذر اولیه است. بذرها اکانتهایی از توئیتر هستند که در کمترین گامها ما را به بیشترین مقدار موجودیتهای و دادههای شبکه میرسانند. به بیان دیگر حسابهای طرف تعامل مستقیم با بذرها باید بیشینۀ افراد جریان هدف را پوشش داده (جامعیت) و شامل کمینهای از افراد خارج از جریان (مانعیت) باشند. این ویژگی باعث میشود چهرههایی که به سبب طبقۀ اجتماعی، فعالیت رسانهای، یا حاشیۀ بیشتر شناخته شدهتر هستند گزینۀ سهل اما نامطلوبی برای انتخاب به عنوان بذر باشند چرا که این حسابها عموما مورد توجه تودۀ بزرگی از مخاطبان خارج از جریان هدف بوده و حتی بعضا محل تعامل و توجه بازیگران معارض و رقیب هستند. از سوی دیگر بهرهبرداری بازیگران درجه اول از شبکههای اجتماعی معمولا به صورت یک طرفه و غیرتعاملی بوده و مستقیما نمیتواند به شناسایی کنشگران هم سطح منتهی گردد.
به دلایل یادشده بذرها عموما باید از میان چهرههای طبقۀ میانی گزینش شود، مشروط بر آنکه این افراد غیررسانهای و اما فعال در چارچوب درون گفتمانی باشند. به طور طبیعی شناسایی افرادی با این ویژگی نیاز به شناخت پیشینی دقیق از بازیگران شبکه و همچنین مقتضیات ابزارها دارد. اینجا بر اساس مطالعات پیشینی تیم کارشناسی بر روی لایهها و طیفهای مختلف جریان معارضه اسلامی عربستان شش حساب توئیتر را به عنوان بذر انتخاب گردید.
کاوش
پس از تعیین بذرها لازم است برای کاوش الگوریتمی تعیین گردد تا با حداقل خزش در میان صفحات، دادههای جامع و مانعی در مورد روابط کنشگران درون جریان را بدست دهد. به این منظور بنا بر این قرار گرفت که با سه حرکت فوقانی، عرضی و تحتانی دادهها جمع آوری گردیده و در تکامل با یکدیگر تمامی جامعۀ هدف را پوشش دهند. در حرکت فوقانی هدف استخراج طبقۀ اجتماعی بالاتر و همچنین بخشی از کنشگران همتراز است که تعاملی با بذرها ندارند. در حرکت عرضی تمرکز بر کشف شبکۀ روابط بازیگران لایۀ میانی است که همتراز و در تعامل با بذرها هستند. در حرکت تحتانی نیز تلاش بر کشف بدنۀ جریان است که البته با یک بازگشت به بالا میتواند همچون حرکت فوقانی بخشهای منفصلی از لایۀ میانی که تعامل چندانی با بذرها ندارند را مشخص نمایند. نکته مهم در مورد لایۀ تحتانی آنکه به سبب محدودیتهای ابزارها و حجم میلیونی حسابها در این لایه مهم بود که با صافیهای مختلف و حفظ دادههای مهمتر تعداد رکوردهای دیتاستها را به زیر 1 میلیون برسانیم.
به طور کلی خزشهای طولی در فضای توییتر بر بستر روابط دنبالکنندگی و دنبالشوندگی انجام میشود اما در خزش عرضی، تعامل حسابها در قالب کامنت گذاری، پسند، و بازنشر اهمیت مییابد. در سطح فوقانی، از بذرها مجموعا 4677 رکورد استخراج شده است که مربوط به حسابهای دنبالشده توسط بذرهاست. در سطح تحتانی، مجموعا 831هزار رکورد از دنبالکنندگان بذرهای فاز اول بدست آمده است. در گام بعد و بازگشت به سطح فوقانی، دنبال شوندگان دنبالکنندگان پس از پالایشهای مختلف استخراج نمود که 285هزار رکورد تولید نمود. همچنین در خزش عرضی 298هزار رکورد کامنت، 484هزار رکورد پسند، 399رکورد بازنشر استخراج گردیده است. بدین ترتیب در مجموع فاز اول حدود 2میلیون رکورد استخراج شده است که از این میان علاوه بر رکوردهای ارتباطی، اطلاعات کامل پروفایل 296هزار حساب مهمتر شبکه نیز کاوش گردیده است.
فرادادهها
كليات | |
تعداد جداول | 17 |
تاریخ دادهکاوی | 1400/3/9 |
حجم کل | 9232 MB |
جداول
جدول یال دنبالشدهها | |
تعداد رکورد | 3789 |
ستونها | source,target |
حجم | 0.29 MB |
جدول گره دنبالشدهها | |
تعداد رکورد | 3881 |
ستونها | Name,Birth day,Followers,Location,Bio,Website |
حجم | 1.406 MB |
جدول کامنتها | |
تعداد رکورد | 297941 |
ستونها | TweetId,TwitterUserld,ScreenName,CreatedAt,Text, TweetRoIe,TweetLanquaqe, IsReIated,Relation,RelatedToTwitte,SourceText |
حجم | 107 MB |
جدول پسندها | |
تعداد رکورد | 484091 |
ستونها | TwitterTweetId,ScreenName,LikedBy, CreateDate,LikedByScreenName |
حجم | 40.7 MB |
جدول ریتها | |
تعداد رکورد | 398988 |
ستونها | TwitterTweetId,ScreenName,RetweetedBy, CreateDate,RetweetedByScreenName |
حجم | 32.2 MB |
جدول دنبالکنندهها | |
تعداد رکورد | 830368 |
ستونها | user 1,user2 user1followings,user1 followers user2 followings,user2 followers |
حجم | 42.3 MB |
جدول دنبالشدههای دنبالکنندهها | |
تعداد رکورد | 285335 |
ستونها | TwitterUserld,ScreenName,FollowedByScreenName,Profile |
حجم | 2371 MB |
جدول پروفایلها | |
تعداد رکورد | 293516 |
ستونها | TwitterUserld,Status,ScreenName,CreateDate,Last Update, |
حجم | 448.3 MB |
جدول منشن در بایوها | |
تعداد رکورد | 17105 |
ستونها | TwitterUserI,Mention |
حجم | 0.83 MB |