صفحه 1:
بسم الله الر حمن الرحیم
صفحه 2:
Big Data مقدمهای بر
e
©
استاد : دكتر فاطمه شبسترى
ارايه كننده:عليرضا بازارى
0
صفحه 3:
فهرست
Suma Big Data
جرا ه121 وذظ؟
جالشهاى بيشهروى 10212 116
آيندهى ۵۱۵ وظ
جنبش 0501
0501: انواع
MapReduce
Hadoop
صفحه 4:
۱
* معنای لغوی
۳ کلان داده
* دادههاى حجیم
© بزرگ داده
* تعریف
؟ تعریف واحدی وجود ندارد!
* دو عنصر اصلی در تمامی تعریفها
* وجود حجم زیادی از دادهها
؟ ناتواني پایگاههای داده سنتی در مدیریت دادهها
صفحه 5:
0 ۱
° ویژگیها
Big Data
صفحه 6:
۱
۴ حجم دادههارمهت۷0۳)
® تا سال ۲۰۰۳ حجم کل دادههای موجود. حدود ۵ اگزابایت بوده است
؟ امروزه در هر دو روز, حدود ۵ اگزابایت داده تولید میشود
* گزارش ]1۳7۷
* توليد ۲.۵ اگزابایت داده در روز
ليد + درصد کل دادههای موجود در دو سال اخیر
صفحه 7:
۱
۴ حجم دادههارمهت۷0۳)
* تا سال ۲۰۰۳ حجم کل دادههای موجود. حدود ۵ اگزابایت بوده
است
؟ امروزه در هر دو روز, حدود ۵ اگزابایت داده تولید میشود
* كزارش 11817
* تولید ۲.۵ اگزابایت داده در روز
* تولید ٩۰ درصد کل دادههای موجود در دو سال اخیر
صفحه 8:
۱
؟ حجم داده (Volume)
Big Data: This is just the beginning
ee emt URI)
Peo
۳3
“
tS
0
و
سن
لٌءٍ”ي سس
صفحه 9:
۱
* نمونهها
© فیسبوک (۱۳۹۲)
* بیش از یک میلیارد کاربر
* بيش از 7٠١ ب
؟ اضافه شدن بیش از ۵۰ ترابايت داده در روز
* بيش از ۳۵ درصد از کل تصاویر دنیای مجازی
* گوگل (۱۳۹۰)
* بیش از صد پتابایت داده
بیش از ۱۰۰۰ میلیارد صفحه وب
© حدود ۷.۲ میلیارد جستوجو در روز
صفحه 10:
۱
* نمونیها
* یوتیوب (۱۳۹۳)
بيش از يك اكزابايت داده : 0 اا ۱ Yo
* بازديد بيش از يك ميليارد كاربر در ماه
* ۸۰ درصد ترافیک خارج از آمریکا
* اضافه شدن صد ساعت فیلم در دقیقه
* تویتر (۱۳۹۳)
؟ حدود یک میلیارد کاربر
* بیش از ۱۲۴
۰
حدود ۴۵۰۰ توبیت در ثاني
۴ میلیون کاربر فعال در ماه
صفحه 11:
۱
؟ نمونهها
* شبکههای حسگر
* سازمانهای هواشناسی
* دستگاههای پزشکی
© سازمانهای بزرگ
۰
صفحه 12:
0 ۱
° ویژگیها
Big Data
صفحه 13:
Big Data
(Variety) aols تنوع در *
(Structured) wi bobs ckrots *
* دادههايى كه دارای ساختار مشخصی هستند
7 رشته ها
7 اعداد
- تاريخ
ورد
* حدود ۲۰ درصد از کل دادههای موجود. ساختارمند هستند
* استفاده از پایگاههای دادهی رابطهای
صفحه 14:
Big Data
* تنوع در (Variety) aols
(Structured) vio lols slrote °
* دادههاى نيمه ساختارمند (Semi-Structured)
* ساختارى سازكار و مشابه ندارند
- 101
‘Tweets —
SGML ~
Logs ~
4
* عدم امكان استفاده از يايكاه هاى داده ى رابطهائ
صفحه 15:
Big Data
* تنوع در (Variety) aols
(Structured) vio lols slrote °
* دادههاى نيمه ساختارمند (Semi-Structured)
(Unstructured) ,bos v6 ckaote *
* فاقد هرگونه ساختاری هستند
- دادههای چند رسانهای (فیلم. صوت و ..)
7" ایمیلها
- گزارشات
- ارائهها
due?
* حدود ۷۰ تا ٩۰ درصد از کل دادههای موجود
صفحه 16:
(Variety)& osls تنوع در *
7۳ =
وععمب " 7 ممه
صفحه 17:
© 0
* ويزكيها
صفحه 18:
0 ۱
رشد سريع دادهها (velocity)
سرعت بالا در توليد دادههاى جديد
١ ا ررد
Big Data
صفحه 19:
۱
(velocity) Grote gs yw wi,
سرعت بالا در تولید دادههای جدید
سرعت بالا در ایجاد پرس و جوها
صفحه 20:
۰
اگی
(complexity)
* تغیبرپذیری
(Variability)
و
صفحه 21:
sytem Pe ape
* رشد روز افزون ظرفیت ادوات ذخیره سازی
‘Overall
Exabytes
صفحه 22:
١ وذظ؟
* رشد روزافزون ظرفيت ادوات ذخيره سازى
* افزايش جشمكير قدرت بردازشى سيستمها
صفحه 23:
١ وذظ؟
* رشد ووزافزون ظرفيت ادوات ذخيره سازى
* افزايش جشمكير قدرت بردازشى سيستمها
* افزايش حجم دادههاى موجود
صفحه 24:
> پیشروی ۲۵۱۲۵ و10ظ
؟ عدم کارایی روشهای سنتی تحلیل اطلاعات
* تحلیل داده
* امنیت و حریم شخصی
؟ مشکلات فنی و پردازشی
صفحه 25:
۱۱
Google Trend ,» Big Data °
صفحه 26:
۱۱
Google Trend ,» Big Data °
سمه 100
66
62
50
48
36
27
India
Singapore
South Korea
Hong Kong
Taiwan
United States
Ireland
صفحه 27:
۱۱
؟ جایگاه پژوهشی ۵ 1310 از نظر موسسهی گارتنر
Plateau willbe reached in: مه
Olessinan 2years O2I0S years ۵ م10 ما5 A morethen 10years © before patenu
صفحه 28:
PY SM ste merle MRC Sy ye)
استفاده از یک مدل بدون ساختار و توزیع شده
دلیل استفاده از این مدل
صفحه 29:
0 NoSQL
تاربخچه
Not Only SQL
501 بياننميك ند كه .501 هيجكاد نبايد
لمستفاده شود و يامرهملست
صفحه 30:
0 [۷ ey
Google Bigtabie
DynamoDB
Cassandra
صفحه 31:
NoSQL - Key Value
۱- ذخیرهسازی ۷۵1۲6 - 166۲ :
* مدل دادهای : مجموعهای از زوجهای کلید - مقدار
Tokyo , Redis , Voldemort: ju *
صفحه 32:
NoSQL - Column (>
هسازی ستون محور:
؟ مدل دادهای : ذخیرهسازی ستونها به جای سطرها
Cassandra, HyperTable, : ju» °
HBase
row key columns ..
name email address
=
اس
00
انط
صفحه 33:
NoSQL - Document >
۳ - ذخیرهسازی سندگرا:
Jao * دادهای : مجموعهای از مجموعهی کلید - مقدارها
CouchDB , MongoDB: jt» °
1 | {officetlane:”3Pillar Noide”,
2| {Street: “B-25, City:"Noida", State:"UP", Pincode:”201301"}
1
{officetane:"3Pillan Timisoara”,
{Boulevard:"Coriolan Brediceanu lo. 10°, Block:”B, Ist Floor”
1
{officelane:”3Pillar Cluj’,
{latitude: "0.748328", Longitude:”-73.985560"
}
صفحه 34:
۴ - ذخیرهسازی گراف :
۴ مدل دادهای : گرههاء ارتباطهاء كليد - مقدار روی هرکدام
Sones, AllegroGraph , Neo4j: Jiu °
صفحه 35:
هايى از بايكاه دادههاى غير رابطداى ©
Key-Value
ORACLE 3
یم و 9 15
6
اشع
SOE cassandra SS ri a kK 1۳
Document
1۱۳
as
CouchDB
صفحه 36:
یسه فریم ورک های :۱۲0501 0
¥Y MySQL
MongoDB vu.
CouchDB
Neo4j
صفحه 37:
©
7
=
ey
صفحه 38:
6
@hacoop
00۵ همان ۷1۷۲۲۷2۲6 هست اما در راهی
متفاوت
صفحه 39:
كك ازى ©
ما٩ عون
. _ چند سرور فیزیکی را میگیرد یکسرور فیزیکیمییرد .4
۲ آنها ربا هم ترکیب میکند آزرا مشکند 6۰
۳ یک سرور بزرگ مجازی ارائه میدهد چند سرور مجازیرلثه مهد .©
صفحه 40:
نمیتوان با قاطعیت گفت که یک فریم ورک :۲05001
مختص یک کار است
صفحه 41:
©
+ big تسه سس arco! sities deP all Pes! doors!
E1O_GOG_OxMora خلس
2 - http://en.wikipedia.org/wiki/MapReduce
3 - http://en.wikipedia.org/wiki/NoS'
:tp://www.ibm.com/big-data/us/eny
5 - Marco Grobelink, Jozef stefan Institute, Big-Data Tutorial, 2013.
77
Understanding
sig Data
Op
صفحه 42: