صفحه 1:
Chere er)
انتخاب پایگاههای داده مناسب برای
دادههاي عظیم و راهکار مهاجرت از
پایگاههای داده سنتی
دکتر محمد رضا احمدی 9
مهندس داد مکی ©
مهندس احسان آریانیان
صفحه 2:
: فهرست مطالب
CLE جنبه های ساختاری و کا رکردی پایگاه های داده سنتی
" ویژگیهای ساختاری و کا رکردی پایگاه های داده ابری
7 بررسی فناوری های مطرح در ایجاد پایگاه های داده ابری
* بررسی روش های مهاجرت از پایگاه های داده موجود به ابری
٩ ارزيابي و مقایسه ويژگيهاي مختلف پايگاههاي داده
Big Data Conference, Iran Telecom. Research Center, Dr. Ahmadi, Malek, Arianian
صفحه 3:
پايگاههاي داده رابطه اي
مدل رابطهای در سال ۱۹۷۰ توسط ادگار کود مطرح شد. اين مدل دارای ساختار دادهای بر
.اساس يك مفهوم رياضى به نام رابطه استوار است
در پایگاه داده رابطهاي. رابطه نمایش جدولي دارد و اساساً پایگاه داده رابطهاي
مجموعهاي است از تعدادي جداول با مفاهیم ساختار ي: سطر وستون
هر جدول از نظر محتوای دادهای مجموعهای است از نمونههای متمایز از انواع
سطرها و هر سطر نیز مجموعهاي از مقادیر است که هر کدام از یک مجموعه
بر گرفته شدهاند
Big Data Conference, Iran Telecom. Research Center, Dr. Ahmadi, Maleki, Arianian
صفحه 4:
قوانین حاکم بر پایگامهای داده رابطه ای
Atomic : A transaction is a logical unit of work which must be either
completed with all of its data modifications, or none of them is performed.
Consistent : The consistency property ensures that any transaction will
bring the database from one valid state to another. Only valid data is
saved.
Isolated : Modifications of data performed by a transaction must be
independent of another transaction.
Durable : When the transaction is completed, effects of the modifica
performed by the transaction must be permanent in the system.
Big Data Conference, Iran Telecom. Research Center, Dr. Ahmadi, Maleki, Arianian
صفحه 5:
ویژگیهای پایگاههای داده رابطه ای
* داده ها و ارتباطات بين آنها در پایگاهدادهبه صورت مجموعه ای از جداول دیده می شود
* هیچ جدولی دارای سطرهای تکراری نیست
* ترتیب سطرها و ستون ها در هر جدول مهم نیست
* ستون ها اتمیک هستند و مقادیر ستون ها غیر قابل تجزیه اند
۰ مس دز روم وی هو ربظه نيزا نين INET ركزره بي هماد
* ارتباط رابطه ها با یکدیگر از طریق صفات خاصه مشترک انجام می گیرد
* ایجاده دسترسی و توسعه آن آسان است.
بعد از ايجاد بايككاه داده اوليه» جداول جدید می توانند اضافه شوند بدون اينكه نياز به تغيير
كاربردهاى موجود باشد
Big Data Conforence, Iran Telecom,
Center, Dr. Ahmadi, Maleki, Arianian
صفحه 6:
Figure 1.1
A simplified database
system environment
ر داخلی پایگاه داده
Users/Programmers
Database
System ۲
‘Application Programs/Queries
DBMS 1
Software Soitware to Process
Queries/Programs
y
Software to Access:
Stored Data
1
Stored Database
Definition Stored Database
(Meta-Data)
Big Data Conforence, Iran Telecom, Research Center, Dr. Ahmadi, Maleki, Ari
صفحه 7:
نمونه هایی از پایگامهای داده رابطه ای
The most popular RDBMS are:
°MS SQL Server,
°IBM DB2,
°Oracle DB,
MySQL,
°Microsoft Access.
Big Data Conference, Iran Telecom.
صفحه 8:
محدودیت هاي پايگاههاي داده رابطه اي
1 براي داد ه هاي با توالي نوشتن بالا و توالي خواندن کم:
2 براي داده هاي با توالي خواندن بالا و توالي نوشتن بسیار کم:
3 براي کاربردهایی که نیازبه دسترسی بالا (جانلاطهانه۸ طون3) و توقف
pF Low (Downtime) obos 205,19
Big Data Conforence, Iran Telecom, Research Center, Dr. Ahmadi, Malek, Arianian
صفحه 9:
ادامه
. برای داد ه هایی که باید در نقاط مختلف جغرافیایی با هم همگام سازی شوند:
برای داد ه های بزرگ تجاری یا مرتبط با تحلیل وب :
Big Data Conforence, Iran Telecom, Research Center, Dr. Ahmadi, Malek, Arianian
صفحه 10:
= ©
DIGITAL INFORMATION
0
2
8 We
E
3S tion
ع
a Busit
a Tr
3 Data
8
1970 1980 1990 2000 2010
‘Gw3resource «
Big Data Conforence, Iran Telecom, Research Center, Dr. Ahmadi, Malek, Arianian
صفحه 11:
DIGITAL INFORMATION
Total archived capacity, by content type -
worldwide
عمساعس او
Terabytes
100,000,000
همايش داده هاى عظيم - مركز تحقيقات ارات ۱۳۹۳
23153 امصجمة بلجا ل جتحبة عجن Best وتا مج نمو ريم 66 9۵9
صفحه 12:
WHAT IS NOSQL ?
© NoSQL is a non-relational database
management systems, different from
traditional relational database management
systems in some significant ways.
© It is designed for distributed data stores
where very large scale of data storing needs
(for example Google or Facebook which
collects terabits of data every day for their
users).
© These type of data storing may not require
fixed schema, avoid join operations and
typically scale horizontally. 6
Big Data Conforence, Iran Telecom,
صفحه 13:
پایگاه های داده توزیع شده
دراین نوع پایگاه های داده بر خلاف پایگاه های مرکزی داده ها به جاى اين
که در یک محل مرکزی نگهداری شده بر روی چندین مرکز نگهداری شده و
هر م رکز نیز تا حد زیادی استقلال خود را حفظ می کند.
دو نوع این پایگاه های داده عبارتند از :
© همسان ,| Homogeneous: یک پایگاه داده یکسان» مطلع از یکدیگر و آماده
هماهنگی و دارای شمای یکسان داده ای
® غیر همسان یا :5 بايكاه داده غیر یکسان» غير مطلع از یکدیگر
و آماده هماهنگی و همکاری محدود و دارای شمای غیر یکسان داده ای
Big Data Conforence, Iran Telecom. R
صفحه 14:
RDBMS VS NOSQL
° RDBMS
- Structured and organized data
- Structured query fanguage (SQL)
- Data and its relationships are stored in separate
tables.
- Standard Data Manipulation Language, Data
Definition Language
- Tight Consistency
- BASE Transaction
© NoSQL (Stands for Not Only SQL)
- No declarative query language
- No predefined schema
- Key-Value pair. storage, Column Store, Document
Store, Graph databases
- Eventual consistency rather than ACID property
- Unstructured and unpredictable data
- CAP Theorem
i izes high performance, high availability and
ity
صفحه 15:
CAP THEOREM (BREWER’S THEOREM)
CAP theorem states that there are three basic
requirements which exist in a special relation when
designing applications for a distributed architecture.
©Consistency - This means that the data in the database
remains consistent after the execution of an operation.
For example after an update operation all clients see the
same data.
°Availability - This means that the system is always on,
no downtime.
©°Partition Tolerance - This means that the system
continues to function even the communication among the
servers is unreliable, i.e. the servers may be partitioned into
multiple groups that cannot communicate with one “oO
Big Data Conference, Iran Telecom. Center, Dr. Ahmadi, Maleki, Arianian
صفحه 16:
شدن فزیکی شیک | Pranion
CAP THEOREM
AP=NoSQl/Docum
ent or Key/Value
9
يم
Cassandra
Simplepe
Voldemort
Tokyo Cabinet
RIAK
(6/] . در دسترس بودی: هر کلایشتبتاند
amy, هموارهداده ها وا خوانده وبتویسد.
CA=SQL/RDBMS
SQL Server
Oracle, MySQL
Aster Dato
امومع
Vertica
Sal Azure
CAP
Conditions:
ثبات: تمام کلاینت ها
همواره به تسد هاي
جم یکسای ادها
Wonsistency CP=NoSQL/Column or Graph هيرس داشته
MongoDa ال es
00000 واطمنوا8 ع
Neo عم
MemcacheDa
Big Data Conference, Iran Telecom. Research Center, Dr- Ahmadi, Malek Aria
صفحه 17:
NOSQL PROS/CONS
° Advantages :
© High scalability
© Distributed Computing
© Lower cost
© Schema flexibility, semi-structure data
© No complicated Relationships
° Disadvantages
° No standardization
© Limited query capabilities (so far)
° Eventual consistent is not intuitive to
program ©
er, Dr. Ahmadi, Malek, Arianian
Big Data Conference, Iran Telecom. R
صفحه 18:
NOSQL CLASSIFICATION
Key-Value
Document-
Oriented
Column-
Oriented
Graph
graph theor
Database
x:
Big Data Conforence, Iran Teleco
صفحه 19:
MATCHING DB
Coherence, eXtreme Scale, GigaSpaces,
GemFire, Hazelcast, Infinispan, JBoss Cache,
Memcached, Repcached, Terracotta, Velocity
Flare, Keyspace, RAMCloud, SchemaFree
DovetailDB, Dynamo, Riak, Dynomite,
MotionDb, Voldemort, SubRecord
Actord, FoundationDB, Lightcloud, Luxio,
MemcacheDB, NMDB, Scalaris, TokyoTyrant
Redis
Apache River, Coord, GigaSpaces
DBAO, Perst, Shoal, ZopeDB,
Clusterpoint, Couchbase, CouchDB, MarkLogic,
MongoDB, XML-databas
BigTable, Cassandra, Druid, HBase, Hypertable
KAL KDI, OpenNeptune, Qbase
AllegroGraph, DEX/Sparksee, FlockDB, IBM
1DB2, InfiniteGraph, Neodj, OWLIM, OrientDB
‘Sones GraphDB, Sarr Enterprise, OpenLink
Big Sua Gonterwe, Hem Teleco
Key-Value
Document
Column
Graph
صفحه 20:
CLOUD DB MANAGEMENT SYSTEM
Big Data Conference, Iran Telecom. Research Center, Dr. Ahmadi, Maleki, Arianian
صفحه 21:
چالشهای مطرح در بانک اطلاعاتی ابری
‘Simplified Queries
Big Data Conforence, Iran Telecom, Research Center, Dr. Ahmadi, Malek, Arianian
صفحه 22:
مشخصات فنی پایگاه های داده ای ابری متداول
در این قسمت معرف ترین پایگاه های داده ابری ارائه شده است:
بستر هدوپ
از گروه 1112 6۱۷-۷3 پایگاههای داده بررسی می شود:
MemCacheDBe
از كروه 601 35 06111796101-8 2] پایگاههای داده بررسی می شود:
CouchDBe
MongoDBe
از £ ,. Column-Based پایگاههای داده بررسی می شود:
HBasee
Cassandrae
از گروه 3۲۵]010) پایگاههای داده بررسی می شود:
HB داده [۱1۵04
Big Data Conforence, Iran Telecom, er, Dr. Ahmadi, Malek, Arianian
صفحه 23:
WHAT IS APACHE HADOOP?
(Prxmeworke) whick و و او و ها very sore tercos, Wadoop و9
rePerred to ce Dig Dota), ord سا جع اه موه و dows storie
لا )وی wore oP Praca oad Paster ی و وتو
processkn).
6p esseuidly, fhe core pan of Opache Wedoop cosprises tue thioeps!
96 موه pan (Aecooy Disrbuied Pie مرن or ORS) ad a
processisny pat (DaReccr).
Oe Aertoop Distrbted Pie Syste (DPC) جوا ها ما لا نامو
(dePauk OF O® vr (COMO) gad dettbules the blocks acorns the cde fr
te chester. Por process the deta, the Weroop Dopl(Reduce ships code
روج lar Ales) to tke coder thot hove the requiced cata, cad the odes
hea process the cata i parce.
Big Data Conference, Iran Telecom. Research Center, Dr. Ahmadi, Maleki, Arianian,
صفحه 24:
MEMCACHEDB
Big Data Conforence, Iran Telecom, Research Center, Dr. Ahmadi, Malek, Arianian
صفحه 25:
COUCHDB
7 معماري توزيعي و همتاسازي
٩ ذخیره سازي سندها
7 ويژگيهاي اسید
0 دیدگاه نگاشت /کاهش وایندکس ها
9 پايداري نهایی با 005157۳۴07 5۷۳۲7۸
9 زبان Erlang
7 ریلکس نماد سادگي کارباآن است
Big Data Conference, Iran Telecom. Research Center, Dr. Ahmadi, Malek, Arianian
صفحه 26:
COLUMN-BASED CASSANDRA
Google
a es
oS سکس و 0
© مدل داده ای کلاسترینگ حلقه ای a
sandra are
enter, Dr. Ahmadi, Malek, Arianian
Big Data Conforence, Iran Telecom, Resear
صفحه 27:
N EO4J پایگاه داده
مبتني بر گراف
تكره ها و روابط حاوي oats
پرس و جو هاي مبتني بر پیمایش
7"شاخص (130162) گذاري براي جستجوي راحت تر
© ۸0 است
*قابلیت اجرا بر روي کلاستر با كارايي بالا
#ذخیره میلیون ها گره و رابطه
15,5 APIO
کاملا عقاوم
بسیار مقیاس پذیر است
#دارا بودن چرخه توسعه به شدت سریع
"انعطاف پذیر است.
ops? بانک اطلاعاتي در سه نسخه عرضه مي شود
* 60۳7 :از لیرسخه بسه عنلنلبه لیتربرنسخه از [4 60[ باد ميشود.
0 قلبلیتمانیتور کردنیسیشرفته بانکلطاهلتیرا درد
ews Enterprise شتیبارگسیروآنالینکلاستربنگو مانیتوربنگپسیشرفته رادار
Big Data Conference, Iran Telecom. Research Center, Dr. Ahmadi, Malek, Arianian
صفحه 28:
ساختارپایگاه داده درپیاده سازی مدلهای ابری
لايه بايكاه داده
Traditional
Ww
Hybrid Cloud
شامل دو كام اساء
cloud, 0
eed gil Jd eye DAL Sj. ابرى ٠
Ahmadi, Malek, Arianian
Big Data Conference, Iran Telecom. Research Center, Dr.
Application Layers
صفحه 29:
مراحل مهاجرت داده ها به پایگاه داده ابری
سس
777 ممصم
Big Data Conforence, Iran Telecom, Research Center, Dr. Ahmadi, Malek, Arianian
صفحه 30:
مراحل مهاجرت
7 در بخش ارزیایی» اطلاعات مرتبط با مدیریت محاجرت ماند ابزارها و گزینه های
مهاجرت به منظور ارزیایی تأثیر مهاجرت بانک اطلاعاتی ارزیایی میگردد .
7 تجزیه و تحلیل جزئیات پیاده سازی در بانک اطلاعاتی هدف یعنی انواع داده های
مختلف » مکانیزمهای مدیریت ترا کتش را بررسی میکند .
7 بخش مهاجرت این الگو به مهاجرت داده از دادههای مبداً به دادههای مقصد در
محیط تستی میپردازد .
7 بعد از مرحله مهاجرت هم بانک اطلاعاتی و هم نرم افزار در مرحله تست بررسی
می گردند . در نهایت در مرحله استقرار سیستم نهایی شامل بانک اطلاعاتی
مهاجرت یافته در محیط واقعی مستقر میگردد
Big Data Conforence, Iran Telecom, er, Dr. Ahmadi, Malek, Arianian
صفحه 31:
روش انتخاب پایگاه داده ابری
انتخاب بر اساس نوع داده
داده هایی که می تواند با مدل 46| 16۷-۷۵ ایند کس شوند.
داده هایی که می تواند با مدل 66 610136۱6-۵16 20] ذخیره شوند.
"7 داده هایی که می تواند با مدل 0 136 011411313-0116 © ذخيره مى شوند.
Graph yoy wig pS gh ab? ذخیره می شوند
Input Data
Big vaca vontorence, 4ran 1e1ecom. Kesearcn Lemter, UF. Anmaai, Maen, Artanian
صفحه 32:
دراین روش بر اساس ویژگیهای ت رکیبی تئوری 2/1۴ متتاسب با نوع داده :
Visual Guide to NoSQL Systems
صفحه 33:
انتخاب بر اساس مدل ارائه پایگاه داده
در اين روش بر اساس مدل ارائهپایگاه داده تقسیم بندی صورت می گیرد:
Big Data Conforence, Iran Telecom, Research Center, Dr. Ahmadi, Malek, Arianian
صفحه 34:
مکانیزم انتخاب
هیده مت
ها زر دوه کم
۱
صفحه 35:
مقایسه پایگاههای داده سنتی و دادههای عظیم
صفحه 36:
مقایسه انواع پايگاههاي دادهاي عظیم
صفحه 37:
مقایسه پیچید گی
Key-Value
5 Stores
۳ Column
wa © Families
© Document
Databases
© Graph
Databases
Complexity 0
Big Data Conference, Iran Telecom. Research Center, Dr. Ahmadi, Maleki, Arianian,
صفحه 38:
توسعه پذیری و مقایسه کارایی
NoSQL Database
Performance
Volume of Data
Big Data Conforence, Iran Telecom, Research Center, Dr. Ahmadi, Malek, Arianian
صفحه 39:
نتیجه گیری
7 اين تحقيق با هدف شناخت پایگاههای داده موجود و تمرکز بر مشکلات و نقاط ضعف
تکنولوژی های سنتی در رویارویی با نیاز های جدید و آتی فناوری اطلاعات می باشد.
7 بديهى است با گسترش زیر ساختهاه سرویس ها و برنامه های کاربردی جدید درفناوری
اطلاعات نیاز بهابزارها و راه حل های متفاوتی دارد.
7 شناخت جنبه های ساختاری و کا رکردی پایگاه های داده سنتي مورد بررسی قرار
كرفت و مدل ریاضی و توسعه ای آنها بر اساس ویژگیهای ۸۸6-10 ارائه گردید.
Big Data Conference, Iran Telecom. Research Center, Dr. Ahmadi, Malek, Arianian
صفحه 40:
7 ویژگیهای ساختاری و کا رکردی پایگاه های داده ابری در قالب سیستم های توزیع شده و
ساختارمدل غیر رابطه ای بر اساس تتوری ۸۸۳ و ویژگیهای ]8/05 ارائه گردید.
7 فناوری های مطرح در ایجاد پایگاه های داده ابری در چهار دسته با ویژگی ها و
مشخصات فنی نمونه های معروف آنها مورد بررسی قرار گرفت.
0 مراحل و روش های مهاجرت از پایگاه های داده موجود به ابری در قالب الگوهای ۷ مرحله
ای مهاجرت و نحوه انتخاب پایگاه داده مناسب از میان مدلهای مختلف ارائه گردید.
° مقایسه و ارزیایی فاکتورهای کلیدی صورت گرفته است.
arch Center, Dr. Ahmadi, Maleki, Arianian
Big Data Conference, Iran Telecom. Re
صفحه 41:
