کامپیوتر و IT و اینترنتعلوم مهندسی

انتخاب پايگاه ها‌‌ی داده مناسب

صفحه 1:
Chere er) انتخاب پایگاه‌های داده مناسب برای داده‌هاي عظیم و راهکار مهاجرت از پایگاه‌های داده سنتی دکتر محمد رضا احمدی 9 مهندس داد مکی © مهندس احسان آریانیان

صفحه 2:
: فهرست مطالب ‎CLE‏ جنبه های ساختاری و کا رکردی پایگاه های داده سنتی " ویژگیهای ساختاری و کا رکردی پایگاه های داده ابری ‏7 بررسی فناوری های مطرح در ایجاد پایگاه های داده ابری ‏* بررسی روش های مهاجرت از پایگاه های داده موجود به ابری ‎٩‏ ارزيابي و مقایسه ويژگيهاي مختلف پايگاه‌هاي داده ‎Big Data Conference, Iran Telecom. Research Center, Dr. Ahmadi, Malek, Arianian

صفحه 3:
پايگاههاي داده رابطه اي مدل رابطه‌ای در سال ۱۹۷۰ توسط ادگار کود مطرح شد. اين مدل دارای ساختار داده‌ای بر .اساس يك مفهوم رياضى به نام رابطه استوار است در پایگاه داده رابطه‌اي. رابطه نمایش جدولي دارد و اساساً پایگاه داده رابطه‌اي مجموعه‌اي است از تعدادي جداول با مفاهیم ساختار ي: سطر وستون هر جدول از نظر محتوای داده‌ای مجموعه‌ای است از نمونه‌های متمایز از انواع سطرها و هر سطر نیز مجموعه‌اي از مقادیر است که هر کدام از یک مجموعه بر گرفته شده‌اند Big Data Conference, Iran Telecom. Research Center, Dr. Ahmadi, Maleki, Arianian

صفحه 4:
قوانین حاکم بر پایگامهای داده رابطه ای Atomic : A transaction is a logical unit of work which must be either completed with all of its data modifications, or none of them is performed. Consistent : The consistency property ensures that any transaction will bring the database from one valid state to another. Only valid data is saved. Isolated : Modifications of data performed by a transaction must be independent of another transaction. Durable : When the transaction is completed, effects of the modifica performed by the transaction must be permanent in the system. Big Data Conference, Iran Telecom. Research Center, Dr. Ahmadi, Maleki, Arianian

صفحه 5:
ویژگیهای پایگاههای داده رابطه ای * داده ها و ارتباطات بين آنها در پایگاهدادهبه صورت مجموعه ای از جداول دیده می شود * هیچ جدولی دارای سطرهای تکراری نیست * ترتیب سطرها و ستون ها در هر جدول مهم نیست * ستون ها اتمیک هستند و مقادیر ستون ها غیر قابل تجزیه اند ۰ مس دز روم وی هو ربظه نيزا نين ‎INET‏ ركزره بي هماد * ارتباط رابطه ها با یکدیگر از طریق صفات خاصه مشترک انجام می گیرد * ایجاده دسترسی و توسعه آن آسان است. بعد از ايجاد بايككاه داده اوليه» جداول جدید می توانند اضافه شوند بدون اينكه نياز به تغيير كاربردهاى موجود باشد Big Data Conforence, Iran Telecom, Center, Dr. Ahmadi, Maleki, Arianian

صفحه 6:
Figure 1.1 A simplified database system environment ر داخلی پایگاه داده Users/Programmers Database System ۲ ‘Application Programs/Queries DBMS 1 Software Soitware to Process Queries/Programs y Software to Access: Stored Data 1 Stored Database Definition Stored Database (Meta-Data) Big Data Conforence, Iran Telecom, Research Center, Dr. Ahmadi, Maleki, Ari

صفحه 7:
نمونه هایی از پایگامهای داده رابطه ای ‎The most popular RDBMS are:‏ °MS SQL Server, °IBM DB2, °Oracle DB, MySQL, °Microsoft Access. Big Data Conference, Iran Telecom.

صفحه 8:
محدودیت هاي پايگاههاي داده رابطه اي 1 براي داد ه هاي با توالي نوشتن بالا و توالي خواندن کم: 2 براي داده هاي با توالي خواندن بالا و توالي نوشتن بسیار کم: 3 براي کاربردهایی که نیازبه دسترسی بالا (جانلاطه‌انه۸ طون3) و توقف ‎pF Low (Downtime) obos‏ 205,19 Big Data Conforence, Iran Telecom, Research Center, Dr. Ahmadi, Malek, Arianian

صفحه 9:
ادامه . برای داد ه هایی که باید در نقاط مختلف جغرافیایی با هم همگام سازی شوند: برای داد ه های بزرگ تجاری یا مرتبط با تحلیل وب : Big Data Conforence, Iran Telecom, Research Center, Dr. Ahmadi, Malek, Arianian

صفحه 10:
= © DIGITAL INFORMATION 0 2 8 We E 3S tion ‏ع‎ ‎a Busit a Tr 3 Data 8 1970 1980 1990 2000 2010 ‘Gw3resource « Big Data Conforence, Iran Telecom, Research Center, Dr. Ahmadi, Malek, Arianian

صفحه 11:
DIGITAL INFORMATION Total archived capacity, by content type - worldwide عمساعس او Terabytes 100,000,000 همايش داده هاى عظيم - مركز تحقيقات ارات ۱۳۹۳ 23153 امصجمة بلجا ل جتحبة عجن ‎Best‏ وتا مج نمو ريم 66 9۵9

صفحه 12:
WHAT IS NOSQL ? © NoSQL is a non-relational database management systems, different from traditional relational database management systems in some significant ways. © It is designed for distributed data stores where very large scale of data storing needs (for example Google or Facebook which collects terabits of data every day for their users). © These type of data storing may not require fixed schema, avoid join operations and typically scale horizontally. 6 Big Data Conforence, Iran Telecom,

صفحه 13:
پایگاه های داده توزیع شده دراین نوع پایگاه های داده بر خلاف پایگاه های مرکزی داده ها به جاى اين که در یک محل مرکزی نگهداری شده بر روی چندین مرکز نگهداری شده و هر م رکز نیز تا حد زیادی استقلال خود را حفظ می کند. دو نوع این پایگاه های داده عبارتند از : © همسان ,| ‎Homogeneous:‏ یک پایگاه داده یکسان» مطلع از یکدیگر و آماده هماهنگی و دارای شمای یکسان داده ای ® غیر همسان یا :5 بايكاه داده غیر یکسان» غير مطلع از یکدیگر و آماده هماهنگی و همکاری محدود و دارای شمای غیر یکسان داده ای Big Data Conforence, Iran Telecom. R

صفحه 14:
RDBMS VS NOSQL ° RDBMS - Structured and organized data - Structured query fanguage (SQL) - Data and its relationships are stored in separate tables. - Standard Data Manipulation Language, Data Definition Language - Tight Consistency - BASE Transaction © NoSQL (Stands for Not Only SQL) - No declarative query language - No predefined schema - Key-Value pair. storage, Column Store, Document Store, Graph databases - Eventual consistency rather than ACID property - Unstructured and unpredictable data - CAP Theorem i izes high performance, high availability and ity

صفحه 15:
CAP THEOREM (BREWER’S THEOREM) CAP theorem states that there are three basic requirements which exist in a special relation when designing applications for a distributed architecture. ©Consistency - This means that the data in the database remains consistent after the execution of an operation. For example after an update operation all clients see the same data. °Availability - This means that the system is always on, no downtime. ©°Partition Tolerance - This means that the system continues to function even the communication among the servers is unreliable, i.e. the servers may be partitioned into multiple groups that cannot communicate with one “oO Big Data Conference, Iran Telecom. Center, Dr. Ahmadi, Maleki, Arianian

صفحه 16:
شدن فزیکی شیک | ‎Pranion‏ CAP THEOREM AP=NoSQl/Docum ent or Key/Value 9 يم Cassandra Simplepe Voldemort Tokyo Cabinet RIAK (6/] . در دسترس بودی: هر کلایشتبتاند ‎amy,‏ هموارهداده ها وا خوانده وبتویسد. CA=SQL/RDBMS SQL Server Oracle, MySQL Aster Dato ‏امومع‎ ‎Vertica ‎Sal Azure CAP Conditions: ثبات: تمام کلاینت ها همواره به تسد هاي جم یکسای ادها ‎Wonsistency CP=NoSQL/Column or Graph‏ هيرس داشته ‎MongoDa‏ ال ‎es‏ ‏00000 واطمنوا8 ع ‎Neo‏ عم ‎MemcacheDa‏ Big Data Conference, Iran Telecom. Research Center, Dr- Ahmadi, Malek Aria

صفحه 17:
NOSQL PROS/CONS ° Advantages : © High scalability © Distributed Computing © Lower cost © Schema flexibility, semi-structure data © No complicated Relationships ° Disadvantages ° No standardization © Limited query capabilities (so far) ° Eventual consistent is not intuitive to program © er, Dr. Ahmadi, Malek, Arianian Big Data Conference, Iran Telecom. R

صفحه 18:
NOSQL CLASSIFICATION Key-Value Document- Oriented Column- Oriented Graph graph theor Database x: Big Data Conforence, Iran Teleco

صفحه 19:
MATCHING DB Coherence, eXtreme Scale, GigaSpaces, GemFire, Hazelcast, Infinispan, JBoss Cache, Memcached, Repcached, Terracotta, Velocity Flare, Keyspace, RAMCloud, SchemaFree DovetailDB, Dynamo, Riak, Dynomite, MotionDb, Voldemort, SubRecord Actord, FoundationDB, Lightcloud, Luxio, MemcacheDB, NMDB, Scalaris, TokyoTyrant Redis Apache River, Coord, GigaSpaces DBAO, Perst, Shoal, ZopeDB, Clusterpoint, Couchbase, CouchDB, MarkLogic, MongoDB, XML-databas BigTable, Cassandra, Druid, HBase, Hypertable KAL KDI, OpenNeptune, Qbase AllegroGraph, DEX/Sparksee, FlockDB, IBM 1DB2, InfiniteGraph, Neodj, OWLIM, OrientDB ‘Sones GraphDB, Sarr Enterprise, OpenLink Big Sua Gonterwe, Hem Teleco Key-Value Document Column Graph

صفحه 20:
CLOUD DB MANAGEMENT SYSTEM Big Data Conference, Iran Telecom. Research Center, Dr. Ahmadi, Maleki, Arianian

صفحه 21:
چالشهای مطرح در بانک اطلاعاتی ابری ‘Simplified Queries Big Data Conforence, Iran Telecom, Research Center, Dr. Ahmadi, Malek, Arianian

صفحه 22:
مشخصات فنی پایگاه های داده ای ابری متداول در این قسمت معرف ترین پایگاه های داده ابری ارائه شده است: بستر هدوپ از گروه 1112 6۱۷-۷3 پایگاههای داده بررسی می شود: ‎MemCacheDBe‏ ‏از كروه 601 35 06111796101-8 2] پایگاههای داده بررسی می شود: ‎CouchDBe‏ ‎MongoDBe‏ ‏از £ ,. ‎Column-Based‏ پایگاههای داده بررسی می شود: ‎HBasee‏ ‎Cassandrae‏ ‏از گروه 3۲۵]010) پایگاههای داده بررسی می شود: ‎HB‏ داده [۱1۵04 Big Data Conforence, Iran Telecom, er, Dr. Ahmadi, Malek, Arianian

صفحه 23:
WHAT IS APACHE HADOOP? ‎(Prxmeworke) whick‏ و و او و ها ‎very sore tercos, Wadoop‏ و9 ‎rePerred to ce Dig Dota), ord‏ سا جع اه موه و ‎dows storie‏ لا )وی ‎wore oP Praca oad Paster‏ ی و وتو ‎processkn).‏ ‎6p esseuidly, fhe core pan of Opache Wedoop cosprises tue thioeps! 96 ‏موه‎ pan (Aecooy Disrbuied Pie ‏مرن‎ or ORS) ad a processisny pat (DaReccr). ‎Oe Aertoop Distrbted Pie Syste (DPC) ‏جوا ها ما لا نامو‎ (dePauk OF O® vr (COMO) gad dettbules the blocks acorns the cde fr te chester. Por process the deta, the Weroop Dopl(Reduce ships code ‏روج‎ lar Ales) to tke coder thot hove the requiced cata, cad the odes hea process the cata i parce. ‎Big Data Conference, Iran Telecom. Research Center, Dr. Ahmadi, Maleki, Arianian,

صفحه 24:
MEMCACHEDB Big Data Conforence, Iran Telecom, Research Center, Dr. Ahmadi, Malek, Arianian

صفحه 25:
COUCHDB 7 معماري توزيعي و همتاسازي ‎٩‏ ذخیره سازي سندها ‏7 ويژگيهاي اسید ‏0 دیدگاه نگاشت /کاهش وایندکس ها ‏9 پايداري نهایی با 005157۳۴07 5۷۳۲7۸ 9 زبان ‎Erlang‏ ‏7 ریلکس نماد سادگي کارباآن است ‎Big Data Conference, Iran Telecom. Research Center, Dr. Ahmadi, Malek, Arianian

صفحه 26:
COLUMN-BASED CASSANDRA Google a es oS ‏سکس و‎ 0 © مدل داده ای کلاسترینگ حلقه ای ‎a‏ ‎sandra are‏ enter, Dr. Ahmadi, Malek, Arianian Big Data Conforence, Iran Telecom, Resear

صفحه 27:
N EO4J ‏پایگاه داده‎ مبتني بر گراف تكره ها و روابط حاوي ‎oats‏ پرس و جو هاي مبتني بر پیمایش 7"شاخص (130162) گذاري براي جستجوي راحت تر © ۸0 است *قابلیت اجرا بر روي کلاستر با كارايي بالا #ذخیره میلیون ها گره و رابطه 15,5 APIO کاملا عقاوم بسیار مقیاس پذیر است #دارا بودن چرخه توسعه به شدت سریع "انعطاف پذیر است. ‎ops?‏ بانک اطلاعاتي در سه نسخه عرضه مي شود ‏* 60۳7 :از لیرسخه بسه عنلنلبه لی‌تربرنسخه از [4 60[ باد مي‌شود. 0 قلبلیتمانیتور کردنیسیشرفته بانکلطاهلتیرا درد ‎ews Enterprise‏ شتیبارگسیروآنالینکلاستربنگو مانیتوربنگپسیشرفته رادار ‎Big Data Conference, Iran Telecom. Research Center, Dr. Ahmadi, Malek, Arianian

صفحه 28:
ساختارپایگاه داده درپیاده سازی مدلهای ابری لايه بايكاه داده Traditional Ww Hybrid Cloud شامل دو كام اساء ‎cloud, 0‏ ‎eed gil Jd eye DAL Sj.‏ ابرى ‎٠‏ Ahmadi, Malek, Arianian Big Data Conference, Iran Telecom. Research Center, Dr. Application Layers

صفحه 29:
مراحل مهاجرت داده ها به پایگاه داده ابری سس 777 ممصم Big Data Conforence, Iran Telecom, Research Center, Dr. Ahmadi, Malek, Arianian

صفحه 30:
مراحل مهاجرت 7 در بخش ارزیایی» اطلاعات مرتبط با مدیریت محاجرت ماند ابزارها و گزینه های مهاجرت به منظور ارزیایی تأثیر مهاجرت بانک اطلاعاتی ارزیایی میگردد . 7 تجزیه و تحلیل جزئیات پیاده سازی در بانک اطلاعاتی هدف یعنی انواع داده های مختلف » مکانیزمهای مدیریت ترا کتش را بررسی میکند . 7 بخش مهاجرت این الگو به مهاجرت داده از دادههای مبداً به دادههای مقصد در محیط تستی میپردازد . 7 بعد از مرحله مهاجرت هم بانک اطلاعاتی و هم نرم افزار در مرحله تست بررسی می گردند . در نهایت در مرحله استقرار سیستم نهایی شامل بانک اطلاعاتی مهاجرت یافته در محیط واقعی مستقر میگردد Big Data Conforence, Iran Telecom, er, Dr. Ahmadi, Malek, Arianian

صفحه 31:
روش انتخاب پایگاه داده ابری انتخاب بر اساس نوع داده داده هایی که می تواند با مدل 46| 16۷-۷۵ ایند کس شوند. داده هایی که می تواند با مدل 66 610136۱6-۵16 20] ذخیره شوند. "7 داده هایی که می تواند با مدل 0 136 011411313-0116 © ذخيره مى شوند. ‎Graph yoy wig pS gh ab?‏ ذخیره می شوند Input Data Big vaca vontorence, 4ran 1e1ecom. Kesearcn Lemter, UF. Anmaai, Maen, Artanian

صفحه 32:
دراین روش بر اساس ویژگیهای ت رکیبی تئوری 2/1۴ متتاسب با نوع داده : Visual Guide to NoSQL Systems

صفحه 33:
انتخاب بر اساس مدل ارائه پایگاه داده در اين روش بر اساس مدل ارائهپایگاه داده تقسیم بندی صورت می گیرد: Big Data Conforence, Iran Telecom, Research Center, Dr. Ahmadi, Malek, Arianian

صفحه 34:
مکانیزم انتخاب هیده مت ها زر دوه کم ۱

صفحه 35:
مقایسه پایگاه‌های داده سنتی و داده‌های عظیم

صفحه 36:
مقایسه انواع پايگاه‌هاي داده‌اي عظیم

صفحه 37:
مقایسه پیچید گی Key-Value 5 Stores ۳ Column wa © Families © Document Databases © Graph Databases Complexity 0 Big Data Conference, Iran Telecom. Research Center, Dr. Ahmadi, Maleki, Arianian,

صفحه 38:
توسعه پذیری و مقایسه کارایی NoSQL Database Performance Volume of Data Big Data Conforence, Iran Telecom, Research Center, Dr. Ahmadi, Malek, Arianian

صفحه 39:
نتیجه گیری 7 اين تحقيق با هدف شناخت پایگاههای داده موجود و تمرکز بر مشکلات و نقاط ضعف تکنولوژی های سنتی در رویارویی با نیاز های جدید و آتی فناوری اطلاعات می باشد. 7 بديهى است با گسترش زیر ساختهاه سرویس ها و برنامه های کاربردی جدید درفناوری اطلاعات نیاز بهابزارها و راه حل های متفاوتی دارد. 7 شناخت جنبه های ساختاری و کا رکردی پایگاه های داده سنتي مورد بررسی قرار كرفت و مدل ریاضی و توسعه ای آنها بر اساس ویژگیهای ۸۸6-10 ارائه گردید. Big Data Conference, Iran Telecom. Research Center, Dr. Ahmadi, Malek, Arianian

صفحه 40:
7 ویژگیهای ساختاری و کا رکردی پایگاه های داده ابری در قالب سیستم های توزیع شده و ساختارمدل غیر رابطه ای بر اساس تتوری ۸۸۳ و ویژگیهای ]8/05 ارائه گردید. 7 فناوری های مطرح در ایجاد پایگاه های داده ابری در چهار دسته با ویژگی ها و مشخصات فنی نمونه های معروف آنها مورد بررسی قرار گرفت. 0 مراحل و روش های مهاجرت از پایگاه های داده موجود به ابری در قالب الگوهای ۷ مرحله ای مهاجرت و نحوه انتخاب پایگاه داده مناسب از میان مدلهای مختلف ارائه گردید. ° مقایسه و ارزیایی فاکتورهای کلیدی صورت گرفته است. arch Center, Dr. Ahmadi, Maleki, Arianian Big Data Conference, Iran Telecom. Re

صفحه 41:

انتخاب پايگاه‌ها‌‌ي داده مناسب براي داده‌هاي عظيم و راهكار مهاجرت از پايگاه‌ها‌‌ي داده سنتي 1 : ‏ ‏ ‏ ‏ پايگاههاي داده ‌ ارزيابي و مقايسه ويژگيهاي مختلف 2 پايگاههاي داده رابطه اي . در پايگاه داده رابطه‌اي ،رابطه نمايش جدولي دارد و اساسًا پايگاه داده رابطه‌اي مجموعه‌اي است از تعدادي جداول با مفاهيم ساختار ي :سطر وستون هر جدول از نظر محتواي داده‌اي مجموعه‌اي است از نمونه‌هاي متمايز از انواع سطرها و هر سطر نيز مجموعه‌اي از مقادير است که هر کدام از يک مجموعه .برگرفته شده‌اند 3  Atomic : A transaction is a logical unit of work which must be either completed with all of its data modifications, or none of them is performed.  Consistent : The consistency property ensures that any transaction will bring the database from one valid state to another. Only valid data is saved.  Isolated : M odifications of data performed by a transaction must be independent of another transaction.  Durable : When the transaction is completed, effects of the modifications performed by the transaction must be permanent in the system. 4 • • • • • • • 5 6 The most popular RDBM S are: M S SQL Server, IBM DB2, Oracle DB, M ySQL, M icrosoft Access. 7 محدوديت هاي پايگاههاي داده رابطه اي .1براي داد ه هاي با توالي نوشتن باال و توالي خواندن کم :همانند شمارنده هاي بازديد صفحات وب ،دستگاه هاي وقايع نگار يا تلسكوپ هاي فضايي. .2براي داده هاي با توالي خواندن باال و توالي نوشتن بسيار كم :همانند داده هاي گذرا و تصاوير ،اسناد و HTMLرندر شده با دسترسي تكراري. .3براي کاربردهايي كه نيازبه دسترسي باال ( )High Availabilityو توقف خدمات ( )Downtimeبسيار كم دارند :اين مورد در مدل رابطه اي با كمبود هاي همراه است و به خوبي از عهده آن بر نمي آيد .در اينجا بيش از هر چيز به مقياس پذيري افقي و امكان توسعه روي ماشين هاي مختلف شبكه نياز دارد. 8 9 DIGITAL INFORMATION 10 DIGITAL INFORMATION 11 WH AT IS NOSQL ?  NoSQL is a non-relational database management systems, different from traditional relational database management systems in some significant ways.  It is designed for distributed data stores where very large scale of data storing needs (for example Google or Facebook which collects terabits of data every day for their users).  These type of data storing may not require fixed schema, avoid join operations and typically scale horizontally. 12 Homogeneous Heterogeneous   13 RDBM S VS NOSQL  RDBM S - Structured and organized data - Structured query language (SQL) - Data and its relationships are stored in separate tables. - Standard Data M anipulation Language, Data Definition Language - Tight Consistency - BASE Transaction  NoSQL (Stands for Not Only SQL) - No declarative query language - No predefined schema - Key-Value pair storage, Column Store, Document Store, Graph databases - Eventual consistency rather than ACID property - Unstructured and unpredictable data - CAP Theorem - Prioritizes high performance, high availability and scalability 14 CAP TH EOREM (BREWER’S TH EOREM ) CAP theorem states that there are three basic requirements which exist in a special relation when designing applications for a distributed architecture. Consistency - This means that the data in the database remains consistent after the execution of an operation. For example after an update operation all clients see the same data. Availability - This means that the system is always on, no downtime. Partition Tolerance - This means that the system continues to function even the communication among the servers is unreliable, i.e. the servers may be partitioned into multiple groups that cannot communicate with one another. 15 CAP TH EOREM 16 NOSQL PROS/CONS Advantages :  High scalability  Distributed Computing  Lower cost  Schema flexibility, semi-structure data  No complicated Relationships  Disadvantages  No standardization  Limited query capabilities (so far)  Eventual consistent is not intuitive to program  17 NOSQL CLASSIFICATION Data Model Key–Value DocumentOriented ColumnOriented Graph Database Performan Scalabil Flexibilit Complex Functional ce ity y ity ity variable high high high none (none) high variable (high) high low variable (low) high high moderate low minimal variable variable high graph theor y high 18 M ATCH ING DB Term Key-Value Cache Key-Value Store Key-Value Store (EventuallyKey–Value Consistent) Key-Value Store (Ordered) Data-Structures server Tuple Store Object Database Document Document Store Column Graph Wide Columnar Store Graph databases Matching Database Coherence, eXtreme Scale, GigaSpaces, GemFire, Hazelcast, Infinispan, JBoss Cache, M emcached, Repcached, Terracotta, Velocity Flare, Keyspace, RAMCloud, SchemaFree DovetailDB, Dynamo, Riak, Dynomite, MotionDb, Voldemort, SubRecord Actord, FoundationDB, Lightcloud, Luxio, Memc acheDB, NMDB, Scalaris, TokyoTyrant Redis Apache River, Coord, GigaSpaces DB4O, Perst, Shoal, ZopeDB, Clusterpoint, Couchbase, CouchDB, MarkLogic, MongoDB, XML-databases BigTable, Cassandra, Druid, HBase, Hypertable, KAI, KDI, OpenNeptune, Qbase AllegroGraph, DEX/Sparksee, FlockDB, IBM DB2, InfiniteGraph, Neo4j, OWLIM, OrientDB, 19 Sones GraphDB, Sqrrl Enterprise, OpenLink Virtuoso, Stardog 20 CLOUD DB M ANAGEM ENT SYSTEM 21 Key-value M emCacheDB • Document-Based CouchDB • M ongoDB • Column-Based H Base• Cassandra• Graph Neo4J • 22 WH AT IS APACH E H ADOOP? In very simple terms, Hadoop is a set of algorithms (frameworks) which allows storing huge amount of data (can be referred to as Big Data), and processing it in a much more efficient and faster manner (via distributed processing). So essentially, the core part of Apache Hadoop comprises two things: A storage part (Hadoop Distributed File System or HDFS) and a processing part (MapReduce). Its Hadoop Distributed File System (HDFS) splits files into large blocks (default 64MB or 128MB) and distributes the blocks amongst the nodes in the cluster. For processing the data, the Hadoop Map/Reduce ships code (specifically Jar files) to the nodes that have the required data, and the nodes then process the data in parallel. 23 MEMCACHEDB • يك پايگاه داده كليد-مقدار بر اساس پايگاه داده بركلي است .اين سامانه معموًال براي افزايش سرعت وب‌سايت‌هاي استفاده کننده از پايگاه‌داده ،با استفاده از ذخيره داده‌ها و اشيا در حافظه اصلي براي کاهش تعداد دفعات خواندن داده از پايگاه‌داده به کار مي‌رود. • در يك شبکه اجتماعي اين سيستم با استفاده از هزاران سرور ،Memcachedده‌ها ترابايت داده کش‌شده گذرا را در هر لحظه پردازش‌كرده و خدمات مرتبط را به کاربران خود ارائه مي‌كند. • داده‌هاي با توالي خواندن باال و توالي نوشتن بسيار‌کم :همانند داده‌هاي‌گذرا و کش شده‌اي از تصاوير ،اسناد و HTMLرندر شده با دسترسي تکراري. COUCHDB ‏J SON ‏CouchDB ‏C معماري توزيعي و همتاسازي ذخيره سازي سندها ويژگيهاي اسيد ديدگاه نگاشت/کاهش وايندکس ها پايداري نهايي يا EVENTUAL CONSISTENCY زبان Erlang ريلکس نماد سادگي كارباآن است 25 COLUMN-BASED CASSANDRA Reddit Cloudkick Digg OpenX Ooyala Rackspace SimpleGeo 26 NEO4J مبتني بر گراف ‏گره ها و روابط حاوي داده ‏پرس و جو هاي مبتني بر پيمايش ‏شاخص ( )Indexگذاري براي جستجوي راحت تر ACID است ‏قابليت اجرا بر روي کالستر با كارايي باال ‏ذخيره ميليون ها گره و رابطه APIشي گرا ‏کامال مقاوم ‏بسيار مقياس پذير است ‏دارا بودن چرخه توسعه به شدت سريع ‏انعطاف پذير است، ‏اين بانک اطالعاتي در سه نسخه عرضه مي شود: ‏ ‏ 27 ‏ : Communityاز اين نسخه به عنوان پايه اي ترين نسخه از Neo4jياد مي شود. : Advancedقابليت مانيتور کردن پيشرفته بانک اطالعاتي را دارد. :Enterpriseقابليت پشتيبان گيري آنالين ،کالسترينگ و مانيتورينگ پيشرفته را دارد. cloud DBL DAL 28 29     30 Key-Value Document-oriented Column-oriented Graph     31 CAP 32 • Cassandra . Amazone machine Image Virtual simpleDB • Database as a service, Cassandra, M ongoDB • Native Cloud NoSQL--Google APP, SalesForse 33 مكانيزم انتخاب 34 مقايسه پايگاه‌هاي داده سنتي و داده‌هاي عظيم پايگاه‌هاي داده سنتي مدل محاسباتي مدل داده‌اي مدل هزينه تحمل خطا 35 پايگاه‌هاي داده عظيم بر اساس مفهوم Jobها بر اساس مفهوم تراكنش تراكنش‌ها واحد هاي كاري‌ هستند Job -ها واحدهاي كاري‌اند مبتني بر خواص CAPو BASE مبتني بر خواص ACID كنترل همزماني ندارد كنترل همزماني دارد داده‌هاي ساخت‌يافته با طرحيمشخص -دو وضعيت خواندن/نوشتن داده‌ها با هر فرمتي دلخواه داده‌هاي بدون/نيمه ساختار -وضعيت تنها خواندني از سرورهاي گران قيمت خطا به ندرت ايجاد مي‌شود -مكانيزم‌هاي بهبود و ترميم ازكامپيوترهاي مناسب ارزان خطاها به طور معمول بر روي ماشينهاي زيادي ايجاد مي شوند -تحمل خطاي كارآمد و ساده مشخصات كليدي -كارايي ،بهينه‌سازي ،تنظيم خوب مقياس‌پذيري ،انعطاف‌پذيري وتحمل‌خطا مقايسه انواع پايگاه‌هاي داده‌اي عظيم پايگاه داده متريك مبتني‌بر كليد/مقدار باال مقياس‌پذيري باال انعطاف‌پذيري پايين پيچيدگي باال سرعت‌ اجرا باال حجم داده‌ها باال تنوع داده‌اي باال تحمل خطا باال دسترسي‌پذيري پايين ثبات باال بخش‌بندي قابليت اجراي در ابر باال 36 مبتني‌بر ستون باال متوسط متوسط باال متوسط پايين باال پايين باال باال باال مبتني‌بر مستندات متوسط باال متوسط متوسط متوسط متوسط متوسط باال پايين باال متوسط مبتني‌بر گراف متوسط باال باال پايين پايين ضعيف متوسط پايين باال باال متوسط سنتي رابطه‌اي ضعيف ضعيف ضعيف متغير ضعيف ضعيف پايين باال باال ضعيف پايين 37 38    ACID  39  BASE CAP    40 41

51,000 تومان