Data deduplication چیست؟

آیا تا به حال چیزی درباره Data deduplication شنیده اید؟ در این مقاله قصد داریم تا به شما توضیح دهیم که Data deduplication چیست و انواع روش های Data deduplication را برای شما ذکر کنیم.

Data deduplication در واقع به شما کمک می کند تا به راحتی فایل های خود را با سرعت بسیار زیادی به سرور ابری انتقال دهید و بهترین خدمات را به کاربران خود ارائه دهید.

روش های Data deduplication مختلف است و امروز نیز در این مقاله، با انواع روش های Data deduplication آشنا خواهید شد و خواهید دانست که چگونه می توانید اقدام به پیاده سازی Data deduplication کنید.

در مبحث محاسبه، Data deduplication روشی برای از بین بردن نسخه های تکراری و اضافی داده ها است. در واقع شما با استفاده از این تکنولوژی می توانید از به وجود آمدن فایل های تکراری جلوگیری کنید و بار شبکه را بسیار سبک تر کنید و در واقع به به این روش نیز “نمونه تک از داده موجود” و یا به انگلیسی Single-Instance Data نیز گفته می شود.

دلیل استفاده از Data deduplication این است که به شما کمک می کند تا فضای ذخیره سازی داده و اطلاعات شما بهینه شود و همچنین تعداد بایت های ارسال شده به سمت سرور، بسیار کاهش پیدا کند.

نحوه کار کردن به این صورت است که در ابتدا طی یک فرایند، الگوهای بایت داده ها، شناسایی و تحلیل می شود و پس از آن، با تکه های دیگر با نسخه ذخیره شده فعلی مقایسه می شود، اگر احیانا دو فایل مشابه هم وجود داشته باشد، از ایجاد آن فایل در فضای ذخیره سازی جلوگیری می کند و اجازه نمی دهد تا چنین اتفاقی رخ دهد.

آیا Deduplication همان فشرده سازی فایل ها است؟

Deduplication در واقع با الگوریتم های فشرده سازی داده ها، مانند LZ77 و LZ78 متفاوت است. در حالی که الگوریتم های فشرده سازی، داده های اضافی را درون فایل ها شناسایی می کند و این داده های اضافی را رمزگذاری می کنند، هدف کلی آن، بهینه سازی فضای ذخیره سازی از بین بردن فایل های تکراری در سرور است که باعث می شود تا بار سرور بسیار سبک تر از قبل شود و از این جهت نیز، کارایی سرور بیشتر شود.

به عنوان مثال، یک سیستم ایمیل معمولی ممکن است حاوی ۱۰۰ نمونه از همان فایل پیوست (Attach) 1 مگابایتی باشد. هر بار که از بستر ایمیل نسخه پشتیبان تهیه شود، هر ۱۰۰ فایل پیوست شده ذخیره می شود و به ۱۰۰ مگابایت فضای ذخیره نیاز دارد. شما با استفاده از روش Data deduplication، فقط یک نمونه از فایل پیوست شده مواجه خواهید شد و دیگر نیازی نیست تا فضای اضافی، صرف فایل های تکراری کنید.

اختصاص داده های مبتنی بر ذخیره سازی از طریق deduplication، میزان ذخیره سازی مورد نیاز برای مجموعه ای از فایل ها را کاهش می دهد.

بیشترین کاربرد Data deduplication در برنامه هایی است که فایل های تکراری زیادی در یک فضای ذخیره سازی، اقدام به ذخیره شدن می شوند و از این جهت، در مورد پشتیبان گیری از داده ها، که به طور معمول برای محافظت در برابر از بین رفتن داده ها انجام می شود، با سرعت بیشتری صورت می گیرد و دیگر نیازی نیست تا از یک فایل، بیش از ۱۰۰ بار پشتیبان گیری صورت بگیرد و باعث می شود تا حجم عملیات کاهش و سرعت آن افزایش پیدا کند.

سیستم های پشتیبان (بکاپ گیری) سعی می کنند از این طریق با حذف فایل ها و اسنادی که تغییر نکرده اند بهره برداری کنند و سرعت خود را بالا ببرند.

با این حال، هیچ یک از روش های ذکر شده، افزونگی ها (یا به زبان انگلیسی Redundancies) را ثبت نمی کند.

بهره وری سرورها و ماشین های مجازی از Deduplication

سرورهای مجازی از deduplication بهره می برند زیرا باعث می شود تا به صورت عادی، فایل های سیستمی و فایل هایی که برای ماشین مجازی ایجاد شده است، در یک فضای ذخیره سازی جمع آوری شوند و در عین حال، می توانید به گونه ای تنظیم کنید که اگر فایل های تکراری در فضای ذخیره سازی جمع آوری شده اند، حذف یا جایگزین شوند.

اگر شما مسئول بخش آی تی یک شرکت هستید و هر از چند مدتی اقدام به تهیه نسخه پشتیبان و یا انتقال حجم زیادی از داده ها را برعهده دارید، به احتمال زیاد تا به امروز کلمه Deduplication را شنیده اید و این عمل باعث می شود تا از تکثیر داده تکراری جلوگیری شود و زمانی که شما از سرور ابری استفاده می کنید، می تواند هزینه های شما را بسیار پایین بیاورد.

در ساده ترین تعریف آن، Data deduplication به تکنیکی برای از بین بردن داده های تکراری در یک سرور و یا فضای ذخیره سازی گفته می شود.

در واقع نسخه های اضافی از همان فایل ها و داده ها حذف می شوند و فقط یک نسخه ذخیره می شود. داده ها برای شناسایی الگوهای بایت تکراری مورد استفاده قرار می گیرند تا اطمینان حاصل شود که نمونه واحد در واقع یک فایل کامل است و سپس، نسخه های تکراری با یک فایل مرجع جایگزین می شوند.

با توجه به اینکه همین الگوی بایت ممکن است ده‌ها، صدها یا حتی هزاران بار اتفاق بیفتد، به تعداد دفعاتی که فقط در یک فایل تغییرات کوچکی ایجاد می کنید، مقدار داده های تکراری می تواند قابل توجه باشد.

در برخی از شرکت ها ۸۰% از داده ها کپی شده هستند و همین باعث می شود تا حجم کار، بدون هیچ دلیل خاصی بالا بروند و هزینه های زیادی برای فضای ذخیره سازی مصرف شود و از جهتی دیگر نیز، سرعت بکاپ گیری به شدت کاهش پیدا می کند و می تواند زمان زیادی را تلف کند.

پس از این جهت، به شما پیشنهاد می شود تا مسئله Data deduplication را در شرکت و یا سازمان خود، جدی بگیرید.

روش های Data deduplication – Data deduplication به چه صورت است؟

یکی از رایج ترین روش های Data deduplication با مقایسه تکه های داده برای تشخیص تکراری انجام می شود. برای اینکه این اتفاق بیفتد توسط یک بخش از نرم افزار سیستمی، در واقع اقدام به مقایسه هش ها و نحوه رمزگذاری فایل ها در کنار بایت های یک فایل می کند و پس از آن متوجه می شود که آیا فایل تکراری است یا نه.

در بسیاری از روش های Data deduplication، تصور می شود که اگر شناسایی داده ها و اطلاعات یکسان باشد، داده ها یکسان هستند و نیاز است تا فایل ها حذف شوند.

پیاده سازی های دیگر این مسئله را در نظر نمی گیرند که دو بلوک از داده ها با همان شناسه یکسان هستند، اما در واقع تایید می کنند که داده ها با همان شناسایی یکسان هستند.

پس از جمع آوری داده ها، پس از خواندن فایل مربوطه، در هر جایی که لینکی یافت شود، سیستم به سادگی جایگزین آن لینک با بخش داده های ارجاع شده می شود و اقدام به مقایسه کردن می کند.

مشکلات Data deduplication – آیا امکان خطا در Data deduplication وجود دارد؟

یک روش برای جمع آوری داده ها به استفاده از توابع هش رمزنگاری برای شناسایی بخش های تکراری داده ها استفاده می شود. اگر دو قطعه مختلف اطلاعات یک مقدار هش یکسان ایجاد کنند، این به عنوان فایل تکراری برخورد می شود. معمولا زمانی یک فایل حذف می شود که طول هش ها و بایت ها با همدیگر یکسان باشد و بنابراین ممکن است یک هش تکراری ایجاد شود و از این جهت، فایل ها حذف شوند که در نتیجه ممکن است خسارت زیادی به کسب و کار شما وارد کند.

برای اینکه این عمل صورت نگیرد، معمولا به هنگام حذف فایل ها، نیازمند تایید کاربر است که آیا واقعا این دو فایل یکسان هستند و یا تفاوت هایی در داده وجود دارد.

برای بهبود عملکرد، برخی از سیستم ها هم از هش قوی و هم از هش ضعیف استفاده می کنند. هش ضعیف برای محاسبه بسیار سریعتر است اما خطر بیشتری برای برخورد و یا ایجاد خطا در سیستم وجود دارد.

سیستم هایی که از هش ضعیف استفاده می کنند در واقع یک هش قوی را محاسبه می کنند و از آن به عنوان عامل تعیین کننده این که آیا داده ها یکسان هستند یا خیر.

توجه داشته باشید که سربار سیستم (system overhead) مربوط به محاسبه و جستجوی مقدار هش در درجه اول تابعی از گردش کار deduplication است.

یک نگرانی دیگری وجود دارد که برای تعامل فشرده سازی و رمزگذاری است. هدف از رمزگذاری داده ها، از بین بردن هر الگوی قابل تشخیص در داده ها است. بنابراین داده های رمزگذاری شده را نمی توان دور زد، حتی اگر داده های اساسی ممکن است اضافی نباشند.

اگر هش های شما قابل حدس زدن باشد و دستگاه های مختلف بتوانند به راحتی هش های داده شما را حدس بزنند، باعث می شود تا امنیت فایل های شما از بین برود و از این جهت دسترسی های مختلفی به سیستم شما داشته باشند و یا بخواهند تا فایل ها را در سیستم شما از بین ببرند.

پس شما باید سعی کنید تا از رمزگذاری مناسب و همچنین هش نسبتا قوی در این مسئله استفاده کنید تا کسی نتواند امنیت شما را مختل کند.

کارکرد دقیق Data deduplication به چه صورت است؟ – Data deduplication چیست و چگونه کار می کند؟

Deduplication در سطح بلوک ۴ کیلوبایتی در کل حجم FlexVol و در بین کلیه حجم موجود در فضای ذخیره سازی، فعالیت می کند، بلوک های داده تکراری را حذف کرده و فقط بلوک های منحصر به فرد داده را ذخیره می کند و اجازه نمی دهد تا بار سرور، سنگین شود و از این جهت نیز کارها با سرعت بیشتری صورت می گیرد.

هنگامی که داده ها برای سیستم نوشته می شوند، موتور deduplication درون خطی بلوک های دریافتی را اسکن می کند و به صورت هش، اقدام به ذخیره سازی آن ها می کند و از این جهت می تواند متوجه شود که آیا این فایل تکراری است یا خیر.

مزایا و معایب Data deduplication چیست؟

Data deduplication مزایا و معایب مختلفی دارد که در ادامه به آن بیشتر می پردازیم.

زمانی که شما از روش های Data deduplication برای حذف فایل های تکراری استفاده می کنید، باید به نکاتی توجه داشته باشید که به ضرر شما تمام نشود.

مزایا استفاده از Data deduplication:

فایل های تکراری در فضای ابری ذخیره سازی داده ها را از بین می برد.
باعث می شود تا کارایی سرور شما افزایش پیدا کند.
بار سرور را بسیار سبک تر می کند.
دسترسی راحت تر به فایل های سیستم خواهید داشت.
انتقال فایل ها با سرعت بسیار بالا صورت می گیرد.
عملیات پشتیبان گیری از داده ها، با سرعت بیشتری انجام می شود.
هزینه ها را می تواند تا حدود بسیار زیادی برای شما کاهش دهد.

مشکلات به هنگام استفاده از Data deduplication:

اگر احیانا فایلی که شما تولید کرده اید، دارای یک هش بسیار مشابه و یا یکسان باشد، ممکن است خطراتی شما را تهدید کند.
هش های بسیار زیادی را با همدیگر مقایسه می کند.
امکان وجود خطای سیستمی به هنگام استفاده از روش های Data deduplication
نمی توان به روش های Data deduplication اطمینان ۱۰۰ درصدی داشت

حال می بینید که استفاده از روش های Data deduplication، می تواند برای شما مزایا و معایب در پی داشته باشد.

در رابطه با خط آخر که در قسمت مشکلات به هنگام استفاده از Data deduplication خواندید، باید ذکر شود که هیچ سیستم و الگوریتمی سازگاری ۱۰۰ درصدی ندارد و یک مبحث معروفی وجود دارد و این است که سیستم عامل ها به هیچ وجه پایدار نیستند و هرگز نباید خیال خود را بابت انجام Data deduplication راحت بگذارید و بلکه باید هر از چند مدتی موضوعات مختلف را در این زمینه بررسی کنید که ببینید آیا تمامی کارها به درستی پیش رفته است یا خیر.

سوالات متداول

Data deduplication چیست؟

Data deduplication در واقع روشی برای از بین بردن فایل های تکراری در فضای ابری و یا فضای ذخیره سازی داده ها است و از این جهت می تواند بار سرور را کم کند و همچنین به کارایی سرور کمک بیشتری کند. عملیات deduplication می تواند به شرکت ها کمک کند تا هزینه های اضافی را حذف کنند و خدمات بهتری به کاربران خود ارائه دهند زیرا باعث می شود تا سرعت کارایی آنها، بالا برود.

روش های Data deduplication به چه صورت است؟

در واقع زمانی که بحث deduplication می شود، می توان به این مسئله اشاره کرد که این تکنولوژی با استفاده از عملیات مقایسه بین هش ها و بایت به بایت یک فایل، می تواند بفهمد که آیا دو فایل مقایسه شده، با همدیگر مشابه هستند یا خیر. اگر یک فایل مشابه بود، اقدام به حذف یکی از فایل ها می کند و فایل مرجع را در فضای ابری و یا فضای ذخیره سازی داده های خاص، اقدام به ذخیره کردن می کند.

آیا عملیات مقایسه برای از بین بردن فایل های مشابه فقط با دو فایل صورت می گیرد؟

خیر، زمانی که بحث مقایسه بین فایل ها می شود، می تواند در ابعاد گسترده تر از دو فایل باشد. چه بسا ممکن است زمانی برسد که عملیات مقایسه بین هزاران فایل صورت بگیرد و به این صورت است که می تواند حجم فضای ذخیره سازی داده ها را خالی کند و از این جهت بتوانید داده های بیشتر و عدم کپی در سرور خود جای دهید. از بین هزاران فایلی که مقایسه می کند، در واقع در ابتدا اقدام به مقایسه بین هش ها و بایت بایت فایل ها می کند و در صورت تشابه آن ها، اقدام به حذف فایل می کند و اجازه می دهد تا فایل مرجع در سرور ذخیره شود.

آیا امکان به وجود آمدن خطا در Data deduplication وجود دارد؟

اگر بخواهیم که به تکنولوژی ها اطمینان ۱۰۰ درصدی داشته باشیم، در واقع اغراق کرده ایم و نمی توان گفت که ربات ها و تکنولوژی ها قرار است تا به صورت ۱۰۰ درصد یک کار را درست انجام دهند. احتمال اینکه امشب شما لپ تاپ خود را خاموش کنید و فردا دیگر سیستم عامل شما راه اندازی نشود، بسیار بالا است. هر چند این اتفاقات به ندرت رخ می دهد اما باز احتمال رخ دادن آن ها وجود دارد.

از این جهت، زمانی که شما اقدام به Data deduplication می کنید، ممکن است سیستم deduplication برخی از فایل هایی که واقعا کپی نیستند را یکسان ببیند و اقدام به حذف کردن آن ها کند که می تواند ضررهایی به کسب و کار شما وارد کند.

مثلا ممکن است تصادفی در هش ها به وجود بیاید و یا مقدار زیادی از فایل ها حجم یکسانی داشته باشند.

البته نیاز نیست نگران این مسئله باشید که حتما قرار است در آینده فایل های شما از این طریق حذف شوند، بلکه باید حواس خود را جمع کنید و هر از چندگاهی اقدام به پشتیبان گیری از فایل های خود کنید تا از وقوع هر حادثه ای که ممکن است رخ دهد، جلوگیری کنید.

عملیات deduplication بیشتر در کجا انجام می شود؟

ممکن است شما IT Man یک شرکت باشید و بخواهید هر از چند مدتی، اقدام به جا به جایی فایل و یا حتی پشتیبان گیری از داده های شرکت کنید و با حجم زیادی از فایل ها که احتمال دارد بسیاری از آن ها تکراری باشند، مواجه شوید.

از این جهت شما می توانید از عملیات Data deduplication استفاده کنید تا شناسایی فایل های تکراری صورت بگیرد و از این جهت، پروسه پشتیبان گیری و یا انتقال فایل ها، با سرعت زیاد انجام شود.

نتیجه گیری

Data deduplication به‌عنوان یک تکنیک کارآمد برای مدیریت و بهینه‌سازی فضای ذخیره‌سازی داده‌ها، نه‌ تنها از ایجاد فایل‌های تکراری جلوگیری می‌کند، بلکه به کاهش بار سرورها، افزایش سرعت عملیات پشتیبان‌گیری و صرفه‌جویی در هزینه‌های ذخیره‌سازی کمک می‌کند. بااین‌حال، مانند هر فناوری دیگر، این روش نیز چالش‌های خاص خود را دارد؛ از جمله احتمال بروز خطا در تشخیص داده‌های تکراری و ایجاد مشکلات در امنیت فایل‌ها.

برای بهره‌برداری حداکثری از مزایای Data deduplication، لازم است که این تکنیک با دقت پیاده‌سازی شود و فرآیندها به‌صورت منظم مورد بازبینی و پشتیبان‌گیری قرار گیرند. استفاده هوشمندانه از این فناوری می‌تواند نقش موثری در بهبود عملکرد سیستم‌های ذخیره‌سازی و سرورهای ابری ایفا کرده و به کسب‌وکارها کمک کند تا کارایی و بهره‌وری خود را افزایش دهند.