فناوری بیگ دیتا (Big Data) یا کلان داده در عصر دیجیتالی امروز میتواند به تجزیهوتحلیل دادههای گسترده و بهرهمندی هدفمند از آنها کمک کند.
فناوری بیگ دیتا (Big Data) یا کلان داده در عصر دیجیتالی امروز میتواند به تجزیهوتحلیل دادههای گسترده و بهرهمندی از آنها کمک کند.
در این مطلب قصد داریم ببینیم بیگ دیتا چیست، چه ویژگیهایی دارد، به چند دسته تقسیم میشود، با چه فناوریها و تکنیکهایی در ارتباط است و چه کاربردهایی دارد.
در جامعه امروز روزانه حجم گستردهای از دادهها ایجاد شده و حجم دادههای تولیدی لحظهبهلحظه بیشتر میشود. مطمئناً با افزایش باورنکردنی تعداد سیستمها و دستگاههای دیجیتالی و گسترش استفاده از فناوریهایی مانند اینترنت اشیا و هوش مصنوعی، در آینده در تمام حوزههای دیجیتالی با سونامی عظیمی از دادهها مواجه خواهیم شد.
اگرچه با بهرهمندی از دادههای مختلف میتوان به تصمیمگیری بهتر، اتخاذ رویکرد و راهحلهای مناسب و همچنین بهبود عملکرد کسبوکارها و صنایع مختلف کمک کرد، اما برای تحقق این هدف باید دادهها بهشکل مناسبی پردازش و تجزیهوتحلیل شوند. مطمئناً در آینده روشهای قدیمی یا حتی روشهای متداول کنونی برای پردازش و تجزیهوتحلیل حجم گستردهای دادهها کافی نیستند. اینجاست که بیگ دیتا به کمک ما میآید.
کلمه بیگ دیتا یا کلان داده برای تعریف دادههای گسترده و پیچیده پردازشنشده استفاده میشود. پردازش کلان دادهها با استفاده از ابزارهای متداول امروزی دشوار و البته زمانبر است؛ اما اجازه دهید قبل از اینکه بیشتر در مورد مفهوم توضیح دهیم، ببینیم اصولاً به چه دادههایی کلان داده یا بیگ دیتا گفته میشود.
کلان دادهها دارای شش ویژگی هستند که شامل موارد زیر میشود:
اکنون که میدانیم بیگ دیتا چیست، اجازه دهید با دستهبندی آن نیز آشنا شویم. کلان دادهها به سه دسته تقسیم میشوند. دسته اول، دادههای دارای ساختار یا ساختیافته (structured big data) هستند که میتوان آنها را در قالب مجموعه دادهها (Data sets) بهصورت مرتب (مثلاً در ستونها و ردیفهای مشخص) در پایگاههای داده و صفحات گسترده (اسپریت شیتها) ذخیره کرد. خواندن و پردازش چنین اطلاعاتی برای ابزارهای متداول طراحیشده برای این منظور، کار سادهای است.
اطلاعاتی مانند اسامی، دادهها، آدرسها، شماره کارتهای بانکی، اطلاعات سهام و موقعیت جغرافیایی، مثالهایی از کلان دادههای دارای ساختار هستند.
دسته دوم کلان دادهها، دادههای بدون ساختار یا ساختنیافته (unstructured big data) هستند. این دادهها با فرمت پایگاه داده ذخیره نمیشوند و دارای ساختار نیستند؛ البته دادههای بدون ساختار، یک ساختار داخلی مختص به خود دارند؛ اما چنین ساختاری در مدلهای دادهها قابل پیشبینی نیست. این دسته از کلان دادهها ممکن است توسط انسان یا ماشین با فرمت متنی یا غیرمتنی ایجاد شده باشند. تبدیل دادههای بدون ساختار به دادههای دارای ساختار امکانپذیر است؛ اما فرایند زمانبری دارد.
اطلاعاتی مانند اطلاعات مرتبط با سرگرمی و رسانهها، اینترنت اشیا، دادههای مرتبط با سنسورها، اطلاعات اسناد، صورتحسابها، اطلاعات ثبتشده و اطلاعات مرتبط با هوش مصنوعی و یادگیری ماشینی، مثالهایی از کلان دادههای بدون ساختار هستند.
دسته سومی از کلان دادهها نیز وجود دارد که کلان دادههای نیمهساختیافته (semi-structured) نام دارند و میتوان آنها را جزو کلان دادههای دارای ساختار دستهبندی کرد. این دادهها بهدلیل عدم برخورداری از ساختار دارای فرمت، نمیتوانند در جداول و مدلهای دادهای قرار گیرند و ارائه شوند، اما بدون ساختار هم نیستند؛ این دادهها دارای تگها، علامتها و شاخصهایی هستند که میتوانند برای دستهبندی دادهها و ایجاد فیلدها استفاده شوند.
دادههای مرتبط با ایمیلها، XML و دیگر زبانهای نشانهگذاری، فایلهای زیپشده، دادههای ادغامشده و استخراجشده از منابع مختلف و دادههای مرتبط با صفحات وب، مثالهایی از دادههای نیمهساختیافته هستند.
همانطور که گفتیم پردازش و آنالیز کلان دادهها دشوار است. برای انجام این کار باید از تکنیکها و فناوریهای مختلف استفاده کرد. مهمترین تکنیکها و فناوریهای مورد استفاده در این حوزه به سه دسته تقسیم میشوند:
اکنون که بهخوبی میدانیم بیگ دیتا چیست، اجازه دهید ببینیم چه کاربردهایی دارد. بیگ دیتا در حوزههای مختلف کاربردهای متعددی دارد؛ البته اصلیترین کاربرد این فناوری، آنالیز دادههاست که در حوزههای مختلف با اهداف مختلف انجام میشود: مهمترین موارد کاربرد کلان داده در حوزههای مختلف به شرح زیر است:
بدون تردید پیوسته دادههای بسیار زیادی در بخشهای دولتی ایجاد میشود که تجزیهوتحلیل دقیق، درست و سریع آنها بسیار مهم است. میتوان با کمک فناوریهای مرتبط با کلان دادهها بهترین سیاستها، خطیمشیها، تصمیمات و اقدامات دولتی را اتخاذ کرد.
سیاستمداران میتوانند با بهرهمندی از فناوریهای مذکور، در انتخابات نیز پیروزی قاطعی بهدست آورند. حزب بهاراتیا جاناتای هند و متحدانش و نیز ستاد انتخاباتی اوباما در سال ۲۰۱۲، با این روش توانستند در انتخابات پیروز شوند.
در عصر فناوری کنونی، شبکههای اجتماعی یکی از اصلیترین منابع تولیدکننده سیلی از دادهها هستند. راهحلهای جدید زیادی برای آنالیز دادههای شبکههای اجتماعی روی پلتفرمهای بیگ دیتا ایجاد شدهاند. ابزار نرمافزاری Cognos Consumer که توسط IBM ارائه و بر پلتفرم کلان داده این شرکت با نام BigInsights اجرا شده، با همین هدف ایجاد شده است.
با آنالیز دادههای شبکه اجتماعی میتوان به نگرشهای مختلف و ارزشمند دست یافت. همچنین میتوان با این روش نگرشها و رویکردها را متناسب با شرایط و وضعیتها تغییر داد و آنها را بهروز کرد.
صاحبان کسبوکارها و صنایع مختلف و افراد فعال در حوزه تبلیغات نیز میتوانند با کمک آنالیز دقیق دادههای شبکههای اجتماعی، بهترین تصمیمات و رویکردها را در زمینههایی مثل قیمتگذاری و تعیین نوع کالا، خدمات خود و شیوه عرضه آنها اتخاذ کنند. همچنین میتوان برای بررسی دقیق پژوهش و نظرسنجیهای انجامشده در بستر شبکههای اجتماعی نیز از فناوریهای بیگ دیتا بهرهمند شد.
استفاده از تکنیکهای کلان داده برای ارائه اطلاعات در حوزه فناوری بسیار ضروری است. ارائه نتایج جستجوها در بخشهای مختلف ازجمله موتورهای جستجو، ارائه پیشنهادها و اطلاعات لازم به کاربران، بدون استفاده از این تکنیکها امکانپذیر نیست.
در فروشگاه اینترنتی eBay برای ارائه چنین اطلاعاتی، از دادههای موجود در یک انبار داده ۷.۵ پتابایتی و یک Hadoop cluster (محیطی توزیعشده برای ذخیرهسازی دادههای دارای ساختار) ۴۰ پتابایتی استفاده میشود.
در زیرساخت فروشگاه اینترنتی آمازون که هر روز در آن میلیونها عملیات بکاند (پردازش دادههای ورودی سایت) انجام و بیش از نیم میلیون از تقاضاهای فروشندگان شخص ثالث بررسی میشوند نیز از فناوریهای کلان داده در مقیاس بسیار گستردهای استفاده میشود. فناوری اصلی کلان داده مورد استفاده در فروشگاه آمازون بر پایه لینوکس ایجاد شده است.
سه مورد از بزرگترین پایگاههای داده لینوکس با ظرفیتهای ۷.۸، ۱۸.۵ و ۲۴.۷ ترابایت متعلق به این فروشگاه هستند. فیسبوک هم مجموعه عظیمی از تصاویر بارگذاریشده توسط کاربران (با ۵۰ میلیارد تصویر) را مدیریت میکند.
صاحبان برخی از کسبوکارها ازجمله بیمهگذاران همیشه با ادعاهای مختلفی مواجه هستند که معمولاً میزان قابلتوجهی از این ادعاها فریبکارانهاند و به قصد کلاهبرداری مطرح میشوند. با فناوریهای کلان داده میتوان برای شناسایی ادعاهای کلاهبردارانه و فریبکارانه، ادعاهای مطرحشده در زمینههای مختلف را لحظهبهلحظه آنالیز کرد. شناسایی رفتارهای غیرعادی از سوی کاربران نیز با این روش امکانپذیر است.
دادههای مراکز تماس نیز منبع خوبی برای دستیابی به نگرشهای و رویکردهای مناسب و سازنده در زمینه بازاریابی و تبلیغات هستند. شاید نیروی انسانی بتواند این دادهها را تجزیهوتحلیل کند، اما طبیعتاً ممکن است اطلاعات ارزشمند پنهان در میان چنین دادههایی نادیده گرفته شود یا بهموقع تشخیص داده نشود.
همچنین ممکن است تماسگیرندگان مشکلات مشابهی را گزارش کنند و نیرویهای انسانی سریعاً نتوانند به آن مشکل پی ببرند. با کمک فناوریهای کلان داده و آنالیز سریع دادهها میتوان هر دو مشکل را بهشکل مطلوبی برطرف کرد.
همچنین درصورت استفاده از این فناوریها میتوان الگوهای رفتاری مشتریان و پاسخدهندگان را در مدت کوتاهی مشخص کرد. در برخی از موارد میتوان فرایند آنالیز دادههای مراکز تماس را کاملاً خودکار کرد. این کار هم باعث کاهش هزینههای مرکز تماس در زمینه استخدام و آموزش نیروی انسانی میشود و هم به بهبود پاسخگوی این مراکز کمک میکند.
کشاورزان باید به دادههای زیادی دسترسی داشته باشند تا بتوانند محصول باکیفیتی را برداشت کرده و از مواجهه با خسارات مالی شدید جلوگیری کنند. فناوریهای کلان داده میتوانند به کشاورزان برای دستیابی بهموقع به این دادهها و تصمیمگیریهای مهم بر مبنای آنها کمک کنند. این دادهها شامل اطلاعات لازم برای بهینهسازی کیفیت محصولات و اطلاعات لازم در مورد شرایط آبوهوایی، میزان دما و رطوبت، ترکیبات و شرایط خاک، سطح آبهای زیرزمینی و غیره میشود.
سایر موارد مهم کاربرد بیگ دیتا در حوزههای مختلف به شرح زیر است:
بیگ دیتا یا کلان داده به میزان عظیمی از دادهها گفته میشود که در برخی از موارد ثابت و برخی از موارد متغیر هستند، پیچیدگی زیادی دارند و با سرعت بالایی تولید میشوند. همچنین کلان دادهها معمولاً در چند حوزه مختلف قابل استفاده هستند. آنالیز کلان دادهها با ابزارهای متداول پردازش و آنالیز دادهها امکانپذیر نیست.
یادگیری ماشینی، پردازش زبان طبیعی، رایانش ابری، هوش تجاری و فناوریهای مرتبط با ایجاد پایگاه داده جزو مهمترین فناوریهای کلان داده هستند.
اینفناوریها در حوزههای مختلفی برای آنالیز دادهها و دستیابی به اطلاعات مهم و ضروری استفاده میشوند. از میان این حوزهها میتوان به بانکداری، سلامت و درمان، آموزش، تولید، حملونقل، ارائه کالا و خدمات، کشاورزی، ارائه اطلاعات به کاربران در پلتفرمهای تعاملی آنلاین و... اشاره کرد.
پاسخ ها