نوع مقاله: علمی - پژوهشی

نویسندگان

1 عضو هیات علمی گروه مهندسی معدن، دانشگاه صنعتی بیرجند

2 کارشناس سازمان صنعت، معدن و تجارت استان خراسان جنوبی

چکیده

تشخیص داده‌های خارج از ردیف چند متغیره به کمک الگوریتم‌های داده‌کاوی یکی از نکات ضروری پیش‌پردازش داده‌های اکتشافات ژئوشیمیایی محسوب می‌شود. در این مقاله چهار الگوریتم برآورد چگالی کرنل (KDE)، ضریب خارج از ردیف بودن محلی (LOF)، OPTICS-OF و SVDD که به ترتیب جزو روش‌های آماری، روش‌های مبتنی بر مجاورت، روش‌های مبتنی بر خوشه‌بندی و روش‌های مبتنی بر دسته‌بندی هستند، معرفی شده و کاربرد آنها بر روی داده‌های ژئوشیمیایی ورقه 100000/1 روم با ماتریس داده 41×902 بررسی شده است. برای این منظور ابتدا روش ilr برای باز کردن سیستم عددی داده‌ها بکار رفته و سپس داده‌ها در بازه صفر تا یک استاندارد شده است. نتایج پیاده شده چهار الگوریتم فوق بر روی مجموعه داده‌های استاندارد شده، نشان می‌دهد که در رویکرد تشخیص نمونه‌های دارای خطا، 10 نمونه که دارای بالاترین احتمال خارج از ردیف بودن هستند و در هر چهار الگوریتم نیز یکسان می‌باشند را می‌توان برای بررسی بیشتر به عنوان نمونه‌های انتخابی برای نمونه‌برداری تکراری در نظر گرفت. در رویکرد تشخیص نمونه‌های غیر نرمال، از 150 نمونه‌ی انتخابی 5/74% از نمونه‌ها در هر چهار الگوریتم و 1/16% و 4/9% نیز به ترتیب در یک و دو الگوریتم به عنوان داده‌ی خارج از ردیف شناسایی شده است. مقایسه نتایج الگوریتم‌های انتخابی با روش کلاسیک فاصله ماهالانوبیتس نشان دهنده‌ی برتری آنها در هر دو رویکرد است. همچنین پیشنهادی می‌شود از الگوریتم‌های تشخیص داده‌های خارج از ردیف چند متغیره می‌توان برای تعیین نمونه-برداری‌های تکراری، محاسبه ماتریس موقعیت و پراکندگی در آمار چند متغیره مقاوم پس از حذف داده‌های غیر نرمال و تعیین آنومالی‌های ژئوشیمیایی استفاده کرد.

کلیدواژه‌ها

عنوان مقاله [English]

Multivariate inlier and outlier data detection by using of data mining algorithms Case study: Geochemical data at 1:100000 Roum sheet in South Khorasan

نویسندگان [English]

  • Hamid Geranian 1
  • Zahra Khajeh Miry 2

1 Assistant of Professor, Department of Mining Engineering, Birjand University of Technology

2 Expert of Industry, Mine & Trade Organization of South Khorasan Province

چکیده [English]

In this paper, four data mining algorithms, namely, kernel density estimation, local outlier factor, OPTICS-OF and SVDD are used to determine multivariate outlier data. So, stream sediment geochemical data, in 1:100000 Roum sheet, with 902⨉41 matrix dimensions have been utilized. Replacing censored data, converting the data set to an open number system and finally standardizing them are used as pre-processing methods. Results show that in error sample detection approach, 10 samples that have the highest outlier probability, and are present in equal numbers in the four mentioned algorithms, can be considered for more study as replicate sampling. In non-normal sample detection approach, form 150 selected samples, 74.5% of samples are detected as outliers in the four mentioned algorithms, and 16.1 and 9.4 percent are recognized as the outlier data in one and two of the aforementioned algorithms, respectively. Determining of replicate sampling, calculating location and scatter matrices in multivariate robust statistics after eliminating non-normal samples and geochemical anomaly detection are suggested as the applications of these algorithms.

کلیدواژه‌ها [English]

  • Kernel Density Estimation
  • Local Outlier Factor
  • OPTICS-OF Algorithm
  • SVDD Algorithm
  • Roum Sheet