@article { author = {Geranian, Hamid and Khajeh Miry, Zahra}, title = {Multivariate inlier and outlier data detection by using of data mining algorithms Case study: Geochemical data at 1:100000 Roum sheet in South Khorasan}, journal = {Journal of Mining Engineering}, volume = {14}, number = {45}, pages = {63-82}, year = {2020}, publisher = {Iranian Society of Mining Engineering (IRSME)}, issn = {1735-7616}, eissn = {2676-4482}, doi = {10.22034/ijme.2020.37386}, abstract = {In this paper, four data mining algorithms, namely, kernel density estimation, local outlier factor, OPTICS-OF and SVDD are used to determine multivariate outlier data. So, stream sediment geochemical data, in 1:100000 Roum sheet, with 902⨉41 matrix dimensions have been utilized. Replacing censored data, converting the data set to an open number system and finally standardizing them are used as pre-processing methods. Results show that in error sample detection approach, 10 samples that have the highest outlier probability, and are present in equal numbers in the four mentioned algorithms, can be considered for more study as replicate sampling. In non-normal sample detection approach, form 150 selected samples, 74.5% of samples are detected as outliers in the four mentioned algorithms, and 16.1 and 9.4 percent are recognized as the outlier data in one and two of the aforementioned algorithms, respectively. Determining of replicate sampling, calculating location and scatter matrices in multivariate robust statistics after eliminating non-normal samples and geochemical anomaly detection are suggested as the applications of these algorithms.}, keywords = {Kernel Density Estimation,Local Outlier Factor,OPTICS-OF Algorithm,SVDD Algorithm,Roum Sheet}, title_fa = {کاربرد الگوریتم های داده کاوی در تشخیص داده های ژئوشیمیایی خارج از ردیف چند متغیره}, abstract_fa = {تشخیص داده‌های خارج از ردیف چند متغیره به کمک الگوریتم‌های داده‌کاوی یکی از نکات ضروری پیش‌پردازش داده‌های اکتشافات ژئوشیمیایی محسوب می‌شود. در این مقاله چهار الگوریتم برآورد چگالی کرنل (KDE)، ضریب خارج از ردیف بودن محلی (LOF)، OPTICS-OF و SVDD که به ترتیب جزو روش‌های آماری، روش‌های مبتنی بر مجاورت، روش‌های مبتنی بر خوشه‌بندی و روش‌های مبتنی بر دسته‌بندی هستند، معرفی شده و کاربرد آنها بر روی داده‌های ژئوشیمیایی ورقه 100000/1 روم با ماتریس داده 41×902 بررسی شده است. برای این منظور ابتدا روش ilr برای باز کردن سیستم عددی داده‌ها بکار رفته و سپس داده‌ها در بازه صفر تا یک استاندارد شده است. نتایج پیاده شده چهار الگوریتم فوق بر روی مجموعه داده‌های استاندارد شده، نشان می‌دهد که در رویکرد تشخیص نمونه‌های دارای خطا، 10 نمونه که دارای بالاترین احتمال خارج از ردیف بودن هستند و در هر چهار الگوریتم نیز یکسان می‌باشند را می‌توان برای بررسی بیشتر به عنوان نمونه‌های انتخابی برای نمونه‌برداری تکراری در نظر گرفت. در رویکرد تشخیص نمونه‌های غیر نرمال، از 150 نمونه‌ی انتخابی 5/74% از نمونه‌ها در هر چهار الگوریتم و 1/16% و 4/9% نیز به ترتیب در یک و دو الگوریتم به عنوان داده‌ی خارج از ردیف شناسایی شده است. مقایسه نتایج الگوریتم‌های انتخابی با روش کلاسیک فاصله ماهالانوبیتس نشان دهنده‌ی برتری آنها در هر دو رویکرد است. همچنین پیشنهادی می‌شود از الگوریتم‌های تشخیص داده‌های خارج از ردیف چند متغیره می‌توان برای تعیین نمونه-برداری‌های تکراری، محاسبه ماتریس موقعیت و پراکندگی در آمار چند متغیره مقاوم پس از حذف داده‌های غیر نرمال و تعیین آنومالی‌های ژئوشیمیایی استفاده کرد.}, keywords_fa = {برآورد چگالی کرنل,ضریب خارج از ردیف بودن محلی,روش OPTICS-OF,روش SVDD,ورقه روم}, url = {https://ijme.iranjournals.ir/article_37386.html}, eprint = {https://ijme.iranjournals.ir/article_37386_e5f6463ae92323db17b8fcb84d645339.pdf} }