Different aspects of the curse of dimensionality are known to present serious challenges to various machine-learning methods and tasks. This paper explores a new aspect of the dimensionality curse, referred to as hubness, that affects the distribution of k-occurrences: the number of times a point appears among the k nearest neighbors of other points in a data set. Through theoretical and empirical analysis involving synthetic and real data sets we show that under commonly used assumptions this distribution becomes considerably skewed as dimensionality increases, causing the emergence of hubs, that is, points with very high k-occurrences which effectively represent “popular” nearest neighbors. We examine the origins of this phenomenon, showing that it is an inherent property of data distributions in high-dimensional vector space, discuss its interaction with dimensionality reduction, and explore its influence on a wide range of machine-learning tasks directly or indirectly based on measuring distances, belonging to supervised, semi-supervised, and unsupervised learning families.
차원의 저주의 다른 측면은 다양한 기계 학습 방법 및 작업에 심각한 도전을 제시하는 것으로 알려져있다. 포인트가 데이터 세트의 다른 지점의 K 가까운 이웃 사이에 나타납니다 횟수 :이 논문은 K-발생의 분포에 영향을 hubness라고 차원의 저주의 새로운 측면을, 탐구한다. 이론 및 실증 분석을 통해 우리가 일반적으로 사용되는 가정에서이 메일을 효과적으로 가까운 "인기있는"표현 매우 높은 K-발생과 허브의 출현, 즉, 포인트 일으키는 차원이 증가함에 따라 상당히 왜곡되고 있음을 보여 합성 및 실제 데이터 세트를 포함 이웃. 우리는, 차원 축소와의 상호 작용에 대해 설명하고, 직접 또는 간접적으로 기반 기계 학습 광범위한 작업에 미치는 영향을 탐구가 높은 차원 벡터 공간에서 데이터 분포의 고유 한 속성이 있음을 보여주는,이 현상의 기원을 조사 , 감독 반 감독 및 자율 학습 가족에 속하는 거리를 측정.
번역되고, 잠시 기다려주십시오..
차원 다른 방면의 아는 다른 현재 심각한 도전 기계 학습 방법 및 임무.이 글은 새로운 국면을 저주 한 차원 불리는 hubness, 영향을 k-occurrences: 분포 몇 번 중 한 점에 k 이웃 기타 좀 데이터 세트.실증 분석을 통해 관련된 데이터 세트 합성, 진짜 우리 따르면, 이 분포 쓰는 것을 더 크게 불균형 차원 증가 때문에 센터, 나타난 것은 매우 높은, 좀 k-occurrences 효과적으로 대표 "일반" 이웃.우리 검사 이 현상 기원 따르면 이 데이터 분포 고유의 속성 유지하다 벡터 공간, 그 얘기 인 검토 내리다, 대한 다양한 기계 학습 임무를 직접 혹은 간접적으로 측정 거리를 따라, 소속 감독, 반 감독, 가족, 감독 배우다.
번역되고, 잠시 기다려주십시오..