M5P [WAN97] is a reconstruction of Quinlan's M5 algorithm [QUI92] for inducing trees of regression models.
M5P combines a conventional decision tree with the possibility of linear regression functions at the nodes.
First, a decision-tree induction algorithm is used to build a tree, but instead of maximizing the information
gain at each inner node, a splitting criterion is used that minimizes the intra-subset variation in the class
values down each branch. The splitting procedure in M5P stops if the class values of all instances that reach a
node vary very slightly, or only a few instances remain.
Second, the tree is pruned back from each leaf. When pruning an inner node is turned into a leaf with a
regression plane.
Third, to avoid sharp discontinuities between the subtrees a smoothing procedure is applied that combines
the leaf model prediction with each node along the path back to the root, smoothing it at each of these nodes
by combining it with the value predicted by the linear model for that node.
Techniques devised by Breiman et al. [BRE84] for their CART system are adapted in order to deal with
enumerated attributes and missing values. All enumerated attributes are turned into binary variables so that all
splits in M5P are binary. As to missing values, M5P uses a technique called “surrogate splitting” that finds
another attribute to split on in place of the original one and uses it instead. During training, M5P uses as
surrogate attribute the class value in the belief that this is the attribute most likely to be correlated with the
one used for splitting. When the splitting procedure ends all missing values are replaced by the average values
of the corresponding attributes of the training examples reaching the leaves. During testing an unknown
attribute value is replaced by the average value of that attribute for all training instances that reach the node,
with the effect of choosing always the most populous subnode.
M5P generates models that are compact and relatively comprehensible.
For further information, we refer to the original publications [WAN97], [QUI92], [BRE84].
Background (publication date, popularity/level of familiarity, rationale of approach, further comments)
Published in 2007. Uses features from the well-known CART system and
reimplements Quinlan‟s well-known M5 algorithm with modifications and seems to
outperform it. M5P can deal effectively with enumerated attributes and missing values.
Smoothing substantially increases prediction accuracy.
Bias (instance-selection bias, feature-selection bias, combined instance-selection/feature-selection bias, independence assumptions?, ...)
Feature-selection bias
Lazy learning/eager learning
Eager learning
Interpretability of models (black box model?, ...)
Good (produced is a model tree)
M5P [WAN97]의 유도 하는 회귀 모델의 나무 퀸 란의 M5 알고리즘 [QUI92]의 재건입니다.M5P 선형 회귀 기능 노드의 가능성과 기존의 의사 결정 트리를 결합합니다.트리를 구축 하는 의사 결정 트리 유도 알고리즘을 사용 하는 첫째, 하지만 정보를 극대화 하는 대신각 내부 노드에서 이득, 분할 기준 클래스의 내부 하위 집합 편차를 최소화 하는 데 사용 됩니다.각 분기 아래로 값입니다. M5P 중지 모든 클래스 값 인스턴스를 하는 경우의 분할 절차에 도달 한노드 다 아주 약간 또는 몇 인스턴스만 유지 합니다.둘째, 나무는 각각의 나뭇잎에서 다시 정리. 때로 잎으로 설정 되어 내부 노드를 가지 치기 한회귀 비행기입니다.셋째, 샤 프를 피하기 위해 하위 다듬기 절차는 사이 불연속 그 결합 적용이러한 각에서 스무 딩 루트에 다시 경로 따라 각 노드와 리프 모델 예측여 해당 노드에 대 한 선형 모델에 의해 예측 값과 함께 그것을 결합.카트 시스템의 의해 Breiman 외 [BRE84]를 고안 하는 기법 처리 적응열거 속성 및 누락 된 값입니다. 모든 열거 속성으로 설정 되어 이진 변수 그래서 그 모든분할 M5P에는 이진입니다. 누락 된 값으로 M5P 발견 "대리 분할" 이라는 기술을 사용 하 여또 다른 특성 원래 대신에 분할을 대신 그것을 사용 하 여. 훈련 도중, M5P 사용대리 특성에에서 클래스 값이 연관 될 가능성이 가장 높은 특성은는분할에 사용 되는 하나. 모든 누락 된 값 평균 값으로 대체 됩니다 분할 절차 종료 될 때잎을 도달 하는 훈련 예제의 해당 특성입니다. 알 수 없는 테스트 중특성 값 노드를 도달 하는 모든 훈련 인스턴스에 대 한 해당 속성의 평균 값으로 대체 됩니다.와 항상 가장 인구가 많은 하위 노드 선택의 효과.M5P 콤팩트 하 고 상대적으로 이해할 수 있는 모델을 생성 합니다.자세한 내용은, 우리는 원래 간행물 [WAN97] [QUI92] [BRE84]를 참조 하십시오.배경 (발행일, 숙련도, 접근, 추가 의견의 근거의 인기/수준)2007 년에 출판. 잘 알려진 카트 시스템에서 기능을 사용 하 고다시 수정 Quinlan‟s 잘 알려진 M5 알고리즘 및 것그것은 뛰어나다. M5P 열거 특성 및 누락 된 값 효과적으로 해결할 수 있습니다.실질적으로 부드럽게 예측 정확도 증가.바이어스 (인스턴스 선택 바이어스, 바이어스 기능 선택, 인스턴스 선택/기능 선택 바이어스, 독립 가정 결합?,...)기능 선택 바이어스게으른 학습/선행 학습선행 학습모델의 판독 (블랙 박스 모델?,...)좋은 (모델 트리에서 생산)
번역되고, 잠시 기다려주십시오..

M5P는 [WAN97] 회귀 모형의 나무를 유도 퀸란의 M5 알고리즘 [QUI92]의 재건입니다.
M5P는 노드에서 선형 회귀 기능의 가능성이있는 기존의 의사 결정 트리를 결합한다.
첫째, 의사 결정 트리 유도 알고리즘을 구축하는 데 사용됩니다 대신 정보 최대화 트리
각 내부 노드에서의 이득은 분할 기준은 클래스의 서브 세트 내 변동이 최소화 사용되는
각 지점 아래 값. 도달 모든 인스턴스의 클래스 값 경우 M5P의 분할 절차는 중지
노드가 아주 약간 다를 수, 또는 몇 인스턴스. 남아
둘째, 나무가 다시 각각의 잎에서 제거됩니다. 내부 노드를 프 루닝하는 것은로 리프로 켜질 때
회귀 평면.
셋째, 결합한 평활화 과정이 적용되는 서브 트리 간의 급격한 불연속 피하기 위해
각각을 평활화 다시 루트로의 경로를 따라 각 노드와 리프 모델 예측 이들 노드의
노드에 대한 선형 모델에 의해 예측 된 값과 조합하여.
Breiman 등에 의해 고안 기법. [BRE84] 자신의 쇼핑 카트 시스템을 처리하기 위해 적응
열거 속성과 누락 된 값. 모든 있도록 모든 열거 속성은 이진 변수로 설정되어
M5P에 분할 이진 있습니다. 누락 된 값으로, M5P는 발견 "대리 분할"이라는 기술을 사용
원래의 장소에에 분할하는 다른 속성을 대신하여 사용합니다. 훈련하는 동안, M5P는 다음과 같이 사용하는
대리 속성이와 관련 될 가능성이 가장 높은 속성이라는 믿음의 클래스 값
분할에 사용 하나. 분할 절차가 종료되면 누락 된 모든 값은 평균 값으로 대체되는
잎에 도달하는 훈련 예제의 해당 속성의. 알 수없는 테스트하는 동안
속성 값을, 노드에 도달 모든 교육 인스턴스에 대한 해당 속성의 평균 값으로 대체된다
항상 가장 인구가 많은 하위 노드를 선택하는 효과.
M5P가 작고 상대적으로 이해할 수있는 모델을 생성합니다.
자세한 내용은, 우리 원래 간행물 [WAN97], [QUI92], [BRE84]를 참조하십시오.
배경 (출판 일, 인기 / 친숙 수준, 접근의 근거, 추가 의견)
2007 년에 간행하는 것은 잘 알려진 쇼핑 카트 시스템과에서 기능을 사용하여
다시 구현 퀸란은 "수정 잘 알려진 M5 알고리즘을 S와 같다
그것을 능가. M5P 열거 속성 누락 값을 효과적으로 처리 할 수 있습니다.
실질적으로 예측 정확도를 향상 스무딩.
바이어스 (예를 선택 바이어스, 기능 선택 바이어스, 결합 된 인스턴스 선택 / 기능 선택 바이어스, 독립 가정? ...)
기능 선택을 바이어스
게으른 학습 / 열망 학습
열망 학습
모델의 해석 가능성 (블랙 박스 모델은? ...)
좋은 (생산은 모델 트리입니다)
번역되고, 잠시 기다려주십시오..

[wan97] m5p 한 재건축. 태규야. [qui92] 가장 어려운 알고리즘 회귀 유도 나무.
m5p 일반 결정 나무 될 가능성이 노드 선형 함수.
먼저 디시전 트리 알고리즘, 유도 위한 나무 한 그루를 아니라, 최대한 정보
이득 모든 내부 노드분열 준칙에 변화 최소 이 부분 집합 내 반의 모든 계열사
가치 하락.만약 m5p 분열 프로그램 그만 계급 가치 있는 모든 상황을 좀 이를
노드 또는 아니라 다른 몇 번, 여전히.
2, 나무 한 잎 전지하다.한 때 그렇게 가지를 안에 노드 날개 비행기 한
컴백.
세날카로운 안 쓸 것을 사이에 부드럽게 프로그램 모델 결합
잎 서로 노드 경로 다시 뿌리, 부드럽게 이 매 이 노드
결합 선형 모델 값을 노드.
기술 breiman 등 디자인.[bre84] 잘 장바구니 시스템 대처할 수 있도록
속성 값 열 잃다.숫자 속성 다 된 원 m5p 이렇게 모든
분열 바이너리.실종 값 때문에, m5p 사용 방법 '대체 분열 "분할 것을
다른 속성 대한 대신 원래 아니라, 사용할 수 있다.훈련 기간에 m5p 용도가
수업 중에 대체 속성 값 믿고 이 속성 가능성이 가장 관련 데
한 패다.분열 끝날 때 모든 프로그램 대신 잃어버린 값 평균
대한 교육 보기 속성 이를 잎.알 수 없는
시험 때속성 값 평균 가치 대신 이 모든 상황이 속성 훈련 이를 노드,
효과 및, 늘 인구가 가장 많은 하위 선택 모드.
m5p 생기는 괜찮아, 비교적 쉽게 이해할 수 있다.
더 많은 정보를, 우리는 원래 출판물 wan97 qui92 [] [] [bre84].
배경 (발표 날짜, 인기 / 익숙한 정도,방법을 더욱 의견을 리, 2007년)
출판되었다.그 유명한 차 시스템 사용 표현 및
reimplements. 태규야. 형 알고리즘 ‟ 나라의 유명한 수정 및 마치
이길 수 있다.m5p 효과적으로 처리할 수 없는 숫자 속성 값 예측.
부드럽게 크게.
편견을 선택 (들어 편견, 기능 선택 편견연합 들면 선택 기능 선택 편견, 자주 가설?,...)
기능 선택 바이어스
게으른 학습 / 열심히 학습
급히 학습
해석 모드 (블랙박스 모델?,...)
좋은 (만든 나무 한 모드)
번역되고, 잠시 기다려주십시오..
