Text identifiers are given as features for encoding words into numerical vectors. Texts are dependent on others rather than independent ones which are assumed in the traditional classifiers, especially in Naive Bayes [1]. Previously, various schemes of computing the semantic similarity between texts were developed [2]. We need to assign nonzero similarity between two numerical vectors where non-zero elements are given to different features with their high similarity. It is expected to improve the discriminations among sparse vectors by considering the similarity among features. We may build the similarity matrix among features automatically from a corpus. From the corpus, we extract easily a list of text identifiers. We compute the similarity between two texts by equation (2), where tf (di; dj) is the number of words which are shared by both texts, di and dj , and tf (di) is the number of words which are included in the text, di. We build the similarity matrix which is consists of similarities between text identifiers given as features as follows:
문자 인코딩 지정 기능 식별자 수치 벡터 말 것이다.텍스트 남에게 꼭 독립 가정 있는 것은 전통 소터, 특히 순진한 검사하다.옛날, 계산 다른 계획을 그런데요 텍스트 (2) 간 거야.우리는 반드시 지정된 0이 아닌 유사도가 어디 요구하는 수치 벡터 0이 아닌 다른 특징 같은 그 높다.그것은 높일 성긴 벡터 차별 고려 중 유사도가 특징.우리는 되는거지 유사 행렬 자동 자료 중 하나 가지고 있다.이 재료우리는 추출 쉽게 텍스트 식별자 목록.우리는 계산 두 텍스트 같 이 (2), 여기 tf (황제; dj) 이 몇 글자를 모두 텍스트, 아우, dj, tf (제) 은 열 수 있는 텍스트 단어, 저하.우리가 유사 행렬 구성 사이에 있는 텍스트 식별자 특징 같은 대해 다음과 같습니다.
번역되고, 잠시 기다려주십시오..
