텍스트
역사

Text identifiers are given as featu

Text identifiers are given as features for encoding words into numerical vectors. Texts are dependent on others rather than independent ones which are assumed in the traditional classifiers, especially in Naive Bayes [1]. Previously, various schemes of computing the semantic similarity between texts were developed [2]. We need to assign nonzero similarity between two numerical vectors where non-zero elements are given to different features with their high similarity. It is expected to improve the discriminations among sparse vectors by considering the similarity among features. We may build the similarity matrix among features automatically from a corpus. From the corpus, we extract easily a list of text identifiers. We compute the similarity between two texts by equation (2), where tf (di; dj) is the number of words which are shared by both texts, di and dj , and tf (di) is the number of words which are included in the text, di. We build the similarity matrix which is consists of similarities between text identifiers given as features as follows:

0/5000

다음 언어를 번역: -

다음 언어로 번역: -

결과 (한국어) 1: [복제]

복사!

텍스트 식별자는 숫자 벡터에 인코딩 단어에 대 한 기능으로 제공 됩니다. 텍스트는 다른 사람 보다는 오히려 가정 Naive Bayes [1]에서 특히 전통적인 분류자에 독립적인 것 들에 의존 한다. 이전에 텍스트 사이의 의미적 유사성을 계산의 다양 한 제도 개발된 [2] 했다. 0이 아닌 요소가 그들의 높은 유사성과 다양 한 기능을 주어는 두 개의 숫자 벡터 사이 0이 아닌 유사성을 할당 해야 합니다. 그것은 스파스 벡터 사이 차별 기능 간의 유사성을 고려 하 여 개선 예정입니다. 우리는 유사성 행렬 기능 모음에서 자동으로 만들 수 있습니다. 모음에서 우리는 쉽게 텍스트 식별자의 목록을 추출합니다. 우리 어디 tf (디; dj) 텍스트, 디와 dj, 공유 되는 단어의 수 이며 tf (디)는 텍스트에 포함 된 단어 수 방정식 (2), 하 여 두 텍스트 간의 유사성을 계산 디. 우리는 유사성을 구축 매트릭스는 다음과 같은 기능으로 주어진 텍스트 식별자 간의 유사성의 구성:

번역되고, 잠시 기다려주십시오..

결과 (한국어) 2:[복제]

복사!

텍스트 식별자는 숫자 벡터로 단어를 인코딩 기능으로 제공됩니다. 텍스트는 특히 나이브 베이 즈에, 오히려 전통적인 분류에 가정 독립적 인 사람보다 다른 사람에 의존한다 [1]. 이전의 텍스트 사이의 의미 적 유사성을 계산하는 다양한 방식이 개발되었다 [2]. 우리는 제로가 아닌 요소가 높은 유사성과 다양한 기능에 주어진 두 개의 숫자 벡터 사이에 제로가 아닌 유사성을 할당해야합니다. 그것은 기능 중에서 유사성을 고려하여 스파 스 벡터 간의 차별을 개선 할 것으로 예상된다. 우리는 신체에서 자동으로 기능 사이의 유사성 행렬을 구축 할 수 있습니다. 코퍼스에서, 우리는 쉽게 텍스트 식별자의 목록을 추출합니다. 에 포함되어있는 단어의 수이고; (DJ DI) (디) 텍스트, 디 및 DJ 및 TF 모두에 의해 공유되는 단어의 수이고 우리는 TF는 식 (2)에 의해 두 개의 텍스트 사이의 유사도를 계산 텍스트, 디. 우리는 다음과 같은 기능으로 지정된 텍스트 식별자 사이의 유사성으로 구성되어있다 유사성 행렬을 구축 :

번역되고, 잠시 기다려주십시오..

결과 (한국어) 3:[복제]

복사!

문자 인코딩 지정 기능 식별자 수치 벡터 말 것이다.텍스트 남에게 꼭 독립 가정 있는 것은 전통 소터, 특히 순진한 검사하다.옛날, 계산 다른 계획을 그런데요 텍스트 (2) 간 거야.우리는 반드시 지정된 0이 아닌 유사도가 어디 요구하는 수치 벡터 0이 아닌 다른 특징 같은 그 높다.그것은 높일 성긴 벡터 차별 고려 중 유사도가 특징.우리는 되는거지 유사 행렬 자동 자료 중 하나 가지고 있다.이 재료우리는 추출 쉽게 텍스트 식별자 목록.우리는 계산 두 텍스트 같 이 (2), 여기 tf (황제; dj) 이 몇 글자를 모두 텍스트, 아우, dj, tf (제) 은 열 수 있는 텍스트 단어, 저하.우리가 유사 행렬 구성 사이에 있는 텍스트 식별자 특징 같은 대해 다음과 같습니다.

번역되고, 잠시 기다려주십시오..

다른 언어

번역 도구 지원: 갈리시아어, 구자라트어, 그리스어, 네덜란드어, 네팔어, 노르웨이어, 덴마크어, 독일어, 라오어, 라트비아어, 라틴어, 러시아어, 루마니아어, 룩셈부르크어, 리투아니아어, 마라티어, 마오리어, 마케도니아어, 말라가시어, 말라얄람어, 말레이어, 몰타어, 몽골어, 몽어, 미얀마어 (버마어), 바스크어, 베트남어, 벨라루스어, 벵골어, 보스니아어, 불가리아어, 사모아어, 세르비아어, 세부아노, 세소토어, 소말리아어, 쇼나어, 순다어, 스와힐리어, 스웨덴어, 스코틀랜드 게일어, 스페인어, 슬로바키아어, 슬로베니아어, 신디어, 신할라어, 아랍어, 아르메니아어, 아이슬란드어, 아이티 크리올어, 아일랜드어, 아제르바이잔어, 아프리칸스어, 알바니아어, 암하라어, 언어 감지, 에스토니아어, 에스페란토어, 영어, 오리야어, 요루바어, 우르두어, 우즈베크어, 우크라이나어, 웨일즈어, 위구르어, 이그보어, 이디시어, 이탈리아어, 인도네시아어, 일본어, 자바어, 조지아어, 줄루어, 중국어, 중국어 번체, 체와어, 체코어, 카자흐어, 카탈로니아어, 칸나다어, 코르시카어, 코사어, 쿠르드어, 크로아티아어, 크메르어, 클링곤어, 키냐르완다어, 키르기스어, 타갈로그어, 타밀어, 타지크어, 타타르어, 태국어, 터키어, 텔루구어, 투르크멘어, 파슈토어, 펀자브어, 페르시아어, 포르투갈어, 폴란드어, 프랑스어, 프리지아어, 핀란드어, 하와이어, 하우사어, 한국어, 헝가리어, 히브리어, 힌디어, 언어 번역.