This subsection is concerned with the process of encoding words into numerical vectors. Previously, texts each of which is consists of paragraphs were encoded into numerical vectors whose attributes are words. In this research, we attempt to encode words into numerical vectors whose attributes are text identifiers which include them. Encoding of words and texts into numerical vectors looks reverse to each other. In this Section, we describe in detail the process of mapping words into numerical vectors, instead of texts. In the first step of word encoding, a word-document matrix is constructed automatically from a text collection called corpus. In the corpus, each text is indexed into a list of words. For each word, we compute and assign its weight which is called TF-IDF (Term Frequency-Inverse Document Frequency) weight [2], by equation (1),
이 항은 수치 벡터로 단어를 부호화하는 과정에 관한 것이다. 이전에, 이들 각각은 텍스트 단락 구성은 그 속성 단어 수치 벡터로 인코딩했다. 이 연구에서 우리는 그 속성을 포함하는 텍스트 식별자 수치 벡터로 단어를 인코딩하기 위해 시도합니다. 수치 벡터로 단어와 텍스트의 인코딩은 서로 반대 보인다. 이 섹션에서는, 우리는 대신 텍스트의 수치 벡터에 자세히 매핑 단어의 과정을 설명합니다. 워드 부호화의 제 1 단계에서, 워드 문서 코퍼스 매트릭스라는 텍스트 컬렉션으로부터 자동으로 구성된다. 코퍼스에서, 각각의 텍스트의 단어리스트로 연동된다. 각 단어에 대해, 우리가 계산 및 TF-IDF (용어 주파수 - 인버스 문서 빈도)라고 그 가중치를 부여 중량 [2], 식 (1)에 의해,
번역되고, 잠시 기다려주십시오..
이 돈 걱정 디코딩 수치 벡터 말 것이다.옛날, 모든 것은 모두 문자 인코딩 제 모두 수치 벡터 그 속성 말.이 연구 했다, 우리 수치 벡터 그 속성 편집 단어: 텍스트 표시.자, 문자 인코딩 될 것 서로 수치 벡터 돌려.이 길은 과정에서, 우리는 자세히 설명 수치 벡터 그리기 말 안 합니다.우선 한 마디 말 파일 인코딩 자동 텍스트 행렬 자료 수집 한 명.이 재료 색인 목록 모든 텍스트 단어 것이다.단어,우리는 이 계산 그 무거운 걸 요소 설정 (단어 빈도 역 문서 주파수) [] 무게, 방정식 (1)
번역되고, 잠시 기다려주십시오..