본문 바로가기

NLP

(4)
3. 카운트 기반 단어 표현 자연어 처리에서 텍스트를 표현하는 여러 방법 중 텍스트를 카운트 기반으로 수치화하는 방식에 대해 얘기해보려 한다. Bag of Words(BoW) Bag of Words : 단어들의 순서는 전혀 고려하지 않고, 출현 빈도에만 집중하는 텍스트 수치화 방식. 단어들을 가방에 담아서 흔들어 섞는다면 순서는 상관없이 얼마나 많이 나왔는지가 주요 포인트 일 것이다. Bow 만드는 과정 1. 각 단어에 고유한 정수 인덱스 부여 2. 각 인덱스의 위치에 단어 토큰의 등장 횟수를 기록한 벡터를 만듦. ex) doc1 = "정부가 발표하는 물가상승률과 소비자가 느끼는 물가상승률은 다르다." vocabulary : {'정부': 0, '가': 1, '발표': 2, '하는': 3, '물가상승률': 4, '과': 5, '소비자..
2. 텍스트를 숫자로 - 인코딩 컴퓨터는 당연하게도 텍스트보다 숫자를 훨씬 더 잘 처리한다. 이를 위해 자연어 처리에는 텍스트를 숫자로 바꾸는 여러가지 기법들이 존재하는데, 보통은 단어들을 벡터로 만들어서 문제를 해결하고자 한다. 프로세스는 다음과 같다 1. 단어집합을 만듦 2. 단어 집합에 고유한 정수를 부여 (정수인코딩) 3. 숫자로 바뀐 단어들을 벡터로 다룸 (원-핫 인코딩) 이전 포스팅에서 이어지는 내용입니다! https://rhks13.tistory.com/7 1. NLP의 뿌리, 텍스트 전처리 텍스트 전처리란 풀고자 하는 문제의 용도에 맞게 텍스트를 사전에 처리하는 작업을 말한다. 카레를 만들때 당근을 채 썰면 안되는 것 처럼, task에 알맞은 처리과정을 거쳐야한다. 코퍼스(대량 rhks13.tistory.com 1. 단어..
1. NLP의 뿌리, 텍스트 전처리 텍스트 전처리란 풀고자 하는 문제의 용도에 맞게 텍스트를 사전에 처리하는 작업을 말한다. 카레를 만들때 당근을 채 썰면 안되는 것 처럼, task에 알맞은 처리과정을 거쳐야한다. 코퍼스(대량의 말뭉치) 데이터가 필요에 맞게 전처리 되지 않은 상태라면 해당 데이터를 사용하과 하는 용도에 맞게 토큰화&정제&정규화 작업을 거쳐 이쁘게 다음어 주어야 한다. 해당 작업들을 하나하나 파헤쳐보자 1. 토큰화 토큰 : 코퍼스를 토큰이라고 불리는 의미있는 단위로 나누는 작업 토큰의 기준이 단어 -> 단어 토큰화 / 토큰의 기준이 문장 -> 문장 토큰화 단어토큰화 ex) I like it! Let’s do it ⇒ “I”, “like”, “it”, “Let”,”s”,”do”,”it” 카누는 멋있는 친구지. ⇒ “카누는”,..
자연어 처리 워크플로우 더이상 미룰 수 없었던 NLP 전체적인 흐름을 보며 공부하면 훨씬 편할 것 같아 워크플로우를 정리해보려 한다 https://wikidocs.net/book/2155 딥 러닝을 이용한 자연어 처리 입문 많은 분들의 피드백으로 수년간 보완된 입문자를 위한 딥 러닝 자연어 처리 교재 E-book입니다. 오프라인 출판물 기준으로 코드 포함 **약 1,000 페이지 이상의 분량*… wikidocs.net 자연어 처리 공부에 해당 위키독스가 정말 많이 도움이 되었다. 이번 포스팅은 굵직한 맥을 찝어놓은 글이라고 생각하시면 편하다. 1. task 정립 2. 전처리 3. 모델링 이렇게만 놓고 보았을때는 일반 머신러닝과 별반 큰 차이가 없어 보이지만, task의 종류도 넘쳐나고, 그에 최적화된 모델들이 존재한다. 또한 ..