본문 바로가기

Google Machine Learning Bootcamp 202255

3. Sequence Models & Attention Mechanism #1 Various Sequence To Sequence Architectures Basic Models Sequence to sequence model: input을 다 넣고 output을 받는다. encoder + decoder Picking the Most Likely Sentence Language model 같은 경우 input이 들어가고 output이 나오는 것이 동시에 일어난다. 하지만 seq2seq를 이용한 machine translation 같은 경우 input을 넣는 부분과 output이 나오는 부분이 분리되어 있다. Conditional language model이라고도 부른다. \( P( y^{} ... y^{} | x^{} ... x^{} ) \) greedy 하게 가장 확률이 높은 단.. 2022. 8. 15.
2. Natural Language Processing & Word Embeddings #3 Applications Using Word Embeddings Sentiment Classification 리뷰를 input으로, 별점을 output으로 두는 task를 생각해보자. word embedding으로 averaging 하는 접근은 부정적인 문맥임에도 불구하고 긍정적인 단어가 있는 경우를 판별하지 못할 것이라는 예측을 할 수 있다. RNN도 마찬가지다. 과거의 가장 중요한 단어가 재대로 propagation 되지 않을 수 있다. Debiasing Word Embeddings word embedding은 다양한 문장의 training set으로 훈련된다. 하지만 이러한 문장들을 보통은 인터넷에서 가져오게 되고, 과거에 존재했던 옳지 않은 bias가 문장에 섞일 수 있다. (Man : Comput.. 2022. 8. 12.
2. Natural Language Processing & Word Embeddings #2 Learning Word Embeddings: Word2vec & GloVe Learning Word Embeddings [Bengio et. al., 2003, A neural probabilistic language model]에서는 4개의 단어를 word embedding 한 것을 사용하여 다음 단어를 예측하는 language model을 만들었다. 이를 통해 word embedding matrix를 구하였다. Context를 다양한 방법으로 얻을 수 있다. (4개 단어로 다음 단어, 예측하려는 단어 앞 뒤 4 단어를 사용해서 등등) Word2Vec Skip-grams: 한 문장이 있다고 했을 때, 한 단어를 예측할 때 아무 위치에 있는 단어를 사용한다. 이를 통해 word embedding mat.. 2022. 8. 12.
2. Natural Language Processing & Word Embeddings #1 Introduction to Word Embeddings Word Representation 단어를 표현하는 방법은 여러 가지가 있다. 1-hot representation -> 단어를 표현하기는 쉽지만 다른 단어와의 관계를 representation으로부터 알 수 없다. Featurized representation: word embedding -> 단어가 feature와 관계있는 정도를 element로 가지는 vector로 표현한다. 단어 간의 관계를 representation으로부터 얻을 수 있다. (뜻이 비슷하다면 거리가 가깝다던지) Using Word Embedding Word embeddig을 사용하면 model의 performance가 높아질 것을 기대해볼 수 있다. (비슷한 단어라면 wor.. 2022. 8. 12.