Super Kawaii Cute Cat Kaoani
728x90
SMALL

nlp 35

[paper] Rationale-Inspired Natural Language Explanations with Commonsense (ICML 2022)

Rationale-Inspired Natural Language Explanations with Commonsense – 논문 정리 [Abstract] @ NLE -> 모델이 예측한 결과에 대한 설명을 사람이 이해할 수 있는 자연어로 생성해서 제공하는 방법. @ ER(추출 합리성, 추출 근거) -> 입력의 의미있는 부분 (하위집합) Extractive rationales와 NLE는 기계학습 모델에 대한 두가지 설명 유형이다. NLE는 ER보다 더 포괄적일 수 있지만 기계 생성 NLE는 상식 지식 측면에서 부족한 것으로 나타났다. 이 논문에서 상식 지식이 ER과 NLE 사이의 다리 역할을 하여 두 유형의 설명을 더 잘 만들 수 있음을 보여준다. 자기 합리화 프레임 워크인 RExC를 소개한다. (엔드투엔드 ..

NLP/paper 2023.02.27

[paper] Transformer: Attention Is All You Need

i am a teacher 가 각 단어가 다른 애들이랑 얼마나 연관성이 있는지 측정하기 위해 셀프어텐션을 수행. i라는 단어가 i am a teacher 각각에 대해 얼마나 연관성이 있는지 구한다고 할 때 i가 쿼리가 되는것이고 i am a teacher 각 단어들은 key가 되는 것이다. 즉 어떤 단어가 다른 어떤 단어에 관해 어떤 가중치를 가지는지 구하고자 한다면 각 key에 대해 attention 스코어를 구해오는 방식으로 동작하는 것이다. 그렇게 스코어를 구한다음 실제 value값들과 곱해서 결과적인 attention value값을 구할 수 있는 것이다. query - 물어보는 주체 key - attention을 수행하는 각 단어들 Q와 K를 이용하여 행렬곱을 수행한 뒤에 scaling, 필요하다..

NLP/paper 2021.12.23

[concept] 초기 NN부터 순서대로 개념 막 내뱉기

FFNN 초기 FFNN 은 입력이 늘 하나의 고정된 벡터였음. RNN RNN은 벡터의 열을 입력으로 받음. 이전타임의 hidden state 값을 이용해서 현재 hidden state를 변화시킬 수 있기 때문에 연속된 입력에 따라 변화를 모델링. Bidirectional RNN 양방향 RNN. 기존 RNN에서 반대방향으로도 가능하도록 함. LSTM RNN 기존 RNN이 Vanishing Gradient Problem이 있기 때문에 이를 해결하기위해 input/ouput/forget gate를 추가함. Gated Recurrent Unit (GRU) LSTM RNN이 많은 게이트를 사용하는 반면 GRU는 게이트 수를 많이 줄였다. Encoder-Decoder Model encoder RNN과 decoder..

NLP/etc. 2021.12.23

[concept] RNN : Recurrent Neural Network, 순환신경망

RNN(Recurrent Neural Network)은 시퀀스(Sequence) 모델이다. 입력과 출력을 시퀀스 단위로 처리하는 모델이다. 번역기를 생각해보면 입력은 번역하고자 하는 문장. 즉, 단어 시퀀스. 출력에 해당되는 번역된 문장 또한 단어 시퀀스이다. 이러한 시퀀스들을 처리하기 위해 고안된 모델들을 시퀀스 모델이라고 한다. 그 중에서도 RNN은 딥러닝에 있어 가장 기본적인 시퀀스 모델이다. 전통적인 RNN 기반의 기계 번역은 입력과 출력의 크기가 같다고 가정한다. 15:52 위 파라미터들은 하나만 학습이 되고 입력이 반복적으로 주어진다고 보면됨. 각각 나오는 hidden state (h1, h2, h3) 값은 현재 등장했던 단어에 대한 전체 문맥 정보를 포함하고 있다. 입력과 출력의 크기가 같다..

NLP/etc. 2021.11.16

[paper] Seq2Seq: Sequence to Sequence Learning with Neural Networks (NIPS 2014)

[ 핵심 요약 ] LSTM을 활용한 효율적인 Seq2Seq 기계 번역 아키텍처. (Seq2Seq를 잘 이해해야 뒷 과정도 수월함.) Seq2Seq는 현대의 기계 번역(machine translation) 기술들이 딥러닝 기반으로 전환되도록 해주었다. 하나의 시퀀스(문장)에서 다른 시퀀스(문장)로 번역을 하겠다. 하나의 시퀀스(문장)은 토큰(단어)들로 이루어져 있다. ex) 독일어 문장을 영어 문장으로 번역하겠다. Encoder에서는 입력 시퀀스에 대한 정보를 적절히 표현가능한 벡터를 내보낸다. 이 context vector가 Decoder에 들어가서 context 벡터에 담겨있는 의미를 번역 대상 나라 언어의 문장으로 번역을 진행. 이와 같이, Seq2Seq는 하나의 입력 문장이 들어왔을 때 Encode..

NLP/paper 2021.11.16
728x90
반응형
LIST