Super Kawaii Cute Cat Kaoani
728x90
SMALL

자연어처리 3

[paper] Synthetic Prompting Generating Chain of Thought Demonstrations for Large Language Models (arxiv2023)

[Abstract] 대형 언어 모델은 단계별 시연을 통해 답을 찾도록 안내하는 생각의 사슬 프롬프트를 사용하여 다양한 추론 작업을 수행할 수 있습니다. 그러나 프롬프트의 품질은 모델에 제공된 데모에 따라 달라지며, 많은 프롬프트를 수작업으로 생성하는 데 비용이 많이 듭니다. 우리는 모델이 스스로 더 많은 예제를 생성하도록 유도하기 위해 몇 가지 수작업 예제를 활용하고 더 나은 추론을 이끌어내기 위해 효과적인 시연을 선택하는 방법인 합성 프롬프트를 소개합니다. 우리의 방법은 새로운 예제를 생성하기 위해 역방향 프로세스와 순방향 프로세스를 번갈아 사용합니다. 역방향 프로세스는 샘플링된 추론 체인과 일치하는 질문을 생성하여 질문을 해결할 수 있고 명확하게 합니다. 전진 프로세스는 질문에 대한 보다 상세한 추론..

NLP/paper 2023.07.04

[concept] RNN : Recurrent Neural Network, 순환신경망

RNN(Recurrent Neural Network)은 시퀀스(Sequence) 모델이다. 입력과 출력을 시퀀스 단위로 처리하는 모델이다. 번역기를 생각해보면 입력은 번역하고자 하는 문장. 즉, 단어 시퀀스. 출력에 해당되는 번역된 문장 또한 단어 시퀀스이다. 이러한 시퀀스들을 처리하기 위해 고안된 모델들을 시퀀스 모델이라고 한다. 그 중에서도 RNN은 딥러닝에 있어 가장 기본적인 시퀀스 모델이다. 전통적인 RNN 기반의 기계 번역은 입력과 출력의 크기가 같다고 가정한다. 15:52 위 파라미터들은 하나만 학습이 되고 입력이 반복적으로 주어진다고 보면됨. 각각 나오는 hidden state (h1, h2, h3) 값은 현재 등장했던 단어에 대한 전체 문맥 정보를 포함하고 있다. 입력과 출력의 크기가 같다..

NLP/etc. 2021.11.16

[paper] Seq2Seq: Sequence to Sequence Learning with Neural Networks (NIPS 2014)

[ 핵심 요약 ] LSTM을 활용한 효율적인 Seq2Seq 기계 번역 아키텍처. (Seq2Seq를 잘 이해해야 뒷 과정도 수월함.) Seq2Seq는 현대의 기계 번역(machine translation) 기술들이 딥러닝 기반으로 전환되도록 해주었다. 하나의 시퀀스(문장)에서 다른 시퀀스(문장)로 번역을 하겠다. 하나의 시퀀스(문장)은 토큰(단어)들로 이루어져 있다. ex) 독일어 문장을 영어 문장으로 번역하겠다. Encoder에서는 입력 시퀀스에 대한 정보를 적절히 표현가능한 벡터를 내보낸다. 이 context vector가 Decoder에 들어가서 context 벡터에 담겨있는 의미를 번역 대상 나라 언어의 문장으로 번역을 진행. 이와 같이, Seq2Seq는 하나의 입력 문장이 들어왔을 때 Encode..

NLP/paper 2021.11.16
728x90
반응형
LIST