✍️ 에세이/지각에세이

지각 에세이_김세연

seyeon7 2024. 8. 2. 22:49

안녕하세요:)

지각에세이 제출합니다. 

제가 요즘 관심이 많은 LLM의 환각 문제와 해결방안에 대해 정리해 봤습니다. 


LLM의 환각문제와 해결 방안 (RAG와 랭체인)

LLM 환각 문제

- 환각

- 환각 예시

- 환각문제의 원인

 

환각 문제 해결을 위한 RAG

- RAG의 개요

- RAG의 동작 원리

- RAG의 장점

- RAG의 한계

 

랭체인을 통한 환각 문제 해결

- 랭체인의 개요

- 랭체인의 동작 원리

- 랭체인의 장점

- 랭체인의 한계

LLM 환각 문제

환각

환각은 LLM이 사실에 근거하지 않은 정보를 생성하거나 질문에 대해 잘못된 답변을 제공하는 현상을 의미한다. 
모델이 훈련 데이터에 없는 정보를 생성하려고 할 때 발생한다.
환각 현상은 특히 정보의 정확성과 신뢰성이 중요한 분야에서 큰 문제이며,
사용자에게 잘못된 정보를 전달함으로써 심각한 결과를 만 수 있다.

환각  예시

  1. 잘못된 사실 생성
    • LLM이 질문에 대해 정확하지 않거나 전혀 근거 없는 정보를 생성하는 경우
    • 예를 들어, "2020년 미국 대통령 선거에서 승리한 후보는 누구인가요?"라는 질문에 대해
      "존 도우가 승리했다"라고 답변할 수 있다.
  2. 컨텍스트 오류
    • LLM이 문맥을 잘못 이해하고 부적절한 정보를 제공하는 경우
    • 예를 들어, 사용자가 "파리의 날씨는?"이라고 물었을 때,
      모델이 "파리는 2021년 12월에 세운 인류 최초의 고층 빌딩입니다"라고 답할 수 있다.
  3. 일관성 문제
    • 동일한 질문에 대해 서로 다른 답변을 생성하는 경우
    • 예를 들어, "중국의 수도는 어디인가요?"라는 질문에 대해 한 번은 "베이징"이라고 대답하고,
      다른 번에는 "상하이"라고 대답할 수 있다. 

환각 문제의 원인

  1. 제한된 학습 데이터:
    • LLM이 학습한 데이터가 충분히 포괄적이지 않으면, 모델이 추론할 수 있는 범위가 제한된다.
    • 특정 주제에 대한 데이터가 부족할 경우, 모델은 부정확한 정보를 생성할 가능성이 높다.
  2. 확률적 생성 과정
    • LLM은 확률적 방법으로 텍스트를 생성하므로, 항상 정확한 답변을 제공하지 못할 수 있다.
    • 모델이 정답보다 그럴듯한 답변을 선택할 확률이 높아질 때 발생한다.
  3. 모델의 한계
    • 현재의 LLM 구조 자체가 모든 정보를 정확하게 처리하고 기억하는 데 한계가 있다.
    • 또한, LLM은 일반적으로 통계적 연관성에 기반하여 답변을 생성하기 때문에, 진정한 이해가 부족할 수 있다.

환각 문제 해결을 위한 RAG

RAG의 개요

RAG(Retrieval-Augmented Generation)은 정보 검색(retrieval)과 텍스트 생성(generation)을 결합한 접근 방식이다.
이 기법은 모델이 답변을 생성하기 전에 관련 정보를 외부 데이터베이스에서 검색하도록 하여,
생성된 답변의 정확성을 높인다.

RAG는 특히 최신 정보와 동적인 데이터가 필요한 응용 프로그램에서 효과적이다.

RAG의 원리

  1. 질문 입력
    • 사용자로부터 질문을 입력받는다.
    • 이 질문은 LLM이 외부 데이터베이스에서 관련 정보를 검색하는 데 기초가 된다.
  2. 정보 검색
    • 질문과 관련된 정보를 외부 데이터베이스에서 검색한다.
    • 이 단계에서 RAG는 다양한 정보 소스에서 관련 데이터를 가져와 답변을 구성할 수 있도록 한다.
  3. 응답 생성
    • 검색된 정보를 바탕으로 최종 응답을 생성한다.
    •  LLM은 검색된 데이터를 바탕으로 사용자에게 보다 정확한 답변을 제공한다.

RAG의 장점

  1. 정확도 향상
    • 모델이 최신 정보와 데이터를 활용할 수 있어 정확도가 향상된다.
    • RAG는 외부 데이터베이스에 접근함으로써 사실 확인이 가능해진다.
  2. 환각 감소
    • 외부 데이터베이스에서 검증된 정보를 사용하므로 환각 현상이 줄어든다.
    • 정보의 신뢰성이 높아진다.
  3. 일관성 유지
    • 동일한 질문에 대해 일관된 답변을 제공할 수 있다.
    • 데이터베이스에 있는 정보를 바탕으로 하므로 일관성이 보장된다.

RAG의 한계

  1. 속도 저하
    • 정보 검색 단계가 추가되어 응답 생성 속도가 느려질 수 있다.
    • 특히 대규모 데이터베이스에서 검색할 때 시간이 더 소요될 수 있다.
  2. 데이터베이스 의존성
    • 외부 데이터베이스의 품질과 범위에 따라 응답의 품질이 좌우된다.
    • 데이터베이스에 정확한 정보가 없으면 여전히 오류가 발생할 수 있다.

 

랭체인을 통한 환각 문제 해결

랭체인의 개요

랭체인(LangChain)은 언어 모델과 체인을 결합한 구조로,다단계 처리 과정을 통해 환각 문제를 해결하는 접근 방식이다.
이를 통해 각 단계에서 생성된 결과를 검증하고 수정할 수 있다. 랭체인은 여러 모델을 조합하여 최적의 응답을 제공하는 데 초점을 맞춘다.

랭체인의 동작 원리

  1. 초기 입력 처리
    • 질문을 입력받아 첫 번째 단계에서 처리한다.
    • 모델은 질문을 해석하여 다음 단계로 전달할 수 있도록 준비한다.
  2. 체인 구성
    • 각 단계에서 생성된 결과를 다음 단계로 전달하여 검증 및 수정 과정을 거친다.
    • 입력된 데이터는 이전 단계의 출력을 바탕으로 한다.
  3. 최종 응답 생성
    • 모든 단계를 거친 후 최종 응답을 생성한다.
    • 마지막 단계에서는 최종 답변이 생성되어 사용자에게 전달된다.

랭체인의 장점

  1. 검증 및 수정
    • 각 단계에서 생성된 결과를 검증하고 수정할 수 있어 정확도가 높아진다.
    • 이를 통해 LLM의 출력의 신뢰성을 강화할 수 있다.
  2. 유연성
    • 다양한 모델과 기법을 결합하여 최적의 응답을 생성할 수 있다.
    • 상황에 따라 적합한 모델을 선택할 수 있는 유연성이 있다.
  3. 스케일링 가능성
    • 다단계 구조로 복잡한 문제도 효과적으로 처리할 수 있다.
    • 여러 단계의 처리를 통해 높은 수준의 분석과 응답을 생성할 수 있다.

랭체인의 한계

  1. 복잡성 증가
    • 다단계 구조로 인해 시스템이 복잡해질 수 있다.
    • 각 단계의 구성과 관리가 복잡해질 수 있다.
  2. 자원 소모
    • 각 단계에서 검증 및 수정 과정을 거치므로 자원이 많이 소모될 수 있다.
    • 특히 계산 리소스와 시간이 추가로 필요할 수 있다.

결론

LLM의 환각 문제는 여전히 큰 문제이지만, RAG, 랭체인과 같은 기술은 이를 해결하기 위한  접근 방식이다.

RAG는 외부 데이터베이스를 활용하여 정확도를 높이고, 랭체인은 다단계 검증 과정을 통해 결과의 신뢰성을 높인다.

이러한 기법들은 LLM의 활용성을 높이고, 더 신뢰할 수 있는 응답을 제공할 것입니다. 


제가 공부할 때 참고한 유튜브 링크도 함께 첨부합니다:)

 

검색 증강 생성이 뭐죠? AI 필수 지식 RAG, 15분만에 배우기 (youtube.com)

 

https://youtu.be/6m_bntSp21I?si=Hk3N36MbRsgcGfQB

 

'✍️ 에세이 > 지각에세이' 카테고리의 다른 글

지각에세이_김윤아  (0) 2024.11.22
이커머스 산업에서 데이터 분석가, PM의 역할  (6) 2024.11.11
지각에세이_이현진  (0) 2024.07.29
지각에세이_강구슬  (0) 2024.07.13
지각에세이_김정현  (0) 2024.05.06