LangSmith 데이터셋으로 LLM 시스템의 성능을 평가(Evaluation)하고 개선하기 | Nutshell YouTube Summary

Loading summary...

LangSmith 데이터셋으로 LLM 시스템의 성능을 평가(Evaluation)하고 개선하기 | Nutshell YouTube Summary

📌 랭스미스 데이터셋 개념 및 LM 시스템 평가 방법 (00:00)

🔹 랭스미스 데이터셋 소개

랭스미스 데이터셋은 LM을 활용한 시스템 (예: R 시스템, 랭그래프 기반 AI 에이전트)의 성능을 평가하고 개선하는 데 도움을 주는 서비스이다. 시스템의 문제점을 파악하고 개선 방향을 설정하기 위해 반복적인 실험 환경을 구성하고 분석하는 것을 지원한다.

테스트 데이터를 업로드하여 다양한 실험 (LM 모델 변경, 툴 변경, 그래프 구조 변경 등)을 진행
실험 결과를 한눈에 비교 분석 가능

랭스미스 데이터셋은 LM 시스템 성능 개선을 위한 반복적인 실험 환경 구성 및 분석을 지원하는 서비스이다.

🔹 랭스미스 데이터셋 활용 예시

컨텍스트와 질문에 대한 정답을 미리 설정해둔 데이터셋을 랭스미스에 업로드하고, LLM 모델을 변경하며 정확도를 비교하는 실험을 진행한다.

90개의 질문-정답 데이터셋을 준비
프롬프트는 고정
로컬 LLM 모델만 변경 (예: QN3비 인스트럭트 2507, 덴마 3 270밀리언 IT, 라마 3.2 3비 인스트럭트)
모델별 정확도 및 처리 시간(레이턴시) 비교

랭스미스 데이터셋을 활용하면 다양한 LLM 모델의 성능을 정확도와 처리 시간 측면에서 비교 분석할 수 있다.

🔹 웹 UI를 통한 성능 비교

랭스미스 웹 UI에서 모델별 정확도와 레이턴시를 한눈에 비교할 수 있다.

정확도: QM 모델 (90%), M 3 270밀리언 IT 모델 (18%), 라마 3.2 3비 모델 (59%)
레이턴시: P50 (평균 처리 시간), P99 (가장 늦게 처리된 시간)을 모델별로 확인 가능
- QM 모델: 평균 2.72초, 최대 5.55초
- 라마 3.23B 모델: 평균 1.86초, 최대 4.72초

랭스미스 웹 UI는 모델별 정확도와 레이턴시를 시각적으로 제공하여 효율적인 성능 비교를 돕는다.

🔹 LM 시스템 변경 요소

LM 시스템의 성능에 영향을 미치는 변경 요소는 다음과 같다.

LLM 모델 변경: 모델 자체를 변경하여 성능 변화를 비교 (QM, 잼마, 라마 등)
프롬프트 변경: 시스템 프롬프트 및 사용자 프롬프트 개선
툴 연동: AI 에이전트 시스템에 툴 (인터넷 검색, 사내 문서 등)을 연동하고 툴 호출이 잘 되는지 확인
랭그래프 구조 변경: 노드 간의 구성, 밸리데이션 횟수 및 시점 등을 변경

다양한 요소 변경을 통해 LM 시스템 성능을 개선할 수 있으며, 랭스미스 데이터셋은 이러한 변경에 따른 성능 변화를 효과적으로 관리할 수 있도록 지원한다.

📌 LM 시스템 평가 방법론 (06:00)

🔹 랭스미스 도큐멘테이션

랭스미스 도큐멘테이션에 정리된 평가 방법론 (벤치마킹, 유닛 테스트, 회귀 테스트)을 기반으로 LM 시스템 평가 방법을 설명한다.

🔹 벤치마킹 (06:31)

선별된 데이터셋에 대해 어플리케이션 버전별 성능을 비교하는 방법이다.

필요 요소: 기준 데이터 (사람이 만든 정답), 평가 매트릭 (모델 답변과 기준 답변의 일치도 비교)
예시: 다양한 로컬 LLM 모델을 사용하여 테스트하고, 정답 데이터와의 정확도를 비교하여 가장 높은 모델을 찾는다.
정답이 애매한 경우: LLM 저지를 사용하여 사람이 만든 정답과 다양한 LM들이 만든 정답을 비교 평가한다.
도구 사용 평가: 특정 문제 해결에 필요한 도구 목록을 정답으로 설정하고, 휴리스틱 규칙 기반 평가자가 도구를 모두 호출했는지 테스트한다.

벤치마킹은 대표 샘플 데이터셋과 정답을 기준으로 다양한 어플리케이션 버전의 정확도를 평가하는 방법이다.

🔹 유닛 테스트 (08:59)

시스템의 개별 구성 요소가 올바르게 동작하는지 검증하는 과정이다.

특징: 프로그래밍적으로 명확하게 체크할 수 있는 상황을 테스트한다.
예시: 코딩 에이전트의 경우 생성된 코드가 컴파일되는지, JSON 출력이 유효한 JSON 구조인지 확인한다.
방법: 코드 단위 테스트를 만들어 통과 여부를 확인한다.

유닛 테스트는 코드 레벨에서 논리적으로 검증 가능한 단위 요소들을 테스트하는 기법이다.

🔹 회귀 테스트 (09:57)

어플리케이션을 개선하는 과정에서 기존 버전에서 잘 되던 기능이 새로운 버전에서 제대로 동작하지 않는 경우를 방지하기 위한 테스트이다.

목표: 기존 버전 대비 새로운 버전의 성능 개선 및 저하 여부를 확인한다.
랭그래프 컴패리슨 기능: UI에서 회귀 테스트 결과를 손쉽게 확인할 수 있다.
예시: QM 모델 기반 간단한 질문 답변 에이전트와 랭그래프 기반 복잡한 에이전트의 정확도를 비교한다.
분석: 개선된 버전에서 성능이 나빠진 케이스를 분석하여 원인을 파악하고 개선한다.

회귀 테스트는 어플리케이션 업데이트 시 기존 기능의 퇴보를 방지하고, 성능 변화를 면밀히 분석하는 데 사용된다.

🔹 랭스미스트 데이터셋 활용 요약 (12:27)

랭스미스트 데이터셋 웹 UI에 테스트 데이터를 업로드하고 다양한 요소를 변경하면서 성능 변화를 비교 분석할 수 있다. 랭체인 API 키를 설정하여 웹 대시보드에서 결과를 확인할 수 있다.

랭체인 회원 가입 및 API 키 설정: 랭체인 및 랭스미스 사용을 위한 필수 선행 조건