📌 로컬 LM 테스트 (00:00)
🔹 소개
오픈 클로에 연동하지 않고 폴라마를 이용하여 로컬 LMM을 구동했을 때의 성능 테스트 진행.
🔹 테스트 환경
- 프롬프트 셋: 계산 정확도, 파이썬 코드 이해도, 종합적인 프롬프트 (복잡하지 않지만 명확한 동작 체크 가능).
- 테스트 모델:
- QN3 8B
- QN3 14B
- QN3 30B
- QN3 코더 30B
- GPT 오스
- GLM 4.7 플래시
- 딥시크 R1비
QN3 모델들의 차이점을 보여주기 위해 세 가지 모델의 실행 결과를 동시에 비교.
📌 QN3 모델 비교 (00:23)
🔹 계산 정확도 테스트
간단한 계산임에도 모델들이 생각을 많이 함.
- 결과: 셋 다 정답 도출.
- 30B 모델: 13초 소요.
- 14B 모델: 55초 소요.
- 8B 모델: 20초 소요.
- 분석: 모델 크기가 클수록 문제 해결 속도가 빠름. 14B 모델의 계산 속도가 특히 느림.
🔹 파이썬 코드 이해도 테스트
- 결과: 30B 모델이 가장 빠르고, 14B 모델이 가장 느림.
- 분석: 계산 및 코드 이해 능력에서 14B 모델의 성능이 가장 낮음.
🔹 긴 문장 이해도 테스트
- 결과: 8B 모델이 가장 빠르게 완료.
- 30B 모델: 24초 소요.
- 14B 모델: 32초 소요.
- 분석: 8B 모델이 가장 빠른 결과를 보였지만, 문장이 길지 않아 결과물은 거의 비슷함. 14B 모델은 이번에도 어중간한 결과를 보임.
QS3 모델 사용 시 8B 또는 30B 모델을 사용하는 것이 좋음.
📌 QN3 코더 모델 테스트 (03:21)
🔹 특징
계산은 못하지만 답을 매우 빨리 내놓음 (생각을 안 함).
🔹 테스트 결과
- 파이썬 코드 이해 요청: 엉뚱한 대답.
- 문장 이해 테스트: 생각 없이 답을 내놓음.
🔹 결론
일상적인 용도로는 QN3 코더 모델은 비추천.
📌 딥식 모델 테스트 (03:58)
🔹 특징
계산 문제에서 생각을 한글로 함.
🔹 테스트 결과
프롬프트 이해 능력 부족 (숫자만 출력 요청에도 텍스트로 출력).
🔹 분석
사고 과정은 깔끔하지만 프롬프트 전체 이해 능력은 부족한 것으로 보임.
이후 테스트는 계산 문제만 간단하게 진행.
📌 GPT 오스 모델 테스트 (04:52)
🔹 특징
생각을 빠르게 하지만 깊이 하지는 않음.
🔹 테스트 결과
다른 모델들은 계산 후 점검 과정을 거치지만, GPT 오스 모델은 한 번 생각해서 결과를 바로 내놓음.
📌 GLM 4.7 플래시 모델 테스트 (05:08)
🔹 배경
오픈 클로에 연결했을 때 멍청하게 동작했었음.
🔹 테스트 결과
오픈 클로 없이 동작 시 생각보다 깔끔하게 계산을 수행.
간단한 테스트 결과, GLM 4.7 플래시 모델이 오픈 클로 없이 단독으로 실행될 때는 괜찮은 성능을 보임.
📌 투두 프로그램 만들기 테스트 (05:54)
🔹 목적
LMM 모델들의 코드 작성 능력 테스트. 프롬프트를 간결하게 만들어 모델의 이해도와 사고 깊이를 평가.
🔹 QN3 8B 모델 테스트 (06:15)
- 결과: 예상보다 성능이 좋음. 요구 사항 이해도가 높고, 결과를 잘 도출함.
- 특징:
- 투두 내용을 JSON 파일에 저장.
- 터미널 UI 구성.
- 예외 처리 기능 포함.
- 표준 라이브러리만 사용.
- 재사용 가능한 함수 구조.
- 동작 테스트: 별도 라이브러리 설치 없이 파이썬 코드 실행 가능. 터미널 UI 및 예외 처리 정상 작동. 투두 추가, 조회, 수정 기능 정상 작동 확인.
🔹 QN3 코더 모델 테스트 (08:39)
- 특징: 코드를 별로 생각하지 않고 바로 작성.
- 결과: 함수 단위로 깔끔하게 코드를 작성.
- 동작 테스트:
- JSON 파일 대신 텍스트 파일로 투두 리스트 관리.
- 예외 처리 기능 포함.
- 분석: 계산 능력은 떨어지지만 코드 작성 능력은 뛰어남. 텍스트 파일로 관리하는 방식이 JSON보다 깔끔하게 느껴짐.
🔹 GLM 4.7 플래시 모델 테스트 (09:46)
- 결과: 프로그램을 만들기는 했지만, 버그 존재.
- 특징: JSON을 이용하여 투두 관리.
- 문제점:
- 투두 생성 및 삭제 과정에서 중복된 아이디 생성.
- 아이디 기반으로 투두 수정/삭제 시 문제 발생 (원하는 투두를 수정/삭제 불가).
- 결론: GLM 4.7 플래시 모델의 성능이 가장 떨어짐.
QN3 코더 30B 모델은 텍스트 파일에 원시적으로 투두를 저장하여 별도의 인덱스 값 없이도 정상적으로 동작. QN3 8B 모델도 JSON으로 관리하지만 인덱스 값을 부여하지 않아 GLM 4.7 플래시 모델과 같은 버그는 없음.
📌 결론 (11:46)
🔹 전반적인 평가
개인적으로 QN3 모델들이 다른 로컬 LM 모델보다 성능이 뛰어남.
🔹 추천
32GB 램 기준 맥미니에서 로컬 LM 구동 시 QN3 모델을 강력 추천.