로컬 환경에서 실행하는 React 기반 LLM-as-judge 검수(annotator) 도구입니다.
- 앱 시작 시
data/input의 4개 CSV 자동 로드gpt-5-mini-llm-judge.csvqwen3-VL-2b-it-llm-judge.csvqwen3-VL-30b-it-llm-judge.csvvarco2-14b-llm-judge.csv
- 데이터셋 버전 선택 UI
- 각 버전별
records,annotated,status표시
- 각 버전별
- 문제 탐색
- 인덱스 입력 후
Go이동 <,>버튼으로 이전/다음 이동
- 인덱스 입력 후
- 좌측 정보 패널
QuestionQuestion Type(Question 바로 아래)Images(썸네일 + 클릭 확대 모달 + 실패 플레이스홀더)image type(첫번째 사진 기준)(visual_type값 표시)Model Response(response)Model Answer (Parsed Answer)(model_answer)
- 우측 annotation 폼
- 파싱 일치 검사:
match | mismatch | no_answer - 정답/오답 판정 1. (Model Response vs. Gold Answer):
correct | incorrect | no_answer - 정답/오답 판정 2. (Parsed Answer vs. Gold Answer):
correct | incorrect | no_answer - 문제 유형 검사:
match | mismatch | unsure - 이미지 타입 검사:
match | mismatch | unsure Comment- 판정 시간(
MM:SS) 표시 및 저장
- 파싱 일치 검사:
- 저장/집계
Save Annotation클릭 시 dataset별localStorage에 저장annotated는 해당 dataset의 저장된 annotation 개수
- Export/병합
- 현재 세션 annotation + 기존 output CSV(있을 경우)를
item_id기준 merge - 파일명:
<datasetKey>-annotations-<timestamp>.csv
- 현재 세션 annotation + 기존 output CSV(있을 경우)를
web/: React 앱data/input/: annotator 입력 CSVdata/output/: export 결과 CSV 저장 권장 폴더data/sessions/: 세션/백업 용도data/archive/: 완료본 보관llm-as-judge-dataset/: 원본 데이터셋 보관scripts/merge/: 추가 병합 스크립트 용도scripts/utils/: 데이터 검증 유틸 용도docs/: 문서
git clone https://github.com/2nhyn/KMMMU_annotator- 의존성 설치
cd /경로/KMMMU_annotator/web
npm install- 개발 서버 실행
npm run dev- 브라우저에서 앱 접속
http://localhost:5173
- 앱 시작 후 데이터셋 카드에서 작업할 버전 선택
- 인덱스 탐색(
Go,<,>)으로 문제 이동 - 라벨 5개(파싱 일치, 정답/오답 검사 2개, 문제 유형, 이미지 타입)와 코멘트 입력 (필요 시)
Save Annotation클릭 (completed 문제가 업데이트됨)- Next 클릭
- 마지막에
Export CSV로 병합 결과 저장
- 입력 CSV는
response와model_answer를 모두 포함해야 합니다. item_id컬럼이 없으면 로더가 행 인덱스를item_id로 자동 생성합니다.localStorage초기화 방법annotations:gpt-5-miniannotations:qwen3-2bannotations:qwen3-30bannotations:varco2-14b