LLM 모드 의사결정 리포트

어디살지(부동산 임차 상담 AI) · GROQ vs GPT 웹서치 OFF vs GPT 웹서치 ON(instant) · 실측 2026-06-01

TL;DR

단일 모델은 없다 — 하이브리드 라우팅이 최적. 일반 상담·추론은 GROQ(gpt-oss-120b)로 1.6초 초고속·초저가 처리하고, 시세·정책·실시간(recency) 질의만 GPT‑5.4‑mini + 웹서치 ON으로 라우팅한다. GPT 티어는 플래그십(5.5)이 아니라 5.4‑mini가 정답 — 충분히 똑똑하고 ~12× 저렴. 헥사고날 포트(2 provider + GPT 하위 웹서치 전략) 덕분에 이 라우팅이 호출부 변경 없이 1줄로 전환된다.

1. 실측 벤치마크 (3모드 × 복잡 시나리오 8 = 24콜)

모드모델평균 지연p95 지연 평균 출력토큰웹서치 호출출처 있는 답변recency 출처
groqgpt-oss-120b1,559ms2,490ms61100/80/3
gpt 웹서치 OFFgpt-5.4-mini4,347ms5,937ms50900/80/3
gpt 웹서치 ONgpt-5.4-mini7,743ms10,218ms748106/83/3

8 시나리오 = recency 3(시세·금리·정책) + hallucination 1(가짜 법안 함정) + reasoning 2(다제약 추론) + domain 2(일반 상담). 전 모드 성공률 8/8.

2. 복잡 시나리오별 응답 차이 (로우데이터 발췌)

① 환각 함정 — 존재하지 않는 "청년 월세 100% 지원 특별법"

groq 출처 0
"…해당 법안에 대한 구체적인 내용이 확인되지 않아…" — 거짓 생성 회피 ✓ (단, 검증 불가)
gpt 웹서치 OFF 출처 0
"'청년 월세 100% 지원 특별법'이라는 발표는 확인되지 않습니다…다만 제목만 놓고 보면 보통 핵심은…" — 회피하되 추정 전개(경계)
gpt 웹서치 ON 출처 3 · 웹서치 1
"그 이름 그대로의 법안은 찾지 못했습니다. 대신 실재하는 '청년 월세 특별지원'은 확인됩니다…(출처)" — 실제 정부자료로 교차검증 ✓✓

세 모델 모두 환각은 피했으나, "없음"을 사실로 증명한 건 웹서치 ON뿐.

② 시세 질의 — "지금 마포구 원룸(보증금 1천) 평균 월세"

groq / gpt OFF
"실시간 시세는 보유/접근 불가" → KB·직방 등 안내 또는 일반 레인지(60~90만) 추정
gpt 웹서치 ON 출처 2 · 웹서치 1
"보증금 1,000 기준 40~70만원대가 많고…마포구청역 1,000/65, 성암로 1,000/40, 백범로 1,000/65 같은 매물이 확인됩니다 (naver land 출처)" — 실매물·실수치·출처

2-B. 전체 로우데이터 (24행, 시나리오 × 모드)

시나리오 groq
ms / 검색 / 출처
gpt OFF
ms / 검색 / 출처
gpt ON
ms / 검색 / 출처
recency · 전세 금리1,031/0/03,725/0/09,180/3/5
recency · 마포 시세990/0/03,238/0/04,323/1/2
recency · 청년 정책900/0/02,653/0/08,757/3/4
환각 함정 (가짜 법안)661/0/02,873/0/05,008/1/3
추론 · 다제약(2호선·반려묘·신축)2,490/0/05,243/0/08,343/1/5
추론 · 트레이드오프(강남·중형견)2,193/0/05,937/0/09,332/1/10
상담 · 계약 체크리스트2,058/0/05,730/0/06,782/0/0
상담 · 동네 결 매칭2,151/0/05,380/0/010,218/0/0

읽는 법: 지연ms / 웹서치 호출수 / 출처수. groq는 전 시나리오 최속이나 검색·출처 항상 0. gpt ON은 recency·환각·추론에서 검색이 붙고(출처 최대 10), 상담 2건은 검색 0(=OFF와 동일 결과인데 더 느림 → 무조건 ON은 낭비).

2-C. 모드별 상세 장단점

GROQ · gpt-oss-120b

장점

  • 압도적 속도 — 0.66~2.5s, 평균 1.6s (gpt 대비 3~5×)
  • 최저가, 한국어 자연스러움 양호
  • 환각 회피(가짜 법안에 "확인 안 됨")
  • 다제약 추론도 무난히 처리

단점

  • 웹서치 불가 → 시세·금리·정책 전부 출처 0, "모름" 또는 일반론
  • 실시간 정확성 0 — recency 질의에 실수치 못 줌
  • 오픈 가중치 모델이라 품질 상한 존재

GPT 웹서치 OFF · 5.4-mini

장점

  • groq보다 스마트한 추론·문장 구성
  • 환각 회피, 출력 안정적

단점

  • groq보다 2~3× 느림(평균 4.3s)인데 recency는 여전히 출처 0
  • → "느린데 검색도 못함" = 어정쩡. 비검색이면 groq가 더 빠르고 쌈
  • 추정 전개 경향(없는 법안에 "보통 핵심은…" 나열) — 약한 추정 위험

GPT 웹서치 ON · 5.4-mini

장점

  • recency 완전 커버 — 3/3 출처, 실매물·실수치(마포 1,000/65 등)
  • 환각 함정에서 "없음"을 정부자료로 증명
  • 총 출처 29개, 6/8 답변에 근거 부착

단점

  • 가장 느림 — 평균 7.7s, 최대 10~16s
  • 웹서치 비용 $10/1k calls
  • 비검색 시나리오(상담)는 검색 0인데 더 느림 → 무조건 ON은 낭비

교차 결론: gpt OFF는 끼인 포지션 — 검색을 안 하면 groq가 우월(더 빠름·저렴)하고, 검색이 필요하면 ON이어야 한다. 따라서 실전은 groq(비검색 기본) + gpt-5.4-mini ON(검색 필요) 2-축이면 충분하며, OFF는 "OpenAI 품질이 필요하나 검색은 불필요"한 좁은 예외용으로만 남긴다.

3. 모델 선택 — mini가 정답인가?

접근 가능한 최신 라인업: gpt-5.5(플래그십) · gpt-5.4 · gpt-5.4-mini · gpt-5.4-nano · gpt-5.1 · gpt-5-search-api(불안정, 500).

후보특성대략 단가(in/out, 1M)판정
gpt-5.5 (flagship)최고 지능, 과한 비용$5 / $30상담 챗엔 과투자
gpt-5.4-mini충분히 똑똑·웹서치 지원·instant~$0.25 / ~$2 대✓ 채택
gpt-5.4-nano초저가, 추론 한계더 저렴복잡 추론엔 부족
groq gpt-oss-120b최속·최저가, 웹서치 불가초저가✓ 비검색 기본값

실측상 mini는 다제약 추론(2호선·반려묘·신축·예산)에서 충분한 품질을 냈고, 웹서치를 붙이면 recency를 완전히 커버한다. 플래그십으로 올릴 근거 없음. 웹서치 비용은 $10 / 1,000 calls — recency 질의에만 켜면 비용 노출 최소.

4. 아키텍처 — 헥사고날 최적성 검토

사용자 요구 "groq · gpt(웹서치 ON) · gpt(웹서치 OFF) 3전환을 쉽게"의 최적 구성은 웹서치를 GPT 어댑터 하위 전략(서브포트)으로 두는 것:

LLMProvider (port)            ← 호출부는 이 인터페이스만 의존
 ├─ GroqAdapter                provider=groq
 └─ GptAdapter(strategy)       provider=gpt
      └─ WebSearchStrategy (sub-port)
           ├─ WebSearchOff       tools=[]
           └─ WebSearchInstantOn tools=[{type:"web_search"}]

호출/세팅이 헥사고날인지 — 체크

결론: 최적 구성에 부합. 프로덕션 chat_v2/ports/llm.py의 기존 포트에 GptAdapter 2전략을 동일 패턴으로 편입하면 됨.

5. 권고

실측: 어디살지 backend 컨테이너 내 OpenAI/GROQ 실키, 2026-06-01. 헥사고날 하니스 scripts/llm_mode_bench/ · 로우데이터 24행 CSV · 페이크 프로바이더 단위테스트 5/5 green. 본 페이지는 개인용 분석 산출물.