
1. 패트로너스 AI, 업계 최초 '멀티모달 AI 심사위원' 출시
패트로너스 AI(Patronus AI)가 오늘, 업계 최초의 멀티모달 대규모 언어 모델 기반 심사위원(MLLM-as-a-Judge)을 출시한다고 발표했습니다.
이 새로운 평가 기술, 저지-이미지(Judge-Image)는 이미지를 해석하고 텍스트를 생성하는 AI 시스템을 평가하기 위해 설계되었습니다.
개발자들이 멀티모달 AI 애플리케이션에서 발생하는 환각(Hallucination) 현상과 신뢰성 문제를 탐지하고 완화하는 데 도움을 주는 것이 목표입니다.
이커머스 대기업 엣시(Etsy)는 이미 이 기술을 도입하여, 핸드메이드 및 빈티지 상품 마켓플레이스 전반에 걸쳐 제품 이미지 캡션의 정확성을 검증하는 데 사용하고 있습니다 .
엣시가 우리의 주요 초기 고객 중 하나라는 소식을 발표하게 되어 매우 기쁩니다. 엣시는 전 세계 사람들이 만드는 수억 개의 핸드메이드 및 빈티지 상품을 보유하고 있습니다. 그들의 AI 팀은 생성형 AI를 활용하여 이미지 캡션을 자동으로 생성하고, 글로벌 사용자 기반 전체에 걸쳐 생성된 캡션이 궁극적으로 정확하도록 보장하고자 했습니다.
아난드 칸나판 (Anand Kannappan, 패트로너스 AI 공동 창업자)
2. 왜 OpenAI 대신 구글 제미나이를 선택했나?
패트로너스는 첫 번째 MLLM 심사위원인 '저지-이미지'를 개발하면서, OpenAI의 GPT-4V와 같은 대안 모델들과 비교하는 광범위한 연구 끝에 구글의 제미나이(Gemini) 모델을 기반으로 구축하기로 결정했습니다.
칸나판 공동 창업자는 "GPT-4V에서는 자기중심성(egocentricity)으로 약간 치우치는 경향을 보인 반면, 제미나이는 그러한 편향이 적고 다양한 종류의 입출력 쌍을 평가하는 데 있어 더 공정한 접근 방식을 가지고 있음을 확인했습니다."라고 설명했습니다.
이는 제미나이가 검토한 여러 소스에 걸쳐 균일한 점수 분포를 보인 것에서도 나타났습니다.
회사의 연구는 멀티모달 평가에 대한 또 다른 놀라운 통찰력을 제시했습니다. 텍스트 전용 평가에서는 다단계 추론(multi-step reasoning)이 종종 성능을 향상시키지만, 이미지 기반 평가에서는 "일반적으로 MLLM 심사위원 성능을 실제로 향상시키지 않는다"는 점을 발견했습니다 .
3. '저지-이미지'의 핵심 평가 기능
'저지-이미지'는 즉시 사용 가능한 평가기(evaluators)를 제공하여 여러 기준에 따라 이미지 캡션을 평가합니다.
주요 평가 기준:
캡션 환각 탐지 (Caption hallucination detection)
주요 객체 및 비주요 객체 인식 (Recognition of primary and non-primary objects)
객체 위치 정확성 (Object location accuracy)
텍스트 탐지 및 분석 (Text detection and analysis)
이러한 기능들은 AI가 생성한 이미지 관련 텍스트의 정확성과 신뢰성을 종합적으로 검증하는 데 필수적입니다.
4. 리테일을 넘어선 활용: 마케팅, 법률 분야까지
엣시는 이커머스 분야의 대표적인 고객이지만, 패트로너스는 '저지-이미지'의 적용 범위를 리테일 분야를 훨씬 넘어설 것으로 보고 있습니다.
칸나판은 "특히 마케팅 디자인뿐만 아니라 제품 디자인의 새로운 블록에 대해 설명과 캡션을 대규모로 생성하고자 하는 여러 회사의 마케팅 팀"을 잠재 고객으로 언급했습니다.
그는 또한 문서 처리를 다루는 기업을 위한 애플리케이션도 강조했습니다. "벤처 서비스 회사나 로펌과 같은 대기업들은 종종 PDF에서 다양한 종류의 정보를 추출하고, 방대한 문서 내용을 요약하기 위해 비교적 오래된 기술을 사용하는 엔지니어링 팀을 보유하고 있을 수 있습니다."
'저지-이미지'와 같은 도구는 이러한 작업의 정확성과 효율성을 높이는 데 기여할 수 있습니다.
5. AI 평가 도구, 직접 개발 vs. 외부 구매?
AI가 비즈니스 프로세스에 점점 더 중요해짐에 따라, 많은 기업들이 평가 도구를 직접 개발할지(Build) 아니면 구매할지(Buy)의 딜레마에 직면합니다.
칸나판은 AI 평가를 외부 솔루션에 맡기는 것이 전략적으로나 경제적으로 합리적이라고 주장합니다.
저희가 여러 팀과 협력하면서 발견한 것은, 많은 분들이 내부적으로 무언가를 개발할 수 있는지 확인하기 위해 시작하지만, 곧 그것이 첫째, 자신들의 핵심 가치 제안이나 개발 중인 제품과 관련이 없다는 것, 둘째, AI 관점뿐만 아니라 인프라 관점에서도 매우 어려운 문제라는 것을 깨닫게 된다는 것입니다.
아난드 칸나판 (Anand Kannappan, 패트로너스 AI 공동 창업자)
이는 특히 프로세스의 여러 지점에서 실패가 발생할 수 있는 멀티모달 시스템에 더욱 해당됩니다. "RAG 시스템이나 에이전트, 심지어 멀티모달 AI 시스템을 다룰 때, 시스템의 모든 부분에서 오류가 발생하는 것을 목격하고 있습니다."라고 칸나판은 지적했습니다.
6. 비즈니스 모델과 경쟁 환경 속 포지셔닝
패트로너스는 여러 가격 책정 단계를 제공합니다. 사용자가 특정 사용량 한도까지 플랫폼을 실험해 볼 수 있는 무료 옵션부터 시작합니다.
그 기준점을 넘어서면 고객은 평가기 사용량에 따라 종량제(Pay-as-you-go)로 비용을 지불하거나, 맞춤형 기능과 가격 책정이 포함된 기업 계약을 위해 영업팀과 협의할 수 있습니다.
구글의 제미나이 모델을 기반으로 사용함에도 불구하고, 회사는 구글, OpenAI, 앤트로픽과 같은 파운데이션 모델 제공업체와 경쟁하기보다는 상호 보완적인 관계로 스스로를 포지셔닝합니다.
칸나판은 "우리가 구축하는 기술이나 솔루션이 파운데이션 회사들과 경쟁적이라고 보지 않으며, 오히려 LLM 자체보다는 더 나은 LLM 시스템을 개발하는 데 궁극적으로 도움이 되는, 도구 상자 속의 매우 보완적이고 추가적인 강력한 새 도구라고 생각합니다."라고 말했습니다.
7. 다음 목표는 오디오 평가: 멀티모달 감독 확장
오늘 발표는 다양한 모달리티에 걸친 AI 평가를 위한 패트로너스의 광범위한 전략 중 한 단계입니다. 회사는 곧 이미지를 넘어 오디오 평가로 확장할 계획입니다.
칸나판은 "이것이 멀티모달을 향한 우리 비전의 다음 단계이기 때문에 기대가 큽니다. 오늘은 특히 이미지에 초점을 맞췄고, 시간이 지남에 따라, 특히 미래에 오디오 분야에서 우리가 할 일에 대해 기대하고 있습니다."라고 확인했습니다.
이 로드맵은 칸나판이 회사의 "확장 가능한 감독(scalable oversight)을 향한 연구 비전"이라고 설명하는 것과 일치합니다. 즉, 점점 더 정교해지는 AI 시스템의 속도를 따라잡을 수 있는 평가 메커니즘을 개발하는 것입니다.
우리는 장기적으로 인간으로서 감독하고자 하는 지능형 시스템만큼 동등하게 유능한 새로운 시스템, 제품, 프레임워크, 방법들을 계속 개발하고 있습니다.
아난드 칸나판 (Anand Kannappan, 패트로너스 AI 공동 창업자)
기업들이 이미지를 해석하고, 문서에서 텍스트를 추출하며, 시각적 콘텐츠를 생성하는 AI 시스템 배포 경쟁에 나서면서 부정확성, 환각, 편견의 위험은 점점 커지고 있습니다.
패트로너스는 파운데이션 모델이 개선되더라도 복잡한 멀티모달 AI 시스템 평가의 어려움은 여전히 남아 있을 것이며, 점점 더 인간과 유사해지는 AI 결과물에 대한 공정한 심사관 역할을 할 전문 도구가 필요할 것이라고 보고 있습니다.
리스크가 큰 상업적 AI 배포의 세계에서, 이러한 디지털 심사위원들은 그들이 평가하는 모델만큼이나 귀중한 존재가 될 수 있습니다.
'🌐[기술]' 카테고리의 다른 글
토큰화란 무엇인가? AI 시대 데이터 보안의 핵심 기술 (0) | 2025.04.19 |
---|---|
젠레이어(GenLayer): AI 에이전트 거래, '다수결 LLM 투표'로 신뢰를 구축하다! (1) | 2025.04.18 |
GPT-4.1 등장 예고? OpenAI, GPT-4o 넘어 새로운 AI 모델 준비 중 (0) | 2025.04.14 |
넷플릭스, OpenAI 손잡고 'AI 검색' 테스트 돌입! 무엇이 달라지나? (1) | 2025.04.13 |
구글 · 엔비디아, 일리야 수츠케버의 SSI에 투자 단행! (AI 칩 경쟁 격화) (1) | 2025.04.13 |