
GPT-4o 는 claude opus 보다 성능이 뛰어나다고 주장합니다. 그래서 직접 테스트를 실행해 보았습니다: (출처 : X, 한글 번역)
테스트 #1 → 42페이지 분량의 PDF 분석
저는 둘에게 전체 PDF를 읽고 요약해 달라고 부탁했습니다.
처음에는 claude가 훌륭하게 해냈지만 그다음에는 완전히 환각 상태에 빠졌습니다:
제가 요청하지 않은 두 가지 단계를 제공했습니다:
> 5가지 중요한 사실(facts) list
> 학생과의 가상적(fictional) 토론
이제 GPT-4o를 살펴봅시다:
gpt-4o 제공:
> 요약
> 각 장의 상세 요약
정말 좋습니다.
그리고 너무 빨랐어요. 마치 groq처럼 느껴져요.
지난번 gpt-4에 물어봤을 때는 PDF에 대한 짧은 요약만 받았어요.
테스트 #1: GPT-4o가 이겼습니다.
그런 다음 구체적인 질문을 했습니다:
테스트 #2 → 특정 그래프 분석: "영국에서 AI 및 자동화에 대한 노출"
gpt-4o 제공:
> 두 패널에 대한 전체 설명
> 특정 백분위수 세부 정보
> 관찰 및 결론
그리고 bullet point 형식으로 제공됩니다. 읽기 쉽습니다.
claude는 어떤가요?
클라우드는 그래프에 대한 분석을 제공했지만
> 짧은 설명
> 짧은 관찰 및 결론
> bullet point 형식이 아닙니다.
테스트 #2: GPT-4o가 승리합니다.
이 그래프를 바탕으로 다른 테스트를 해보겠습니다:
gpt-4o가 동일한 인사이트가 담긴 그래프를 만들 수 있는지 알고 싶었습니다:
그리고 분명히 그렇지 않았습니다.
잘못된 데이터를 제공하고 단어를 만들어 냈습니다.
간단한 작업에서만 작동할 수 있습니다.
테스트 #4: 기사 작성
둘에게 PDF와 그래프를 바탕으로 기사를 작성해 달라고 요청했습니다:
gpt-4o는 > 각 부분의 제목 > 콜투액션 > SEO 키워드가 포함된 전체 기사를 제공했습니다.
claude는 더 짧은 기사를 제공했습니다: > 세부 정보가 적고 > SEO 키워드가 없습니다.
테스트 #4: gpt-4o가 다시 승리했습니다.
이제 테스트 #5:
PDF를 사용하여 링크드인 게시물을 요청했습니다.
두 서비스 모두 > 너무 긴 게시물 > 이모티콘 및 물음표를 제공했습니다.
저는 더 짧은 것을 요청했고 gpt-4o가 더 잘했습니다. claude는 여전히 그렇지 않았습니다.
테스트 #5: GPT-4o가 다시 승리.
이제 틱톡 스크립트를 작성할 수 있을까요?
대답은 '아니오'입니다.
그들의 생성은 끔찍합니다.
GPT-4o 스크립트는 "안녕 여러분"으로 시작하고 "안녕 거기"로 끝납니다.
이걸로는 아무 데도 갈 수 없습니다.
그래서 저는 Mr Beast 의 동영상을 템플릿으로 삼아 새 스크립트을 요청했습니다:
claude는 인터넷에 접속할 수 없습니다.
gpt-4o가 더 좋은 문구를 알려주었습니다: → "AI가 고용 시장을 뒤흔들고 있다".
하지만 실제로 동영상에서 대본을 가져왔는지는 잘 모르겠습니다.
그래도 원샷 예시를 사용하는 것이 훨씬 낫습니다.
이 모든 테스트에 대한 최종 결론입니다:
대부분의 테스트에서 gpt-4o가 claude 보다 더 나은 성능을 보였습니다.
엄청나게 빠르고 카피라이팅에 능숙합니다.
하지만 더 나아지려면 개선이 필요하고 더 많은 원샷 예제가 필요합니다.
일부 테스트에서는 여전히 거짓말을 하고 환각을 일으킵니다.
반응형
'논문&아티클 리뷰(LLM + RS)' 카테고리의 다른 글
LLM을 최적으로 사용하는 비결, OptLLM (0) | 2024.05.28 |
---|---|
Large Language Model(LLM)을 활용한 에이전트의 계획 수립 및 추론 능력에 대해 심도 있게 분석한 연구입니다. (0) | 2024.05.28 |
구글 I/O - 2024년 5월 15일 (0) | 2024.05.16 |
프롬프트 엔지니어링 방법 (0) | 2024.05.08 |
Two-Tower Networks and Negative Sampling in Recommender Systems (0) | 2024.05.07 |