GPT-4o 는 claude opus 보다 성능이 뛰어나다고 주장합니다. 그래서 직접 테스트를 실행해 보았습니다

GPT-4o 는 claude opus 보다 성능이 뛰어나다고 주장합니다. 그래서 직접 테스트를 실행해 보았습니다: (출처 : X, 한글 번역)

테스트 #1 → 42페이지 분량의 PDF 분석

저는 둘에게 전체 PDF를 읽고 요약해 달라고 부탁했습니다.

처음에는 claude가 훌륭하게 해냈지만 그다음에는 완전히 환각 상태에 빠졌습니다:

제가 요청하지 않은 두 가지 단계를 제공했습니다:

> 5가지 중요한 사실(facts) list

> 학생과의 가상적(fictional) 토론

이제 GPT-4o를 살펴봅시다:

gpt-4o 제공:

> 요약

> 각 장의 상세 요약

정말 좋습니다.

그리고 너무 빨랐어요. 마치 groq처럼 느껴져요.

지난번 gpt-4에 물어봤을 때는 PDF에 대한 짧은 요약만 받았어요.

테스트 #1: GPT-4o가 이겼습니다.

그런 다음 구체적인 질문을 했습니다:

테스트 #2 → 특정 그래프 분석: "영국에서 AI 및 자동화에 대한 노출"

gpt-4o 제공:

> 두 패널에 대한 전체 설명

> 특정 백분위수 세부 정보

> 관찰 및 결론

그리고 bullet point 형식으로 제공됩니다. 읽기 쉽습니다.

claude는 어떤가요?

클라우드는 그래프에 대한 분석을 제공했지만

> 짧은 설명

> 짧은 관찰 및 결론

> bullet point 형식이 아닙니다.

테스트 #2: GPT-4o가 승리합니다.

이 그래프를 바탕으로 다른 테스트를 해보겠습니다:

gpt-4o가 동일한 인사이트가 담긴 그래프를 만들 수 있는지 알고 싶었습니다:

그리고 분명히 그렇지 않았습니다.

잘못된 데이터를 제공하고 단어를 만들어 냈습니다.

간단한 작업에서만 작동할 수 있습니다.

테스트 #4: 기사 작성

둘에게 PDF와 그래프를 바탕으로 기사를 작성해 달라고 요청했습니다:

gpt-4o는 > 각 부분의 제목 > 콜투액션 > SEO 키워드가 포함된 전체 기사를 제공했습니다.

claude는 더 짧은 기사를 제공했습니다: > 세부 정보가 적고 > SEO 키워드가 없습니다.

테스트 #4: gpt-4o가 다시 승리했습니다.

이제 테스트 #5:

PDF를 사용하여 링크드인 게시물을 요청했습니다.

두 서비스 모두 > 너무 긴 게시물 > 이모티콘 및 물음표를 제공했습니다.

저는 더 짧은 것을 요청했고 gpt-4o가 더 잘했습니다. claude는 여전히 그렇지 않았습니다.

테스트 #5: GPT-4o가 다시 승리.

이제 틱톡 스크립트를 작성할 수 있을까요?

대답은 '아니오'입니다.

그들의 생성은 끔찍합니다.

GPT-4o 스크립트는 "안녕 여러분"으로 시작하고 "안녕 거기"로 끝납니다.

이걸로는 아무 데도 갈 수 없습니다.

그래서 저는 Mr Beast 의 동영상을 템플릿으로 삼아 새 스크립트을 요청했습니다:

claude는 인터넷에 접속할 수 없습니다.

gpt-4o가 더 좋은 문구를 알려주었습니다: → "AI가 고용 시장을 뒤흔들고 있다".

하지만 실제로 동영상에서 대본을 가져왔는지는 잘 모르겠습니다.

그래도 원샷 예시를 사용하는 것이 훨씬 낫습니다.

이 모든 테스트에 대한 최종 결론입니다:

대부분의 테스트에서 gpt-4o가 claude 보다 더 나은 성능을 보였습니다.

엄청나게 빠르고 카피라이팅에 능숙합니다.

하지만 더 나아지려면 개선이 필요하고 더 많은 원샷 예제가 필요합니다.

일부 테스트에서는 여전히 거짓말을 하고 환각을 일으킵니다.

출처: https://www.facebook.com/groups/agikr/permalink/2298286987179013/

'논문&아티클 리뷰(LLM + RS)' 카테고리의 다른 글

LLM을 최적으로 사용하는 비결, OptLLM (0)	2024.05.28
Large Language Model(LLM)을 활용한 에이전트의 계획 수립 및 추론 능력에 대해 심도 있게 분석한 연구입니다. (0)	2024.05.28
구글 I/O - 2024년 5월 15일 (0)	2024.05.16
프롬프트 엔지니어링 방법 (0)	2024.05.08
Two-Tower Networks and Negative Sampling in Recommender Systems (0)	2024.05.07

노력도 재능이다

GPT-4o 는 claude opus 보다 성능이 뛰어나다고 주장합니다. 그래서 직접 테스트를 실행해 보았습니다

'논문&아티클 리뷰(LLM + RS)' 카테고리의 다른 글

티스토리툴바

GPT-4o 는 claude opus 보다 성능이 뛰어나다고 주장합니다. 그래서 직접 테스트를 실행해 보았습니다

'논문&아티클 리뷰(LLM + RS)' 카테고리의 다른 글

'논문&아티클 리뷰(LLM + RS)' Related Articles

티스토리툴바