본문 바로가기

챗GPT, ChatGPT o1, o1-mini 사용법 및 총 정리(상세 설명)

hyunicecream 2024. 9. 13.

블로그 로고
블로그 로고

Summary

OpenAI에서 새롭게 출시한 o1 시리즈(o1, o1-preivew, o1-mini)는 기존 GPT 시리즈와 다른 새로운 시리즈입니다. o1은 복잡한 코딩, 수학적 추론, 브레인스토밍, 비교 분석 기능에 특화된 새로운 모델입니다. 
!모델 컨셉은 "사람처럼 생각하여 문제해결하기"입니다. 

1. OpenAI의 새로운 시리즈 o1 발표

링크 OpenAI 홈페이지 o1 원문 바로 보기

OpenAI에서 GPT와 다른 새로운 모델인 o1모델과 o1-mini 모델을 발표했습니다.

2. 챗GPT, ChatGPT o1이란?

o1 시리즈는 기존 모델들과는 다르게 '사람처럼 시간을 할애하여 생각하는 시간'을 가진다는 ⭐️특징⭐️이 있습니다.

<영어 원문>
We trained these models to spend more time thinking through problems before they respond, much like a person would. Through training, they learn to refine their thinking process, try different strategies, and recognize their mistakes.
<한국어 번역>
우리는 이 모델들이 사람이 하듯이 반응하기 전에 문제를 생각하는 데 더 많은 시간을 할애하도록 훈련시켰습니다. 그들은 훈련을 통해 사고 과정을 개선하고, 다양한 전략을 시도하고, 실수를 인식하는 법을 배웁니다.

'사람처럼 시간을 할애하여 생각하는 시간'이 부분은 사용법에서 왜 그런지 보여드리겠습니다.

마치 인간이 복잡한 문제를 해결할 때처럼, 다양한 전략을 시도하고 실수를 인식하며 사고 과정을 정제합니다. 이를 통해 과학, 코딩, 수학 분야에서 더욱 어려운 문제들을 해결할 수 있게 되었습니다.

3. o1, o1-mini 메시지 사용 횟수

o1과 o1-mini 모두 원하는 모델을 개인이 선택할 수 있으며,  o1의 경우 일주일에 50개의 메시지를, o1-mini의 경우에는 하루에 50개의 메시지를 사용하실 수 있습니다. 

ChatGPT Pro 요금제($200)의 경우 무제한으로 사용 가능합니다. 

  o1 o1-mini
메시지 사용 횟수 50개(일주일) 50개(하루)

4. o1, o1-mini 모델 선택 사용 가능 조건 

챗GPT(ChatGPT) Plus, Team, Pro 사용자만 사용이 가능합니다. 

챗GPT(ChatGPT) 무료 사용자는  o1-mini 모델을 추후에 사용할 수 있게 한다고 하지만, 날짜는 아직 확정되지 않았습니다. 

  Plus, Pro 사용자(유료) Team 사용자(유료) 무료 사용자
사용 여부 O O 예정

5. o1, o1-mini 사용법 및 예시

챗GPT(ChatGPT)에 들어가셔서 모델 선택을 누르시면 현재 새롭게 나온 모델을 선택하실 수 있습니다. 

모델 선택 화면
모델 선택 화면

5-1. o1, o1-mini 사용

예시: "아파트 게시판에 붙일 분리수거 방법에 대한 안내문이 필요하다"라고 요청해 보겠습니다.

모델 : ChatGPT o1

변경점 : 전과 다르게 "생각 중", "주요 안내사항 작성" 이런 식으로 요청에 따른 플로우를 쭉 보여줍니다. 

이게 처음에 OpenAI에서 o1을 소개할 때 말한 '사람처럼 시간을 할애하여 생각하는 시간'입니다.

o1 모델이 생각하는 중
o1 모델이 생각하는 중

답변은 전과 같이 답변을 해주지만,

특징이자 추가된 기능이 보시면 접기/펼치기 기능이 있고, 누르면 몇 초동안 생각했고 어떤 과정을 거쳐 생각했는지 볼 수 있습니다.

o1-preview 답변
o1 답변

예시: "아파트 게시판에 붙일 분리수거 방법에 대한 안내문이 필요하다"

모델 : ChatGPT o1-mini

o1-mini 답변
o1-mini 답변

o1-mini는 확실히 경량화 모델이라 속도가 빠릅니다. 그리고 생각이 짧네요.. 2초

5-2.  o1, o1-mini - 오류(엉뚱한 답변)

그리고 o1의 모델의 경우에 아직 오류가 있는 것 같습니다. 아직 미완성 같은 느낌을 줍니다.

엉뚱한 답변도 하는 것을 볼 수 있습니다.

o1-preview 오류
o1 오류

원문을 보면 OpenAI o1-mini가 더 빠르고 o1보다 80% 저렴한 추론 모델이라고 합니다.

코딩, 수학, 연구 등을 할 때 쓰면 좋다고 하니 관련 종사자분들은 써보시는 걸 추천드립니다.

이걸 통해 질문을 수정할 수도 있으니 전보다 정교하게 컨트롤할 수 있을 듯합니다. 

AI가 무섭긴 한데, 신기하면서 이걸 만든 OpenAI가 대단하네요. 개인적으로는 과정을 볼 수 있다는 게 좋습니다. 

6. o1-mini 장점, 특징 및 모델 성능 비교

OpenAI에서 따로 o1-mini관련 페이지를 만들 정도로 o1-mini모델을 밀고 있는 듯한 느낌이 듭니다. 좀 더 자세히 알아보겠습니다.

링크 OpenAI 홈페이지 원문 바로 보기

OpenAI의 모델의 성능을 비교하는 그래프들입니다. 각 이미지에 대해 자세히 설명해 드리겠습니다.

<모델 비교>

Math Performance vs Inference Cost
Math Performance vs Inference Cost

Math Performance 고난도 수학 문제를 푸는 능력을 측정합니다.

Inference Cost → 모델을 실행하는 데 필요한 컴퓨팅 자원의 비용을 나타냅니다. 낮을수록 효율적입니다.

모델 수학 성능(AIME) 추론 비용(%)
o1 75% 100%
o1-mini 70% 25%
o1-preview 45% 50%
GPT-4o 10% 1%
GPT-4o mini 5% <1%

전반적으로 o1이 가장 높고, GPT-4o모델 들이 상대적으로 낮습니다. 비용은 GPT-4o mini가 가장 효율적입니다. 

<벤치마크에서의 모델 성능 비교>

Codeforces, HumanEval, Cybersecurity CTFs 성능 비교
Codeforces, HumanEval, Cybersecurity CTFs 성능 비교

세 가지 벤치마크에서 o1-mini, o1-preview, GPT-4o 모델의 성능을 비교합니다.

Codeforces Elo  프로그래밍 대회 플랫폼에서의 성능을 나타내는 점수 시스템입니다.

HumanEval  코딩 능력을 평가하는 벤치마크입니다.

Cybersecurity CTFs  사이버 보안 관련 문제 해결 능력을 측정합니다.

벤치마크 o1-mini o1-preview GPT-4o
Codeforces (Elo) 1650 1258 900
HumanEval (정확도 %) 92.4% 92.4% 92.2%
Cybersecurity CTFs (정확도 %) 28.7% 43% 20%

전반적으로 o1-mini와 o1-preview가 대부분의 벤치마크에서 GPT-4o보다 우수한 성능을 보입니다.

<MMLU, GPQA, MATH-500 벤치마크 성능 비교>

MMLU, GPQA, MATH-500 벤치마크 성능 비교
MMLU, GPQA, MATH-500 벤치마크 성능 비교

  • MMLU (Massive Multitask Language Understanding)
    • 다양한 학문 분야에 걸친 광범위한 지식을 평가하는 벤치마크입니다.
    • 인문학, 사회과학, STEM, 의학 등 57개 과목을 포함합니다.
    • 각 과목에 대한 다지선다형 문제로 구성되어 있어, AI의 지식과 이해도를 측정합니다.
  • GPQA (Grade School Prealgebra Questions and Answers)
    • 초등학교 수준의 대수학 전 단계 수학 문제를 다루는 벤치마크입니다.
    • 기본적인 수학적 추론 능력과 문제 해결 능력을 평가합니다.
    • 일상생활에서 마주치는 실용적인 수학 문제들을 포함합니다.
  • MATH-500
    • 고등학교 수준의 수학 문제를 다루는 벤치마크입니다.
    • 대수학, 기하학, 미적분학 등 다양한 수학 분야의 문제를 포함합니다.
    • 단순한 계산을 넘어 복잡한 수학적 추론과 문제 해결 능력을 평가합니다.
벤치마크 GPT-4o o1-mini o1-preview o1
MMLU 88.7% 85.2% 90.8% 92.3%
GPQA 53.6% 60% 73.3% 77.3%
MATH-500 60.3% 90% 85.5% 94.8%

전반적으로 o1 모델이 모든 벤치마크에서 최고 성능을 보이며, o1-mini와 o1-preview도 대부분의 경우 GPT-4o보다 우수한 성능을 보입니다.

< Human preference evaluation vs chatgpt-4o-latest>

Human preference evaluation vs chatgpt-4o-latest
Human preference evaluation vs chatgpt-4o-latest

Human preference evaluation → 인간이 어떤 AI 모델의 결과를 선호하는지 나타냅니다. 

다음 표는 o1-preview와 o1-mini 모델을 GPT-4o와 비교한 인간 선호도 평가 결과를 보여줍니다.

도메인 o1-preview o1-mini
수학적 계산 72% 70%
데이터 분석 60% 65%
컴퓨터 프로그래밍 60% 58%
텍스트 편집 50% 48%
개인 글쓰기 48% 46%

7. o1-preview vs o1-mini vs GPT-4o 답변 생성 시간 비교

OpenAI에서 답변을 생성할 때 얼마나 시간이 걸리는지 측정해 보니, GPT-4o가 가장 적고, o1-preview가 긴 것을 알 수 있습니다. 

아무래도 추론을 할 때 AI가 사람처럼 생각하는 시간을 갖는다고 했으니 o1이 GPT-4o보다 오래 걸리는 것 같네요

답변 생성 시간 비교
답변 생성 시간 비교

8. o1-preview, o1-mini API 사용자

API 사용 Tier 5에 해당하는 두 모델을 사용할 수 있다고 합니다.

링크 OpenAI Docs에서 확인하기

사용 등급 5 모델 목록
사용 등급 5 모델 목록

모델의 학습 날짜나, 토큰관련해서 보고 싶으신 분들은 링크를 참고하시면 됩니다.

링크 OpenAI Docs 모델 확인하기

OpenAI 홈페이지 모델
OpenAI 홈페이지 모델

9. o1 - 한국어 암호화 해독 (재미요소 )

OpenAI Youtube 공식홈페이지에 한국어 암호화 이런 식으로 올라와 있길래 내용이 재밌어서 공유드립니다.

참고로 출연하시는 남자분은 OpenAI에서 일하시는 한국분이라고 하십니다.👍🏻

링크  Korean Cipher with OpenAI o1 바로 보러 가기

Korean Cipher with OpenAI o1
Korean Cipher with OpenAI o1

재미로 보세요.

한국인만 알아보는 한국어
한국인만 알아보는 한국어
한국인만 알아보는 한국어2
한국인만 알아보는 한국어2
한국인만 알아보는 한국어3
한국인만 알아보는 한국어3

10. 출시 예정 기능 및 SearchGPT 출시 임박

모델 업데이트 외에도 브라우징, 파일 및 이미지 업로드 등 더 많은 기능을 추가한다고 합니다. 

그리고 브라우징은 SearchGPT일 것 같네요. 언제일지 모르지만 곧 나올 것 같네요. 

Beta 테스터도 모집했으니깐, 아마 그거 기간 끝나고 출시하지 않을까 싶습니다. 

SearchGPT(서치GPT)에 대해 잘 모르시는 분들은 제가 쓴 글 중에 SeachGPT 글도 보시면 좋을 것 같습니다.

마지막으로, 기존의 GPT 시리즈와 함께 새로운 OpenAI o1 시리즈 모델도 계속 개발하고 출시할 예정이라고 합니다.

즉, GPT, o1 시리즈 2개로 가겠다는 의미인 것 같습니다. 👍🏻

아래 내용도 한 번 보시면 좋을 것 같습니다.

 

GPT-4o vs o1 차이 및 프롬프트 사용법 가이드 - 예시

SummaryGPT 모델 : 입력에 대한 모든 사고 과정을 외부로 표현할 수 있으며, 복잡한 지시를 잘 처리합니다.o1 모델 : 내부적으로 추론 과정을 처리하며, 답변을 간결하게 도출하여 불필요한 데이터가

hyunicecream.tistory.com

 

댓글