챗GPT, ChatGPT o1, o1-mini 사용법 및 총 정리(상세 설명)

Summary

OpenAI에서 새롭게 출시한 o1 시리즈(o1, o1-preivew, o1-mini)는 기존 GPT 시리즈와 다른 새로운 시리즈입니다. o1은 복잡한 코딩, 수학적 추론, 브레인스토밍, 비교 분석 기능에 특화된 새로운 모델입니다.
!모델 컨셉은 "사람처럼 생각하여 문제해결하기"입니다.

1. OpenAI의 새로운 시리즈 o1 발표

링크 OpenAI 홈페이지 o1 원문 바로 보기

OpenAI에서 GPT와 다른 새로운 모델인 o1모델과 o1-mini 모델을 발표했습니다.

2. 챗GPT, ChatGPT o1이란?

o1 시리즈는 기존 모델들과는 다르게 '사람처럼 시간을 할애하여 생각하는 시간'을 가진다는 ⭐️특징⭐️이 있습니다.

<영어 원문>
We trained these models to spend more time thinking through problems before they respond, much like a person would. Through training, they learn to refine their thinking process, try different strategies, and recognize their mistakes.
<한국어 번역>
우리는 이 모델들이 사람이 하듯이 반응하기 전에 문제를 생각하는 데 더 많은 시간을 할애하도록 훈련시켰습니다. 그들은 훈련을 통해 사고 과정을 개선하고, 다양한 전략을 시도하고, 실수를 인식하는 법을 배웁니다.

'사람처럼 시간을 할애하여 생각하는 시간'이 부분은 사용법에서 왜 그런지 보여드리겠습니다.

마치 인간이 복잡한 문제를 해결할 때처럼, 다양한 전략을 시도하고 실수를 인식하며 사고 과정을 정제합니다. 이를 통해 과학, 코딩, 수학 분야에서 더욱 어려운 문제들을 해결할 수 있게 되었습니다.

3. o1, o1-mini 메시지 사용 횟수

o1과 o1-mini 모두 원하는 모델을 개인이 선택할 수 있으며, o1의 경우 일주일에 50개의 메시지를, o1-mini의 경우에는 하루에 50개의 메시지를 사용하실 수 있습니다.

ChatGPT Pro 요금제($200)의 경우 무제한으로 사용 가능합니다.

	o1	o1-mini
메시지 사용 횟수	50개(일주일)	50개(하루)

4. o1, o1-mini 모델 선택 사용 가능 조건

챗GPT(ChatGPT) Plus, Team, Pro 사용자만 사용이 가능합니다.

챗GPT(ChatGPT) 무료 사용자는 o1-mini 모델을 추후에 사용할 수 있게 한다고 하지만, 날짜는 아직 확정되지 않았습니다.

	Plus, Pro 사용자(유료)	Team 사용자(유료)	무료 사용자
사용 여부	O	O	예정

5. o1, o1-mini 사용법 및 예시

챗GPT(ChatGPT)에 들어가셔서 모델 선택을 누르시면 현재 새롭게 나온 모델을 선택하실 수 있습니다.

5-1. o1, o1-mini 사용

예시: "아파트 게시판에 붙일 분리수거 방법에 대한 안내문이 필요하다"라고 요청해 보겠습니다.

모델 : ChatGPT o1

변경점 : 전과 다르게 "생각 중", "주요 안내사항 작성" 이런 식으로 요청에 따른 플로우를 쭉 보여줍니다.

이게 처음에 OpenAI에서 o1을 소개할 때 말한 '사람처럼 시간을 할애하여 생각하는 시간'입니다.

답변은 전과 같이 답변을 해주지만,

특징이자 추가된 기능이 보시면 접기/펼치기 기능이 있고, 누르면 몇 초동안 생각했고 어떤 과정을 거쳐 생각했는지 볼 수 있습니다.

예시: "아파트 게시판에 붙일 분리수거 방법에 대한 안내문이 필요하다"

모델 : ChatGPT o1-mini

o1-mini는 확실히 경량화 모델이라 속도가 빠릅니다. 그리고 생각이 짧네요.. 2초

5-2. o1, o1-mini - 오류(엉뚱한 답변)

그리고 o1의 모델의 경우에 아직 오류가 있는 것 같습니다. 아직 미완성 같은 느낌을 줍니다.

엉뚱한 답변도 하는 것을 볼 수 있습니다.

원문을 보면 OpenAI o1-mini가 더 빠르고 o1보다 80% 저렴한 추론 모델이라고 합니다.

코딩, 수학, 연구 등을 할 때 쓰면 좋다고 하니 관련 종사자분들은 써보시는 걸 추천드립니다.

이걸 통해 질문을 수정할 수도 있으니 전보다 정교하게 컨트롤할 수 있을 듯합니다.

AI가 무섭긴 한데, 신기하면서 이걸 만든 OpenAI가 대단하네요. 개인적으로는 과정을 볼 수 있다는 게 좋습니다.

6. o1-mini 장점, 특징 및 모델 성능 비교

OpenAI에서 따로 o1-mini관련 페이지를 만들 정도로 o1-mini모델을 밀고 있는 듯한 느낌이 듭니다. 좀 더 자세히 알아보겠습니다.

링크 OpenAI 홈페이지 원문 바로 보기

OpenAI의 모델의 성능을 비교하는 그래프들입니다. 각 이미지에 대해 자세히 설명해 드리겠습니다.

<모델 비교>

Math Performance → 고난도 수학 문제를 푸는 능력을 측정합니다.

Inference Cost → 모델을 실행하는 데 필요한 컴퓨팅 자원의 비용을 나타냅니다. 낮을수록 효율적입니다.

모델	수학 성능(AIME)	추론 비용(%)
o1	75%	100%
o1-mini	70%	25%
o1-preview	45%	50%
GPT-4o	10%	1%
GPT-4o mini	5%	<1%

전반적으로 o1이 가장 높고, GPT-4o모델 들이 상대적으로 낮습니다. 비용은 GPT-4o mini가 가장 효율적입니다.

<벤치마크에서의 모델 성능 비교>

Codeforces, HumanEval, Cybersecurity CTFs 성능 비교

세 가지 벤치마크에서 o1-mini, o1-preview, GPT-4o 모델의 성능을 비교합니다.

Codeforces Elo → 프로그래밍 대회 플랫폼에서의 성능을 나타내는 점수 시스템입니다.

HumanEval → 코딩 능력을 평가하는 벤치마크입니다.

Cybersecurity CTFs → 사이버 보안 관련 문제 해결 능력을 측정합니다.

벤치마크	o1-mini	o1-preview	GPT-4o
Codeforces (Elo)	1650	1258	900
HumanEval (정확도 %)	92.4%	92.4%	92.2%
Cybersecurity CTFs (정확도 %)	28.7%	43%	20%

전반적으로 o1-mini와 o1-preview가 대부분의 벤치마크에서 GPT-4o보다 우수한 성능을 보입니다.

<MMLU, GPQA, MATH-500 벤치마크 성능 비교>

MMLU (Massive Multitask Language Understanding)
- 다양한 학문 분야에 걸친 광범위한 지식을 평가하는 벤치마크입니다.
- 인문학, 사회과학, STEM, 의학 등 57개 과목을 포함합니다.
- 각 과목에 대한 다지선다형 문제로 구성되어 있어, AI의 지식과 이해도를 측정합니다.
GPQA (Grade School Prealgebra Questions and Answers)
- 초등학교 수준의 대수학 전 단계 수학 문제를 다루는 벤치마크입니다.
- 기본적인 수학적 추론 능력과 문제 해결 능력을 평가합니다.
- 일상생활에서 마주치는 실용적인 수학 문제들을 포함합니다.
MATH-500
- 고등학교 수준의 수학 문제를 다루는 벤치마크입니다.
- 대수학, 기하학, 미적분학 등 다양한 수학 분야의 문제를 포함합니다.
- 단순한 계산을 넘어 복잡한 수학적 추론과 문제 해결 능력을 평가합니다.

벤치마크	GPT-4o	o1-mini	o1-preview	o1
MMLU	88.7%	85.2%	90.8%	92.3%
GPQA	53.6%	60%	73.3%	77.3%
MATH-500	60.3%	90%	85.5%	94.8%

전반적으로 o1 모델이 모든 벤치마크에서 최고 성능을 보이며, o1-mini와 o1-preview도 대부분의 경우 GPT-4o보다 우수한 성능을 보입니다.

< Human preference evaluation vs chatgpt-4o-latest>

Human preference evaluation → 인간이 어떤 AI 모델의 결과를 선호하는지 나타냅니다.

다음 표는 o1-preview와 o1-mini 모델을 GPT-4o와 비교한 인간 선호도 평가 결과를 보여줍니다.

도메인	o1-preview	o1-mini
수학적 계산	72%	70%
데이터 분석	60%	65%
컴퓨터 프로그래밍	60%	58%
텍스트 편집	50%	48%
개인 글쓰기	48%	46%