Nathaniel

1-1. GPT-4o 멀티모달 모델로 이미지 인식하여 답변 출력 본문

AI

1-1. GPT-4o 멀티모달 모델로 이미지 인식하여 답변 출력

Nathaniel1 2025. 2. 25. 17:41

GPT-4o 모델로 이미지 인식시켜서 답변을 출력해보려고 한다.

GPT-4o는 이미지를 인식하는 기능이 들어가있다!

 

 

Image_url 주소에 이미지 주소값을 넣으면

Invoke 했을 때 출력되는 부분이 있는데 이때 사진의 표제목을 "LREM IPSUM DOLOR AMIS ENIMA ACCUMER TUNA"라고 읽어준다. OCR 기능이 제대로 작동 되고 있고, 그 외에 열 값에 해당하는 제목들을 읽어서 표에 해당하는 수치값들도 나타내준다. 

 

※ 참고 이미지는 가급적 고해상도의 이미지를 넣어주면 OCR 기능이 제대로 동작하여 해당 텍스트를 잘 읽어들이는 것을 느낄 수 있다.

 

이미지가 웹 주소로 되어있지 않고 로컬에서의 가진 이미지로 해당 Invoke를 받았을 때 아래와 같이 OCR 처리 하는 것을 볼 수 있다. 물론 전에 하던 것과 같이 잘 인식해서 사진의 텍스트를 잘 출력해준다.

 

이후 LangSmith를 들어가 트레이싱 해본 결과, 사용된 토큰 값들이 이전과 달리 많이 사용된 것을 볼 수 있다.

단순히 Question으로 텍스트만을 입력프롬프트로 주었을 때 출력되는 토큰 값들은 엄청 크지 않았는데

OCR 기능이 있는 사진 내부의 글자수를 읽고 수십 배는 토큰이 많이 사용됐다.

 

그리고 아래는 재무제표의 전문가의 System_prompt를 작성해서 AI에게 "너는 재무제표 도메인 전문가야"등등의 텍스트를 넣으면 답변해주는 AI는 해당 내용을 도메인에 관련해서 인지하게 되고 이후 User_prompt인 내가 물어볼 내용을 재무제표에 대한 사진, 텍스트를 넣었을 때 어떠한 형식으로 답변 줄 수 있는지와 어떻게 비교를 해줄 건지 넣으면 그거에 맞게 답변을 줄 수 있을 것이다.

 

 

PDF 문서나 docx 문서를 로더하지 않고, 단순히 사진 형태로 이미지 파일을 넣었을 때 보이는 영역들을 GPT가 답변 줄 것이다. 지금봐도 뭔가 신기하다.

 

 

물론 입력 토큰과 출력 토큰이 크긴 하지만, 이미지의 OCR 기능을 잘 해내고 있다는 것을 볼 수 있어 너무 좋은 것 같다.

LangSmith로 토큰 값 확인한 결과 이번엔 더 많은 토큰 값들이 측정 된 것을 볼 수 있다. Window text가 총 120k토큰이 나온 것을 확인할 수 있다.

 

 

간단하게 GPT-4o 이미지 인식 답변 출력을 해보았다. GPT-4o를 가지고 API 호출하여 이미지 인식하는 기능은 나름대로 재미 있는 것 같다.

 

 

'AI' 카테고리의 다른 글

4. Runnable(Passthrough, Parallel,Lambda)  (0) 2025.03.02
3. Langchain LCEL, Parallel  (4) 2025.03.02
RAG 코드 암기하기 D1  (0) 2025.02.26
2. Langchain → Chain 생성?  (0) 2025.02.26
1. OpenAI Langchain, RAG 학습  (0) 2025.02.25