LLM 서비스 설계와 최적화

kea1***l2025-05-08

한빛미디어 서평단 <나는 리뷰어다> 활동을 위해서 책을 협찬 받아 작성된 서평입니다.

LLM 서비스 설계와 최적화 - 저자: 슈레야스 수브라마니암
번역 : 김현준, 박은주

생성형 AI와 LLM은 복잡한 작업을 수행하기 때문에 상당한 컴퓨팅 자원이 필요하다. 방대한 컴퓨팅 자원 수요를 해결하기 위해 기술을 도입하는 비용은 조직에게 부담이 된다. 실제로 책에서 말하는 바에 따르면 최첨단 AI 모델 훈련비용이 2016년 이후 매년 2.4배씩 증가하고 있다고 한다. 현재 가장 비용이 많이 든 공개 모델은 우리가 익히 잘아는 GPT-4와 구글의 Gemini Ultra이다. 모델 서비스를 유지하는데도 상당한 비용이 든다. 오픈 AI는 모델 서비스를 유지하는데 하루에 70만 달러를 사용한다고 한다.

따라서, LLM 서비스를 도입하고자 하는 기업에게는 비용 최적화가 가장 중요한 과제가 된다. 이 책에서 가장 재미있게 읽었던 3장은 LLM에 중점을 두고 추론 비용을 최적화하는 다양한 기술을 소개한다. 그중에서 한가지가 바로 프롬프트 엔지니어링이다. 프롬프트에 대한 이해도는 작업의 성능과 비용에 큰 영향을 미친다고 한다.

프롬프트 엔지니어링은 LLM과 상호작용할 때 중심이 되는 기법으로, 모델이 원하는 출력을 생성할 수 있도록 프롬프트를 구성하는 것을 말한다.

프롬프트와 모델의 응답에서 사용하는 각 단어나 토큰은 비용을 발생시키는데, 오픈 AI의 GPT-4o는 입력 100만 토큰당 2.50달러이고, 출력은 동일 토큰에 10달러의 비용이 든다. 이를 추정하기 위해 라이브러리 tiktoken을 활용할 수 있는데, 책에서는 예시로 요청을 보내고 tiktoken을 통해 요청의 비용을 계산하는 과정이 소개되어 있다. GPT를 사용하기만 하고, 비용에 대해서는 고려하지 않았는데 응답 한번에 상당한 비용이 소모된다는 점을 배웠다.

프롬프트 엔지니어링을 위해, 복잡한 질문을 더 간단한 질문 여러 개로 분해하면 조정하기 편한 응답을 얻을 수 있다. 각 질문을 순서대로 하면서, LLM이 이전 답변을 기반으로 논리적인 순서로 정보를 탐색하도록 하는 것이다. 예를 들면, 단순히 당뇨병에 대해 설명을 요구하지 않고, 당뇨병에 대한 간단한 설명 - 종류 - 세분화된 증상 - 진단 방법 - 치료 방법 순으로 질문하게 되면 사용자가 원하는 핵심적인 답변을 얻을 수 있다.

또는 컨텍스트를 제공해서 LLM이 정확한 응답을 할 수 있도록 만드는 방법도 있다. LLM이 사용자의 요구사항을 잘 이해하도록 프롬프트에 추가정보를 제공하는 것이다. 이외에도 LLM의 성능과 비용을 최적화하는 다양한 기술들이 있으며, 책에서는 코드를 통해 예시를 직접 보여준다.

LLM 서비스 구축에 관심 있는 사람이라면 꼭 읽어보아야 할 책이다. 이 책의 주제인 비용 최적화를 위해 모델을 선택하는 과정과, 모델을 배포할 때 드는 비용과 성능에서 고려할 사항들이 다음 장에 소개된다. 설명으로 끝나지 않고, 각각의 선택지를 선택했을 때의 장단점과 예시들이 그림이나 표로 이해하기 쉽게 정리되어 있어서 각각의 모델과 배포 방법을 선택하는데 큰 도움이 될 것이다.

#LLM #최적화 #비용최적화 #AI서비스구축 #인프라 #배포튜닝 #한빛미디어 #LLM서비스설계와최적화