현지 LLM은 ChatGPT 또는 Gemini를 대체할 수 없습니다:내 경험

AI와 기술의 새로운 발전을 따라가면 수많은 기술 영향력 있는 사람들이 로컬 대규모 언어 모델(LLM) 설정을 추천하는 것을 본 적이 있을 것입니다. 개인 정보 보호에 초점을 맞춘 LLM이 내 PC에서 완전히 실행된다는 아이디어를 들었을 때 나는 흥분하여 즉시 사용해 보았습니다. 문제는 다음과 같습니다. 로컬 LLM은 매우 특정한 사용 사례에서 이점을 제공하지만 워크스테이션에서 실행되는 동안 ChatGPT나 다른 대형 기술 AI를 대체할 수는 없습니다. 이유를 설명하겠습니다…

로컬 LLM과 ChatGPT:현실 점검

가장 먼저 직면하게 될 병목 현상은 하드웨어 제한입니다. 저는 64GB 3200MHz RAM과 1TB가 넘는 빠른 스토리지를 갖춘 2개의 NVMe M.2 SSD를 갖춘 Dell Latitude 5520 노트북을 소유하고 있는 게임을 하지 않는 일반적인 노트북 사용자입니다. 하지만 이 야구장에 있는 대부분의 워크스테이션에는 전용 GPU가 없거나 저가형 GPU가 기본적으로 장착되어 있습니다.

로컬 LLM을 실행할 때 중요한 점은 RAM과 스토리지에 덜 의존하고 PC의 컴퓨팅 성능, 즉 CPU와 GPU에 더 많이 의존한다는 것입니다. 따라서 Intel 통합 그래픽을 탑재한 내 i7 프로세서는 더 큰 다중 모드 모델을 실행할 수 없습니다. 다행히 lfm2.5-thinking:1.2b와 같은 옵션이 여전히 많았습니다. , ministral-3:3b 및 화강암4:3b , 더 인기 있는 llama3과 함께 및 phi3 모델.

현지 LLM은 ChatGPT 또는 Gemini를 대체할 수 없습니다:내 경험

이제 비교를 원근감 있게 하기 위해 수학을 해보겠습니다. lfm2.5 본질적으로 작은 언어 모델(SLM)인 이 모델은 저와 같은 일반 PC에서 실행되는 두 가지 큰 제한 사항이 있습니다. 즉, 컴퓨팅 성능이 매우 낮고 SLM 자체의 매개 변수 개수(브레인)가 더 적다는 것입니다. 이에 비해 ChatGPT와 같은 클라우드 LLM은 문자 그대로 슈퍼컴퓨터에서 실행되는 동안 테라바이트 규모의 데이터를 몇 초 만에 처리합니다.

수학식을 염두에 두고 로컬 lfm2.5-thinking:1.2b의 일부 응답을 살펴보겠습니다. ChatGPT의 무료 버전도 있습니다. 한계를 보여준 후 로컬 SLM이 실제로 상용 LLM보다 뛰어난 사용 사례도 살펴보겠습니다.

논리 테스트:로컬 LLM이 실패한 곳

참고: 이 비교의 목적은 로컬 LLM을 비난하는 것이 아닙니다. 고급 PC에 설정된 로컬 LLM은 놀라운 일을 할 수 있습니다. 하지만 제 의도는 저와 같은 일반 사용자에게 중저급 PC에서 실행되는 현지 언어 모델은 ChatGPT나 Gemini와 비교할만한 결과를 생성하지 못한다는 것을 보여주는 것입니다.

1. "퀴즈 무효" 프롬프트:

작은 모델에는 전체 Wikipedia 데이터베이스를 저장할 수 있는 매개변수 수가 없습니다. 구체적인 역사적 사실을 물어보면 "모르겠어요"라고 대답하지 않을 것입니다. 아마도 환각에 빠질 가능성이 높습니다.

로컬 LLM:잘못된 환각적인 답변

ChatGPT:정답

2. "신호음 실패" 프롬프트:

소규모 지역 모델은 일반적으로 감정적인 뉘앙스 때문에 어려움을 겪습니다. 그들은 인간의 사회적 품위를 파악하기에 충분한 매개 변수가 없기 때문에 공격적인 로봇 출력과 지나치게 수동적인 출력 사이에서 격렬하게 흔들리는 경향이 있습니다.

현지 LLM :너무 가혹하고 무뚝뚝함

ChatGPT:완벽하지는 않지만 통과 가능

3. "뒤섞인 입력 실패" 프롬프트:

우리는 항상 쿼리의 형식을 신중하게 지정하고 구조화하지는 않습니다. 지역 SLM은 구조화된 응답을 제공하기 위해 구조화된 프롬프트가 필요합니다. 그렇지 않으면 모든 것을 망칠 뿐입니다.

현지 LLM :너무 모호하고 도움이 되지 않음

ChatGPT:상세한 단계별 솔루션

4. "'내가 X인 것처럼 설명하세요' 실패" 프롬프트:

복잡한 추상 개념을 완전히 관련되지 않은 주제에 매핑하려면 엄청난 컴퓨팅 성능이 필요합니다. 작은 모델은 서로 다른 두 도메인을 병합하려고 할 때 플롯을 잃는 경우가 많습니다.

현지 LLM :말이 안 돼요

ChatGPT:비유의 올바른 사용

5. "컨텍스트 무효" 프롬프트:

모호한 기술 질문을 하면 클라우드 모델은 방대한 교육 데이터를 사용하여 가장 일반적인 최신 솔루션을 추측합니다. 소규모 지역 모델은 대부분 일반적이고 시대에 뒤떨어진 조언을 제공합니다.

현지 LLM :일반 솔루션

ChatGPT:문제 해결 가능성이 훨씬 더 높음

'컨텍스트' 문제

대화가 단지 몇 가지 질문보다 더 오래 지속될 때 로컬 SLM 설정과 관련된 또 다른 주요 문제가 나타났습니다. 역시 64GB 램이면 충분했지만 처리능력이 주된 병목현상이었습니다. 팬이 매우 크게 회전하기 시작했고 노트북이 뜨거워졌으며 Ollama는 응답하는 데 훨씬 더 오랜 시간이 걸리기 시작했고 때로는 얼어붙기도 했습니다. 따라서 PC가 녹는 것을 방지하기 위해 로컬 AI 앱은 모델의 메모리를 크게 제한합니다.

ChatGPT 또는 Gemini와 긴 대화를 나누는 데 익숙하다면 이 문제는 엄청난 문제가 될 수 있습니다. 확실히 저에게는 문제였습니다. 앞서 논의한 바와 같이 이러한 클라우드 LLM은 최첨단 GPU로 구동되는 초고속 서버에서 실행되므로 대규모 컨텍스트 창을 쉽게 처리할 수 있는 기능을 제공합니다.

로컬 AI가 실제로 승리할 때

이 시점에서 현지 LLM이 사실상 쓸모없다고 생각할 수도 있지만 실제로 매우 유용한 상황이 많이 있습니다. 다음은 몇 가지 예입니다:

'디지털 금고'(완전한 개인 정보 보호)

이미지 출처:Freepik AI

ChatGPT 또는 Gemini 서버에 업로드하고 싶지 않은 기밀 문서를 작업하는 경우 로컬 LLM이 해당 파일을 처리하기 위한 100% 비공개 솔루션입니다. 또는 "AI의 응답을 개선"하기 위해 인간 조정자가 귀하의 사적인 문제를 읽는 것에 대해 걱정하지 않고 간단히 개인적인 문제에 대해 이야기할 수도 있습니다.

'비행기 모드' 도우미

클라우드 AI가 작동하려면 지속적인 인터넷 연결이 필요합니다. 세계 대부분 지역의 안정적인 연결 덕분에 일반적으로 문제가 되지 않습니다. 그러나 인터넷을 사용할 수 없거나 단순히 연결하고 싶지 않은 상황이 있습니다. 그럴 때 현지 LLM이 문제를 해결할 수 있습니다.

필터링되지 않은 창의적인 작가

대부분의 상용 AI 챗봇은 대중에게 적합하도록 필터링된 경험을 제공합니다. 범죄 소설과 같은 창의적인 프로젝트를 진행하는 경우 이는 특히 쇠약해질 수 있습니다. 모든 무료 언어 모델이 이러한 종류의 필터링되지 않은 응답을 제공하는 것은 아니지만 시도해 볼 수 있는 일부 검열되지 않은 응답이 있습니다.

진정한 '비용 제로' 비서

이미지 출처:Freepik AI

Ollama 또는 GPT4ALL과 같은 앱을 설정하면 진정한 구독료가 필요 없는 무제한 솔루션을 얻을 수 있습니다. 귀찮은 일일 한도에 도달하지 않고도 원하는 만큼 사용할 수 있습니다. 논의된 로컬 SLM 설정의 제한 사항 내에서 기대치를 유지한다면 프리미엄 AI 구독 전체가 아닌 적어도 일부를 버리는 것이 좋은 방법입니다.

궁극의 역할극 솔루션

일부 터미널 명령을 다루는 데 능숙하다면 잠재적으로 로컬 LLM을 사용자 정의하여 주제 전문가 역할을 할 수 있습니다. 예를 들어 콘텐츠 편집자, 카피라이터, 법률 컨설턴트 또는 말 그대로 원하는 모든 전문가처럼 행동하도록 만들 수 있습니다.

개인 웹 어시스턴트

이것은 약간 고급 사용 사례이지만 로컬 LLM을 Harpa AI와 같은 웹 보조 브라우저 확장에 연결할 수 있습니다. 이렇게 하면 Perplexity Comet과 같은 프리미엄 제품이 제공하는 개인정보 보호에 초점을 맞춘 오프라인 AI 브라우저 경험을 얻을 수 있습니다. 및 ChatGPT 아틀라스 종종 기업 데이터 감시를 제공합니다.

하이브리드 설정이 진짜 답인 이유

여러분과 공유한 이 모든 경험을 통해 저는 하이브리드 AI 설정이 가장 좋은 방법이라는 결론에 도달했습니다. 개인적인 경험이 필요할 때마다 즉시 사용할 수 있는 로컬 SLM을 준비하는 것이 유용합니다. 그러나 범용적이고 연구가 많은 작업에는 Gemini Pro를 사용하는 것을 선호합니다. 이렇게 하면 두 가지 놀라운 기술을 모두 활용하여 두 가지 장점을 최대한 활용할 수 있습니다.

그건 그렇고, Ollama와 GPT4ALL이 유일한 옵션은 아닙니다. Open WebUI는 로컬 LLM을 설정하는 또 다른 쉬운 방법입니다.