본문 바로가기
주식관련/산업 동향

구글 Gemini 1.5 : AI 모델 업데이트 및 새로운 기능 소개 (구글 2024 I/O)

by 인스360 2024. 5. 16.
반응형

2023년 12월, 구글은 최초의 멀티모달 모델인 Gemini 1.0을 출시했습니다. 이후 몇 개월 만에 향상된 성능과 획기적인 100만 토큰의 긴 컨텍스트 창을 갖춘 1.5 Pro를 선보였습니다. 사용자들의 피드백을 바탕으로 더 빠른 속도와 효율성을 제공하는 Gemini 1.5 Flash 모델을 새롭게 출시하였습니다. 또한, Gemini 제품군 전반에 걸친 업데이트와 차세대 오픈 모델인 Gemma 2, AI 비서의 미래를 위한 Project Astra의 진행 상황도 공유하였습니다.

▤ 목차

    I.  Gemini 1.5 모델 제품군 업데이트

     

    1. Gemini 1.5 Flash: 속도와 효율성에 최적화된 모델

    Gemini 1.5 Flash는 Gemini 모델 제품군의 최신 모델이자 API에서 가장 빠른 속도를 자랑합니다. 대규모 작업에 최적화되었으며, 비용 효율적이고 획기적인 긴 컨텍스트 창을 특징으로 합니다. 1.5 Pro보다 가벼운 모델이지만 방대한 정보를 멀티모달 추론하고 뛰어난 품질을 제공합니다.

    • 주요 기능:
      • 요약
      • 채팅 애플리케이션
      • 이미지 및 비디오 캡션 생성
      • 긴 문서 및 표에서 데이터 추출 등
    • Gemini 기술 페이지: 1.5 Flash에 대한 자세한 내용은 Gemini 기술 페이지에서 확인할 수 있습니다.

    2. Gemini 1.5 Pro: 성능 대폭 향상

    지난 몇 개월 동안 구글은 다양한 작업에서 최고의 성능을 발휘하는 1.5 Pro 모델을 대폭 개선했습니다. 컨텍스트 창을 200만 토큰으로 확장했을 뿐만 아니라 코드 생성, 논리적 추론 및 계획, 멀티턴 대화, 오디오 및 이미지 이해 기능을 향상시켰습니다. 1.5 Pro는 이제 더욱 복잡하고 미묘한 지시를 따를 수 있으며, 특정 사용 사례에 대한 모델 응답 제어 기능도 향상되었습니다.

    3. Gemini Nano: 멀티모달 입력 이해

    Gemini Nano는 텍스트 전용 입력을 넘어 이미지 입력도 지원합니다. Pixel을 시작으로 멀티모달 Gemini Nano를 사용하는 애플리케이션은 텍스트뿐만 아니라 시각, 청각 및 음성 언어를 통해 세상을 이해할 수 있습니다.

     

     

     
     

     II.  구글의 차세대 오픈 모델 Gemma 2: AI 혁신을 위한 새로운 발걸음

     

     

    구글은 AI 기술 발전을 선도하며, Gemini 모델을 기반으로 하는 오픈 모델 제품군인 Gemma를 통해 AI 혁신을 위한 노력을 지속하고 있습니다. Gemma는 개발자들이 AI 모델을 자유롭게 활용하고 발전시킬 수 있도록 지원하며, 다양한 분야에서 AI 기술 적용을 확대하는 데 기여하고 있습니다.

     

    1. Gemma 2: 획기적인 성능과 효율성 향상

     

    Gemma 2는 Gemma 제품군의 최신 모델로, 획기적인 성능과 효율성을 위해 새롭게 설계된 아키텍처를 기반으로 합니다. 이를 통해 Gemma 2는 이전 모델보다 더욱 빠르고 효율적인 AI 모델 개발 및 활용을 가능하게 합니다. 또한, 다양한 크기로 제공되어 사용자들은 필요에 따라 적합한 모델을 선택할 수 있습니다.

     

    2. PaliGemma: 최초의 비전 언어 모델

     

    Gemma 제품군은 텍스트 기반 모델뿐만 아니라 이미지와 텍스트를 함께 이해하는 멀티모달 모델 개발에도 힘쓰고 있습니다. PaliGemma는 Gemma 제품군 최초의 비전 언어 모델로, PaLI-3에서 영감을 받아 개발되었습니다. 이미지와 텍스트를 함께 이해하고 처리하는 능력을 갖춘 PaliGemma는 이미지 캡션 생성, 시각적 질문 답변 등 다양한 작업에 활용될 수 있습니다.

     

    3. 책임 있는 AI 혁신을 위한 노력

     

    구글은 Gemma 모델 개발 과정에서 책임 있는 AI 개발 원칙을 준수하며, AI 기술의 오용 및 악용 가능성을 최소화하기 위해 노력하고 있습니다. 또한, 모델의 투명성과 공정성을 확보하고 편향을 줄이기 위한 연구를 지속하고 있습니다.

     

    4. Gemma 2의 활용 분야

     

    Gemma 2는 다양한 분야에서 활용될 수 있습니다. 예를 들어, 텍스트 생성, 번역, 요약, 질문 답변 등 자연어 처리 분야뿐만 아니라 이미지 캡션 생성, 시각적 질문 답변 등 멀티모달 작업에도 활용될 수 있습니다. 또한, Gemma 2는 교육, 의료, 금융 등 다양한 산업 분야에서 AI 기술 적용을 확대하는 데 기여할 것으로 기대됩니다.

     

    III. 범용 AI 에이전트 개발: Project Astra

     

     

    Google DeepMind는 일상생활에 도움이 되는 범용 AI 에이전트를 개발하는 것을 목표로 합니다. Project Astra(advanced seeing and talking responsive agent)를 통해 AI 비서의 미래를 구축하는 데 진전을 이루고 있습니다. Gemini를 기반으로 개발된 프로토타입 에이전트는 비디오 프레임을 지속적으로 인코딩하고 비디오 및 음성 입력을 이벤트 타임라인으로 결합하며 효율적인 재현을 위해 이 정보를 캐싱하여 정보를 더 빠르게 처리할 수 있습니다.

     

     

     

    구글은 Gemini 모델 제품군을 통해 AI 기술의 발전을 이끌고 있습니다. 속도와 효율성에 최적화된 1.5 Flash, 성능이 향상된 1.5 Pro, 멀티모달 입력을 이해하는 Gemini Nano, 차세대 오픈 모델 Gemma 2, AI 비서의 미래를 위한 Project Astra 등 다양한 업데이트와 새로운 기능을 통해 사용자들에게 더 나은 AI 경험을 제공하고 있습니다.

     
     

     

     

     

     

     

     

     

    Google I/O 2024

    반응형