GPT와 MCU가 긴밀하게 통합되면...

12-25

이 기사는 기계로 번역되었습니다

원문 표시

생명은 멈추지 않고 계속 움직입니다. 많은 엔지니어들이 MCU와 OpenAI의 ChatGPT를 결합하여 채팅 봇, 음성 어시스턴트 및 자연어 인터페이스를 만들어 보려고 시도했습니다.

며칠 전 OpenAI가 o3 모델을 공식적으로 출시할 때 Linux와 32비트 MCU에서 사용할 수 있는 Realtime API SDK를 발표했고, 이는 많은 엔지니어들의 관심을 끌었습니다.

OpenAI가 32비트 MCU를 위한 SDK를 만들었습니다

최근 OpenAI는 ESP32와 같은 마이크로 컨트롤러에서 Open Realtime API를 사용할 수 있는 SDK를 자사 GitHub 저장소에 공개했습니다. 이 프로젝트는 ESP32-S3와 Linux에서 개발 및 테스트되었으며 개발자들이 직접 사용할 수 있습니다.

이 SDK는 주로 임베디드 하드웨어를 위해 설계되었으며 현재 Espressif ESP32S3만 검증되었습니다. 이 SDK는 OpenAI의 최신 WebRTC 기술을 기반으로 개발되어 극저지연 음성 대화 경험을 제공할 수 있습니다.

OpenAI는 발표회에서 ESP32를 사용한 크리스마스 테마의 AI 장난감을 선보였습니다. 데모에서 엔지니어와 AI 장난감 간의 4-5번의 대화가 자연스럽게 진행되었고 지연이나 반응 시간이 눈에 띄지 않았습니다.

Github에 무엇이 있습니까?

Github 페이지(https://github.com/openai/openai-realtime-embedded-sdk)에 따르면 openai-realtime-embedded-sdk는 마이크로 컨트롤러를 위해 맞춤 제작된 SDK로, 개발자가 ESP32 등의 마이크로 컨트롤러에서 실시간 API 기능을 구현할 수 있습니다.

이 SDK는 주로 ESP32S3와 Linux 플랫폼에서 개발 및 테스트되었기 때문에 물리적 하드웨어 없이도 Linux에서 직접 사용할 수 있습니다.

하드웨어에서 이 SDK를 사용하려면 다음 마이크로 컨트롤러 중 하나를 구매해야 합니다. 다른 MCU도 호환될 수 있지만 이 SDK는 다음 장치를 기반으로 개발되었습니다:

Freenove ESP32-S3-WROOM;

Sonatino - ESP32-S3 Audio Development Board.

그러나 examples 폴더를 보면 ESP32 외에도 일반 및 라즈베리 파이 예제가 있습니다. 라즈베리 파이 폴더에서는 Raspberry Pi 4B, 카메라 모듈, ReSpeaker 2-Mics Pi HAT 및 스피커를 사용했습니다. 따라서 다른 임베디드 장치도 점차 이 SDK를 지원할 수 있을 것 같습니다.

Wi-Fi SSID, 비밀번호 및 OpenAI API 키를 구성하면 사용자가 쉽게 장치를 설정하고 프로그램을 실행할 수 있습니다. 이 SDK의 핵심 장점은 마이크로 컨트롤러에 강력한 API와의 상호 작용 기능을 제공하여 실시간 데이터 처리 및 의사 결정 등의 시나리오에서 마이크로 컨트롤러의 응용 잠재력을 확장했다는 것입니다.

대상 사용자: 임베디드 시스템 개발자, 사물인터넷 장치 제조업체 및 마이크로 컨트롤러에서 지능형 의사 결정을 구현해야 하는 연구원 등이 이 SDK의 주요 대상 고객입니다. 이 SDK는 통합 및 사용이 쉽기 때문에 리소스 제한 장치에서 고급 데이터 처리 기능을 구현하고자 하는 사용자에게 특히 적합합니다.

사용 사례 예시:

스마트 홈: ESP32에서 SDK를 사용하여 음성 제어 기능 구현;

산업 자동화: SDK를 통해 마이크로 컨트롤러가 센서 데이터에 실시간으로 응답할 수 있도록 함;

연구 분야: SDK를 활용하여 기계 학습 모델의 실시간 추론 수행.

엔지니어의 분석에 따르면 이 데모는 기본적으로 프로젝트 구현이며 가장 큰 장점은 WebRTC 프로토콜 API가 개발자의 API 호출 프로세스를 크게 간소화했다는 것입니다. 잘 알려진 바와 같이 임베디드 개발은 주로 C/C++를 사용하며 실제 비즈니스 시나리오에서 처리해야 할 사례가 많아 매우 번거롭습니다. WebRTC를 사용하면 몇 백 줄의 C 코드로 이 데모를 처리할 수 있습니다.

자세히 살펴보면 repo 구조에 커밋이 하나뿐이고 데모 코드 파일도 6개밖에 없습니다. 프로젝트는 libopus(오디오 인코딩/디코딩용), esp-protocols(ESP 하드웨어 제어, Wi-Fi 연결, 녹음 등용), libpeer(WebRTC 통신용) 등의 오픈 소스 라이브러리를 사용합니다.

메인 프로그램에는 복잡한 내용이 없습니다. 단순히 패키지를 호출하고 Wi-Fi를 켜고, 녹음을 시작하고, 재생하고, Wi-Fi에 연결한 다음 WebRTC를 통해 OpenAI API에 연결하는 것입니다. 각 함수는 100줄 미만이며 PC 호환 부분을 제외하고 실제 칩에 컴파일되는 코드는 약 300줄 정도입니다.

왜 OpenAI는 ESP32를 선택했을까요?

엔지니어의 분석에 따르면 음성 대화 AI 장난감 제어 MCU에 대한 기본 요구 사항은 다음과 같습니다:

네트워킹 기능, Wi-Fi 또는 블루투스;

음성 처리, 녹음 및 재생 지원.

이 두 가지는 필수 요구 사항이며 다른 기능은 그렇게 중요하지 않습니다. 특히 Arm 분야에서 강점을 보이는 비디오 처리와 같은 기능은 AI 장난감에 필요하지 않습니다.

기존 마이크로 컨트롤러와 비교할 때 스마트홈 시대에 새로운 주자로 등장한 ESP32는 이러한 요구 사항을 완벽하게 충족합니다.

첫째, ESP32는 가격이 저렴하고 집적도가 높아 단일 칩 비용이 몇 달러에 불과합니다.

둘째, ESP32의 설계 자체가 저전력 시나리오를 대상으로 하므로 배터리와 함께 사용하면 수주 또는 수개월 동안 지속될 수 있습니다.

셋째, ESP32에는 Wi-Fi, 블루투스 및 음성 처리 기능이 내장되어 있어 외부 모듈이 필요 없어 회로 설계가 간단해지고 제품 배터리 수명이 향상됩니다.

다른 일반적인 마이크로 컨트롤러 솔루션에는 다양한 구현 방법이 있지만 가장 간단하고 효율적인 방법은 ESP32를 사용하는 것입니다. 어떤 하드웨어 엔지니어가 단일 칩 설계를 거부할 수 있겠습니까?

더 많은 임베디드 SDK가 출시될 예정

"2024 화산 엔진 겨울 Force 원동력 대회"에서 여러 하드웨어 업체가 RTC 기술 기반 제품 데모를 선보였습니다. 이 행사에서 ByteDance의 제품 매니저는 임베디드 SDK에 대해 언급했는데, 지원 하드웨어 모델은 자세히 공개하지 않았지만 SDK가 곧 출시될 것이라고 밝혔습니다.

Apex.AI도 이 작업을 진행 중입니다. Apex.AI에 따르면 Apex.Grace 제품은 ROS 2를 강화했고 Apex.Ida는 Eclipse iceoryx를 강화했습니다. Apex.AI SDK for Microcontrollers를 통해 오픈 소스 프로젝트의 기반 위에 더 많은 기능, 개선된 기능 및 추가 보안 인증을 제공할 예정입니다. 새로운 마이크로 컨트롤러 Apex.AI SDK가 출시되면 오픈 소스 프로젝트를 기반으로 이러한 성과를 계속 이어갈 것입니다. 현재 Apex.AI는 Xilinx Ultrascale+ MPSoC와 Infineon AURIX TC399를 새 플랫폼에 내부 프로젝트로 추가했으며, 경험상 새 플랫폼 추가에는 몇 주밖에 걸리지 않습니다.

이 기사는 WeChat 공식 계정 "전자 공학 세계"에서 발췌했으며, 저자는 EEWorld이고 36Kr의 승인을 받아 게시되었습니다.

출처

면책조항: 상기 내용은 작자의 개인적인 의견입니다. 따라서 이는 Followin의 입장과 무관하며 Followin과 관련된 어떠한 투자 제안도 구성하지 않습니다.

라이크

즐겨찾기에 추가

코멘트