
퇴근하고 집에 돌아와 태블릿을 켰습니다. 서재라고 부르긴 하지만 사실은 작은 방 한켠입니다. 스탠드 조명만 켜두니 주변은 어둡고, 모니터에는 RTSP 세션 로그가 흘러가고 있습니다. 이전부터 깊이 공부해봐야지 다짐만 했던 이 주제에 대해 다시 시도를 해보고 있는 중입니다.
생성형 AI는 매일 쓰고 있습니다. 코드 초안을 만들고, 로그를 정리하고, 문서를 구조화하는 데 꽤 유용하니까요. 그런데 막상 "제미나이를 제대로 알고 있느냐"라고 묻는다면... 잠깐 멈칫하게 됩니다. 써본 적인 많지만, 정리해본 적은 없습니다. 제목이 괜히 신경 쓰였던 이유도 아마 그 때문이었을 겁니다.
이번에는 그냥 넘기지 않기로 했습니다. 직접 해보고, 조금은 불편해져 보자. 그런 마음이었습니다.

TTS를 돌려보다가 잠깐 멈춘 순간
책을 읽다가 Google AI Studio의 TTS(Text-to-Speech) 기능을 다뤄보는 부분에서 손이 멈췄습니다. 평소 제미나이는 텍스트 응답용으로만 사용하거나, 이미지를 생성하는 용도로만 사용했지, 음성을 직접 생성해본 적은 거의 없었거든요.
책에서는 "Single-speaker audio" 모드를 변경해서 실행하는 과정을 보여줍니다. 그래서 "Multi-speaker audio" 모드로 해보는 것에 호기심이 갔습니다. speaker 1과 speaker 2 의 대화내용을 파파고를 이용해서 한국어로 슬쩍 번역해서 입력을 변경하고, Run Ctrl 버튼을 눌렀습니다.

신기하게도 입력한 문장을 한국어로 자연스럽게 말해줬습니다. 그러나 한 사람이 말하는 것처럼 들렸습니다. 그래서 Speaker 2 settings에서 Voice 를 변경을 해서 다시 시도를 했습니다. 그러나 목소리의 변화는 없었습니다. 몇 번 더 변경해서 시도하다가 사용량을 초과해버렸습니다. 아마도 구독을 해야 가능한 설정인가 봅니다. 책에서는 이 부분을 비중있게 다루지 않아서 이러한 상황에 대해서는 내용이 없지만 새로운 시도가 막히니깐 조금 아쉬운 생각은 들었습니다.
음성은 생각보다 자연스러웠습니다. 어색한 억양이 튀지 않았고, 기계음 특유의 차가움도 크지 않았습니다. 그걸 들으면서 이런 생각이 스쳤습니다. 스트리밍 테스트 영상에 임시 나레이션을 자동으로 붙일 수 있지 않을까. 장애 알림을 음성으로 만들어도 되지 않을까.
그동안 저는 제미나이를 텍스트 도구 정도로만 취급하고 있었습니다. 그게 전부라고 생각했던 건 아니지만, 사실상 그렇게 써왔던 겁니다.
질문을 조금만 바꿨을 뿐인데
책에서 "질문의 기술" 이야기가 나옵니다. 이미 알고 있다고 생각했던 내용입니다. 그런데 막상 제 질문을 돌아보니 그렇게 정교하지 않았습니다.
가볍게 실험을 해봤습니다.
부산 1박 2일 여행 코스 추천해줘.
익숙한 관광지 위주의 일정이 나왔습니다. 틀린 건 아니지만, 어디서든 볼 수 있는 답이었습니다.

이번에는 조건을 붙였습니다.
부모님과 함께 가고, 많이 걷지 않는 일정으로 짜줘.
고기와 국밥을 좋아하고, 사진 찍기 좋은 장소도 포함해줘.
답변이 달라졌습니다. 동선이 짧아졌고, 식당이 구체화됐습니다. 일정도 덜 빡빡했습니다. 읽으면서 고개가 끄덕여졌습니다.

그때야 조금 명확해졌습니다. AI가 더 잘한 게 아니라, 제가 더 분명하게 말했기 때문이었습니다.
생각해보면 당연한 것입니다. 네트워크 재연결 로직을 설계할 때도 조건을 흐릿하게 두면 결국 예외 처리에서 문제가 터집니다. 입력이 애매하면 출력도 애매합니다. AI도 예외는 아니었습니다.
실무에서 달라진 태도
이제는 AI에게 요청하는 방식이 조금 달라졌습니다. 예전에는 이렇게 썼습니다.
재접속 로직 개선 코드 만들어줘.
지금은 그냥 던지지 않습니다. 환경을 적습니다. Linux, epoll 기반, 세션 타임아웃은 5초, 재연결은 최대 3회, 멀티스레드 환경이고, 기존 클래스 구조는 유지해야 한다는 점까지.
이렇게 적다보니 나 스스로도 설계가 더 또렷해졌습니다. 결과도 달라졌습니다. 리뷰하면서 다시 고치는 코드가 눈에 띄게 줄었습니다. 체감상 재작성에 쓰는 시간이 절반 정도는 줄어든 것 같습니다. 숫자로 딱 잘라 말하긴 어렵지만, 분명히 덜 헤맵니다.
결국 바뀐 건 모델이 아니라 제 태도였던 것 같습니다. 조금 더 구체적으로 말하는 습관. 그 차이였습니다.
아쉬웠던 부분도 있습니다
이미 생성형 AI를 깊이 파고들고 있는 개발자라면 내용이 너무 기본적인 것 같다고 느낄 수 있습니다. 모델 구조나 API 레벨의 상세한 설명을 기대했다면 다소 밋밋할 수도 있습니다.
다만 이 책은 깊이를 넓히는 쪽보다는, 사용 방식을 돌아보게 하는 쪽에 더 가깝습니다. 저는 그 점이 오히려 현실적이라고 느꼈습니다. 대부분의 개발자는 모델을 직접 구현하지는 않으니까요.
이런 상황이라면 도움이 될지도 모릅니다
회사에서 AI 도입을 검토하고 있지만 막연한 상태에 머물러 있는 팀 리더.
프롬프트 결과가 들쭉날쯕한데 이유를 잘 모르겠는 개발자.
"이미 써봤다"고 말은 하지만, 사실은 감으로 쓰고 있었던 사람.
아마 마지막에 해당하는 자가 나인 것 같네요.
이 책을 읽고 나서 완전히 다른 사람이 된 건 아닙니다. 다만, 도구를 다루는 태도를 조금은 의식하게 되었습니다. 그게 생각보다 큰 변화였습니다.
본 리뷰는 한빛미디어 <나는리뷰어다> 활동을 통해 도서를 제공받아 직접 읽고 작성했습니다.
#한빛미디어 #나는리뷰어다 #누구나아는나만모르는제미나이































