Changwoo Hacks (obsolete): 자막 편집과 음성 신호 처리

2006년 12월 25일 월요일

자막 편집과 음성 신호 처리

예전에 KLDP 10주년 컨퍼런스에서 GNOME BoF를 즐기다가 이런 저런 얘기가 나오면서 자막에 대해 mithrandir님이 나와 같은 아이디어를 갖고 있다는 걸 알게 됐는데... 그 내용은 이렇다.

인간의 음성은 300Hz에서 3500Hz정도이므로 동영상 클립에서 대사가 나오는 부분이 어디인지를 자동으로 찾을 수 있다. 자막 작업을 실제로 어떻게 하는지는 모르겠지만, 이걸 이용하면 좀 더 효율적인 자막 작업이 가능하지 않을까? 보통 동영상의 자막은 말이 시작되는 시점에 나타났다가 말이 끝나고 일정시간 뒤에 사라지기 때문에 자막의 시작/끝 타이밍 조절처럼 번역 자체와는 별개의 작업들을 상당부분 자동화할 수 있다. 번역하면서 반복해서 듣고 싶을 때도 음성이 검색된 부분 기준으로 다시 들으면 된다.

GStreamer를 이용하면 간단히 proof-of-concept가 가능하다. spectrum element를 이용해 오디오의 대역 정보를 뽑아내다가 음성 대역이 발생하는 지점부터 끝나는 지점까지 구간 추출. (그런데 귀찮아....)

댓글 없음:

댓글 쓰기

뜬금없이 문법 따위를 지적하거나, 오래된 글에 링크가 깨진 걸 지적하는 등의 의미 없는 댓글은 자제해 주시기 바랍니다. 그러한 경우 답 없이 삭제합니다. 또한 이해 당사자이신 경우 숨어서 옹호하지 마시고 당사자임을 밝히시길 바랍니다.

참고: 블로그의 회원만 댓글을 작성할 수 있습니다.