Ecoute công cụ ghi âm trực tiếp cung cấp bản ghi trực tiếp

Ecoute là một công cụ ghi âm trực tiếp cung cấp bản ghi trực tiếp cho cả đầu vào microphone của người dùng (Bạn) và đầu ra loa của người dùng (Loa) trong một hộp văn bản. Nó cũng tạo ra một phản hồi đề xuất bằng cách sử dụng GPT-3.5 của OpenAI để người dùng nói dựa trên việc ghi âm trực tiếp của cuộc trò chuyện.
Ecoute được thiết kế để giúp người dùng trong các cuộc trò chuyện của họ bằng cách cung cấp bản ghi trực tiếp và tạo ra các phản hồi phù hợp với ngữ cảnh. Bằng cách tận dụng sức mạnh của GPT-3.5 của OpenAI, Ecoute nhằm mục đích làm cho việc giao tiếp trở nên hiệu quả và thú vị hơn.
github : GitHub - SevaSk/ecoute: Ecoute is a live transcription tool that provides real-time transcripts for both the user's microphone input (You) and the user's speakers output (Speaker) in a textbox. It also generates a suggested response using OpenAI's GPT-3.5 for the user to say based on the live transcription of the conversation.

Bắt đầu
Theo các bước sau để thiết lập và chạy Ecoute trên máy cục bộ của bạn.

:clipboard: Điều kiện tiên quyết
Python >=3.8.0
Một khoá API OpenAI có thể truy cập OpenAI API (thiết lập một tài khoản trả phí OpenAI)
Hệ điều hành Windows (Chưa được kiểm tra trên các hệ điều hành khác)
FFmpeg
Nếu FFmpeg chưa được cài đặt trong hệ thống của bạn, bạn có thể làm theo các bước dưới đây để cài đặt nó.

Trước tiên, bạn cần cài đặt Chocolatey, một trình quản lý gói cho Windows. Mở PowerShell của bạn dưới dạng Quản trị viên và chạy lệnh sau:

Set-ExecutionPolicy Bypass -Scope Process -Force; [System.Net.ServicePointManager]::SecurityProtocol = [System.Net.ServicePointManager]::SecurityProtocol -bor 3072; iex ((New-Object System.Net.WebClient).DownloadString(‘https://community.chocolatey.org/install.ps1’))
Khi Chocolatey được cài đặt, bạn có thể cài đặt FFmpeg bằng cách chạy lệnh sau trong PowerShell của bạn:

choco install ffmpeg
Vui lòng đảm bảo bạn chạy các lệnh này trong một cửa sổ PowerShell với đặc quyền quản trị viên. Nếu bạn gặp bất kỳ vấn đề nào trong quá trình cài đặt, bạn có thể truy cập trang web chính thức của Chocolatey và FFmpeg để sửa lỗi.

:wrench: Cài đặt
Sao chép kho:

git clone GitHub - SevaSk/ecoute: Ecoute is a live transcription tool that provides real-time transcripts for both the user's microphone input (You) and the user's speakers output (Speaker) in a textbox. It also generates a suggested response using OpenAI's GPT-3.5 for the user to say based on the live transcription of the conversation.
Di chuyển đến thư mục ecoute:

cd ecoute
Cài đặt các gói cần thiết:

pip install -r requirements.txt
Tạo một tệp keys.py trong thư mục ecoute và thêm khoá API OpenAI của bạn:

Tùy chọn 1: Bạn có thể sử dụng một lệnh trên dấu nhấn lệnh của bạn. Chạy lệnh sau, đảm bảo thay thế “API KEY” bằng khoá API OpenAI thực tế của bạn:

python -c “with open(‘keys.py’, ‘w’, encoding=‘utf-8’) as f: f.write(‘OPENAI_API_KEY=“API KEY”’)”
Tùy chọn 2: Bạn có thể tạo thủ công tệp keys.py. Mở trình chỉnh sửa văn bản yêu thích của bạn và nhập nội dung sau:

OPENAI_API_KEY=“API KEY”
Thay thế “API KEY” bằng khoá API OpenAI thực tế của bạn. Lưu tệp này dưới dạng keys.py trong thư mục ecoute.

Chạy Ecoute Chạy kịch bản chính:

cssCopy code

python main.py

Để có phiên bản tốt hơn và nhanh hơn, cũng hoạt động với hầu hết các ngôn ngữ, sử dụng:

cssCopy code

python main.py --api

Khi khởi động, Ecoute sẽ bắt đầu ghi lại đầu vào của microphone và đầu ra của loa của bạn trong thời gian thực, tạo ra một phản hồi đề xuất dựa trên cuộc trò chuyện. Lưu ý rằng có thể mất vài giây cho hệ thống khởi động trước khi ghi lại trở thành thời gian thực.

Cờ --api sẽ sử dụng api Whisper cho các bản ghi âm. Điều này cải thiện đáng kể tốc độ và độ chính xác của bản ghi âm, và nó hoạt động trong hầu hết các ngôn ngữ (thay vì chỉ tiếng Anh mà không có cờ). Dự kiến đây sẽ trở thành tùy chọn mặc định trong các phiên bản sau này. Tuy nhiên, hãy nhớ rằng việc sử dụng Whisper API sẽ tiêu tốn nhiều điểm tín dụng OpenAI hơn việc sử dụng mô hình cục bộ. Chi phí tăng này được gán cho các tính năng và khả năng tiên tiến mà Whisper API cung cấp. Mặc dù có chi phí bổ sung, nhưng sự cải thiện đáng kể về tốc độ và độ chính xác của bản ghi âm có thể là một khoản đầu tư đáng giá cho trường hợp sử dụng của bạn.

Hạn chế Mặc dù Ecoute cung cấp bản ghi âm và gợi ý phản hồi trong thời gian thực, nhưng có một số hạn chế đã biết đến về chức năng của nó mà bạn cần biết:

Micro và Loa Mặc Định: Hiện tại, Ecoute được cấu hình để chỉ nghe microphone và loa mặc định được thiết lập trong hệ thống của bạn. Nó sẽ không phát hiện âm thanh từ các thiết bị hoặc hệ thống khác. Nếu bạn muốn sử dụng mic hoặc loa khác, bạn cần thiết lập nó là thiết bị mặc định của bạn trong cài đặt hệ thống của bạn.

Mô hình Whisper: Nếu không sử dụng cờ --api, chúng tôi sử dụng phiên bản ‘tiny’ của mô hình Whisper ASR, do tiêu thụ tài nguyên thấp và thời gian phản hồi nhanh. Tuy nhiên, mô hình này có thể không chính xác như các mô hình lớn hơn trong việc ghi lại một số loại diễn thất nhất định, bao gồm cả giọng điệu hoặc từ không phổ biến.

Ngôn Ngữ: Nếu bạn không sử dụng cờ --api, mô hình Whisper được sử dụng trong Ecoute được thiết lập cho tiếng Anh. Do đó, có thể không chính xác khi ghi lại các ngôn ngữ hoặc phương ngữ không phải tiếng Anh. Chúng tôi đang tích cực làm việc để thêm hỗ trợ đa ngôn ngữ vào các phiên bản sau này của chương trình.