Kernkonzepte
VOIX ermöglicht es KI-Assistenten, mit Websites über eine einfache, aber leistungsstarke Architektur zu interagieren. Dieses Handbuch erklärt, wie die verschiedenen Teile zusammenarbeiten.
Überblick
VOIX besteht aus drei Hauptkomponenten, die zusammenarbeiten:
- Ihre Website - Deklariert, was die KI tun kann, und stellt den aktuellen Zustand bereit
- Chrome-Erweiterung - Überbrückt die Lücke zwischen Ihrer Website und der KI
- Benutzer + KI - Natürlichsprachliche Schnittstelle zur Interaktion mit Ihrer Website
Wie es funktioniert
1. Website-Deklaration
Ihre Website deklariert Fähigkeiten mithilfe von HTML-Elementen:
- Werkzeuge - Aktionen, die die KI ausführen kann
- Kontext - Informationen zum aktuellen Zustand
<!-- Eine Aktion deklarieren -->
<tool name="create_task" description="Eine neue Aufgabe erstellen">
<prop name="title" type="string" required/>
</tool>
<!-- Aktuellen Zustand bereitstellen -->
<context name="user">
Name: John Doe
Rolle: Admin
</context>
2. Erkennung durch die Erweiterung
Wenn ein Benutzer VOIX auf Ihrer Seite öffnet:
- Die Erweiterung sucht nach allen
<tool>
- und<context>
-Elementen - Sie erstellt einen Katalog der verfügbaren Aktionen und des aktuellen Zustands
- Diese Informationen werden dem KI-Assistenten präsentiert
3. Benutzerinteraktion
Der Benutzer tippt oder spricht natürlich:
"Erstelle eine Aufgabe namens 'Pull-Requests überprüfen'"
4. KI-Verständnis
Die KI:
- Liest die verfügbaren Werkzeuge und deren Beschreibungen
- Versteht den aktuellen Kontext
- Bestimmt, welches Werkzeug mit welchen Parametern verwendet werden soll
5. Werkzeugausführung
Wenn die KI beschließt, ein Werkzeug zu verwenden:
- VOIX löst ein
call
-Ereignis auf dem Werkzeugelement aus - Ihr JavaScript-Handler empfängt die Parameter
- Ihr Code führt die Aktion aus
document.querySelector('[name=create_task]').addEventListener('call', (e) => {
const { title } = e.detail;
// Erstellen Sie die Aufgabe in Ihrer Anwendung
createTask(title);
});
Vorteile der Architektur
Für Entwickler
VOIX verwendet HTML-Elemente, um KI-Fähigkeiten zu definieren. Sie fügen <tool>
- und <context>
-Tags zu Ihren Seiten hinzu und hängen Ereignis-Listener an, um Werkzeugaufrufe zu behandeln. Es ist keine API-Integration oder SDK erforderlich. Der Ansatz funktioniert mit jedem JavaScript-Framework oder reinem JavaScript, und Sie können diese Elemente zu bestehenden Seiten hinzufügen, ohne anderen Code zu ändern.
Sie kontrollieren, auf welche Daten die KI zugreifen kann, indem Sie auswählen, was Sie in Ihre Werkzeug- und Kontextelemente aufnehmen. Ihre Website empfängt nur die Anfragen zur Werkzeugausführung mit ihren Parametern. Das Gespräch zwischen dem Benutzer und der KI bleibt privat - Sie sehen nie, was der Benutzer getippt oder wie er seine Anfrage formuliert hat.
Für Benutzer
Sie interagieren mit Websites über natürliche Sprache. Die KI liest die verfügbaren Werkzeuge und den aktuellen Kontext, um zu verstehen, welche Aktionen sie ausführen kann. Sie können Anfragen wie "lösche das dritte Element" oder "zeige nur aktive Aufgaben" stellen, und die KI wird die entsprechenden Werkzeuge mit den richtigen Parametern ausführen.
Sie konfigurieren Ihren eigenen KI-Anbieter in den Erweiterungseinstellungen. Dies kann OpenAI, Anthropic, lokal ausgeführtes Ollama oder jeder OpenAI-kompatible Endpunkt sein. Ihre Konversationsdaten gehen direkt von der Erweiterung zu Ihrem gewählten Anbieter. Die Website empfängt niemals Ihre Nachrichten, nur die resultierenden Werkzeugaufrufe, die ausgeführt werden müssen.
Die Rolle der einzelnen Teile
Die Rolle Ihrer Website
- Werkzeuge deklarieren - Definieren, welche Aktionen möglich sind
- Kontext bereitstellen - Informationen zum aktuellen Zustand teilen
- Ereignisse behandeln - Aktionen ausführen, wenn Werkzeuge aufgerufen werden
- Benutzeroberfläche aktualisieren - Änderungen in Ihrer Oberfläche widerspiegeln
Die Rolle der Erweiterung
- Erkennung - Werkzeuge und Kontext auf der Seite finden
- Kommunikation - Ihre Website mit der KI verbinden
- Ereignisverteilung - Werkzeugaufrufe basierend auf KI-Entscheidungen auslösen
- Datenschutz - Alle Daten lokal im Browser halten
Die Rolle des Benutzers
- Natürliche Eingabe - Beschreiben, was sie erreichen möchten
- Konversation - Anfragen bei Bedarf klären oder verfeinern
- Überprüfung - Aktionen bei Bedarf bestätigen
Datenflussbeispiel
Verfolgen wir eine vollständige Interaktion, um zu sehen, wie die Daten durch das System fließen:
Benutzereingabe → KI-Verarbeitung → Werkzeugauswahl → Ereignisverteilung → Ihr Handler → UI-Aktualisierung
Benutzer besucht Ihre Aufgabenverwaltungs-App
html<tool name="mark_complete" description="Eine Aufgabe als erledigt markieren"> <prop name="taskId" type="string" required/> </tool> <context name="tasks"> Aktive Aufgaben: 5 Aufgaben-IDs: task-1, task-2, task-3, task-4, task-5 </context>
Benutzer öffnet VOIX und tippt
"Markiere Aufgabe-3 als erledigt"
KI verarbeitet die Anfrage
- Sieht das
mark_complete
-Werkzeug - Liest den Kontext, der zeigt, dass Aufgabe-3 existiert
- Entscheidet, das Werkzeug mit taskId: "task-3" aufzurufen
- Sieht das
Ihr Code behandelt das Ereignis
javascripttool.addEventListener('call', (e) => { const { taskId } = e.detail; markTaskComplete(taskId); updateTaskList(); });
Benutzer sieht das Ergebnis
- Aufgabe in der Benutzeroberfläche als erledigt markiert
- Kontext wird automatisch aktualisiert
- Bereit für die nächste Interaktion
Jeder Schritt findet im Browser statt. Die einzige externe Abhängigkeit ist der KI-Anbieter, der vom Benutzer konfiguriert und als vertrauenswürdig eingestuft wird. Die Website fungiert rein als Fähigkeitsanbieter und sieht niemals das Gespräch zwischen dem Benutzer und seinem KI-Assistenten.
Nächste Schritte
- Erfahren Sie mehr über Werkzeuge, um interaktive Fähigkeiten zu erstellen
- Verstehen Sie Kontext zum Teilen des Anwendungszustands