Přeskočit na hlavní obsah

Data

Přehled

Modul Data slouží ke sdružování více datových zdrojů do jednoho logického celku. Datová kolekce představuje centrální kontejner dat, který lze následně využívat v AI agentech, workflows nebo analytických nástrojích v Siesta AI.

Každá kolekce:

  • má vlastní název a popis,
  • obsahuje jeden nebo více datových zdrojů,
  • umožňuje řídit a organizovat data podle jejich účelu.

Přehled datových kolekcí

Na hlavní obrazovce Kolekce dat je zobrazen seznam všech vytvořených kolekcí ve formě tabulky.

Zobrazené sloupce:

  • Name – název datové kolekce
  • Description – stručný popis účelu kolekce
  • Data Sources – ikony připojených datových zdrojů
  • Total files - celkový počet připojených souborů
  • Total size - celková velikost všech připojených souborů
  • Created – datum a čas vytvoření
  • Akce – další možnosti práce s kolekcí, možnost zobrazení detailů a smazání kolekce

V horní části obrazovky je dostupné:

  • vyhledávání kolekcí,
  • tlačítko Vytvořit kolekci.

Přehled datových kolekcí

Vytvoření nové datové kolekce

Po kliknutí na Vytvořit kolekci se otevře dialog pro založení nové kolekce.

Povinná pole

  • Název – jednoznačný název datové kolekce (např. Neurology Research Results – Big Data Collection).
  • Popis – stručný popis obsahu a účelu kolekce.

Akce

  • Zrušit – zavře dialog bez uložení
  • Vytvořit – vytvoří novou datovou kolekci

Dialog pro vytvoření kolekce

Detail datové kolekce

Po otevření konkrétní kolekce se zobrazí její detailní stránka.

Zobrazené informace:

  • název kolekce,
  • přehled připojených datových zdrojů.

Součástí stránky jsou tlačítko Upravit data kolekci a Přidat datový zdroj.

Detail datové kolekce

Přidání datového zdroje do kolekce

Kliknutím na Přidat datový zdroj se otevře výběr typu datového zdroje.

Dostupné možnosti

  • Manual Upload – ruční nahrání souborů
  • Azure Storage Account
  • Jira
  • Firecrawl
  • Google Drive
  • Confluence

Výběr typu datového zdroje

Konfigurace jednotlivých datových zdrojů

Jira

Pro Jira datový zdroj nastavíte:

  • Name a Description,
  • Connection ID (napojený Jira konektor),
  • Sync schedule,
  • Data collection (možnost přesunout zdroj do jiné kolekce),
  • Project Key,
  • sekce Retriever a Processing.

Přímý odkaz na konektor: Jira.

Konfigurace Jira datového zdroje

Azure Storage Account

Pro Azure Storage Account datový zdroj nastavíte:

  • Name a Description,
  • Connection ID (napojený Azure Storage konektor),
  • Sync schedule,
  • Data collection (možnost přesunout zdroj do jiné kolekce),
  • seznam Blobs (včetně přidání/smazání položky),
  • sekce Retriever a Processing.

Přímý odkaz na konektor: Azure Storage Account.

Konfigurace Azure Storage Account datového zdroje

Confluence

Pro Confluence datový zdroj nastavíte:

  • Name a Description,
  • Connection ID (napojený Confluence konektor),
  • Sync schedule,
  • Data collection (možnost přesunout zdroj do jiné kolekce),
  • Space Key.

Přímý odkaz na konektor: Confluence.

Konfigurace Confluence datového zdroje

Firecrawl

Pro Firecrawl datový zdroj nastavíte:

  • Name a Description,
  • Connection ID (napojený Firecrawl konektor),
  • Sync schedule,
  • Data collection (možnost přesunout zdroj do jiné kolekce),
  • Scrape type,
  • Scrape URL,
  • Limit a volitelné regex filtry (např. Include paths regex).

Přímý odkaz na konektor: Firecrawl.

Konfigurace Firecrawl datového zdroje

Google Drive

Pro Google Drive datový zdroj nastavíte:

  • Name a Description,
  • Connection ID (napojený Google Drive konektor),
  • Sync schedule,
  • seznam Folders (včetně přidání/smazání položky),
  • Data collection (možnost přesunout zdroj do jiné kolekce),
  • sekce Retriever a Processing.

Přímý odkaz na konektor: Google Drive.

Konfigurace Google Drive datového zdroje

Manual Upload

Pro Manual Upload datový zdroj nastavíte:

  • Name a Description,
  • sekci Upload files pro nahrání souborů,
  • Data collection (možnost přesunout zdroj do jiné kolekce),
  • sekce Retriever a Processing.

Konfigurace Manual Upload datového zdroje

Retriever a Processing

V těchto sekcích lze řídit způsob vyhledávání i přípravy dat pro AI:

  • Retriever: Skip LLM query rewrite, Skip LLM re-ranking, Max results count
  • Processing: Chunking strategy, Advanced content extraction, JSON Features, JSON Metadata Definitions

Nastavení Retriever a Processing lze měnit i u zdrojů Azure Storage Account, Manual Upload a Google Drive.

Nastavení Retriever a Processing

Detail datového zdroje (Overview, Configuration, Files, Logs)

Každý datový zdroj má v detailu vlastní záložky:

  • Overview
  • Configuration
  • Files
  • Logs

Detail datového zdroje - Overview

Overview

Záložka Overview poskytuje rychlý přehled:

  • typ zdroje,
  • stav posledních synchronizací,
  • počet souborů a celkovou velikost,
  • základní statistiky podle stavu a typu souborů.

Configuration

V záložce Configuration můžete upravovat nastavení datového zdroje (např. název, popis, frekvenci synchronizace, přiřazenou kolekci). Přes pole Data collection lze datový zdroj kdykoliv přesunout mezi kolekcemi. Součástí je i Danger Zone pro destruktivní akce jako re-ingest všech souborů.

Detail datového zdroje - Configuration

Files

V záložce Files je přehled souborů daného zdroje:

  • filtrace podle stavu,
  • metadata souborů (typ, velikost, status, indexed/readable),
  • možnost otevřít detail konkrétního souboru.

Detail datového zdroje - Files

Detail souboru a chunking

V detailu souboru je vidět, jak byl dokument rozchunkovaný pro AI indexing. Zobrazuje se stav souboru, metadata a jednotlivé chunky, které vstupují do retrieval pipeline.

Detail souboru - chunky

Logs

V záložce Logs najdete historii synchronizací a zpracování:

  • datum spuštění a dokončení,
  • počty zpracovaných/přeskočených položek,
  • trigger synchronizace (např. plánovaně).

Detail datového zdroje - Logs

Napojení datových kolekcí na agenta

Datové kolekce se následně přiřazují k agentům v jejich nastavení. Podrobnosti najdete v části Konfigurace agenta.

Typické využití datových kolekcí

Datové kolekce slouží zejména k:

  • organizaci většího množství souborů,
  • sdružování dat podle tématu nebo projektu,
  • vytváření jednotného zdroje pravdy pro AI agenty,
  • opakovanému použití stejných dat v různých workflows,
  • škálování práce s daty bez nutnosti jejich duplikace.

Shrnutí

Datové kolekce v Siesta AI umožňují přehlednou správu dat a jejich efektivní využití napříč celou platformou. Správně strukturované kolekce jsou základem pro kvalitní výstupy AI agentů a automatizovaných workflows.