Algoritmus K-means, který je známý svým použitím v oblasti strojového učení pro shlukování dat, může být velmi efektivní i v kontextu optimalizace a prozkoumání designového prostoru. Jeho aplikace v oblasti globální optimalizace, konkrétně v algoritmu SOCE (Space Optimization with Clustering Exploration), se ukázala jako velmi užitečná při hledání optimálních řešení v problémech s nelineárními vícevrcholovými funkcemi. Tento proces zahrnuje nejenom využití K-means pro generování shlukovacích center, ale také metody pro prozkoumání méně vzorkovaných oblastí a efektivní přidávání nových vzorků na základě těchto center.

Prvním krokem v této metodě je použití algoritmu K-means k určení několika shlukovacích center v designovém prostoru. Tyto centrály následně slouží k vytvoření malých regionů, které budou použity pro další analýzu vzorků. K určení velikosti těchto regionů se stanoví malý parametr, který určuje jejich šířku. V těchto malých oblastech se následně počítá počet vzorků, které se v nich nacházejí. Jakmile počet vzorků překročí stanovený limit (parametr Ratio), cyklus se ukončí. Jinak se hodnota parametru w, která určuje velikost regionů, zvyšuje a proces pokračuje, dokud není dosaženo požadovaného pokrytí.

Dalším klíčovým krokem je generování nových vzorků pomocí metody LHS (Latin Hypercube Sampling), která zajistí rovnoměrné pokrytí designového prostoru, přičemž vzorky v oblastech, které již byly zkoumány, jsou vyloučeny. Tyto nové vzorky jsou následně evaluovány, čímž se získají hodnoty, které mohou být drahé na výpočet. Na základě těchto hodnot je aktualizován seznam vzorků a pokračuje se v hledání dalších vzorků v méně prozkoumaných oblastech.

Tento postup zahrnuje dvě hlavní fáze: využití surrogačních modelů pro rychlou identifikaci lokálních optima a prozkoumání vzácněji vzorkovaných oblastí pomocí shlukování. Takovýto přístup umožňuje, aby algoritmus rychle identifikoval lokální optimum, ale zároveň měl schopnost „vyskočit“ z těchto lokálních optim a začít prozkoumávat jiné části designového prostoru.

Další klíčovou součástí je iterativní zvyšování počtu shlukovacích center

Jak funguje Multi-start Knowledge Mining v datově řízené globální optimalizaci?

Multi-start Knowledge Mining představuje sofistikovaný přístup v oblasti globální optimalizace založené na datech, využívající modely typu Kriging a pokročilé metody vzorkování a selekce kandidátních řešení. Proces začíná určením výchozích bodů pro lokální optimalizaci v rámci daného designového prostoru. V závislosti na aktuální iteraci se prostor buď redukuje, nebo zůstává původní, přičemž počet startovacích bodů se dynamicky mění – v redukovaném prostoru jsou tři body, v celém prostoru deset. Tyto body jsou generovány metodou Latin Hypercube Sampling (LHS), která zajišťuje rovnoměrné pokrytí prostoru.

Po provedení lokální optimalizace v okolí těchto startovacích bodů jsou získány předpovězené lokální optima, která však existují v kontinuu prostoru a nejsou přímo použítelná jako diskrétní vzorky. Proto následuje projektování těchto optimálních řešení na nejbližší diskrétní hodnoty z předem definované matice D. Tento krok využívá k nejbližšímu sousedovi (KNN) pro nalezení hranic – nejbližších nižších a vyšších diskrétních hodnot v každém rozměru. Výsledkem je sada diskrétních hranic, které ohraničují oblasti kolem předpovězených lokálních optim.

Dalším krokem je mřížkové vzorkování, jež se přizpůsobuje dimenzionalitě problému. Pro nižší dimenze se generují vzorky přímo na hranicích, zatímco u vyšších dimenzí se využívá pravděpodobnostní výběr vzorků dle blízkosti k předpovězeným optimům, čímž se snižuje počet generovaných bodů a tím i výpočetní náročnost. Pro zachování rozmanitosti a efektivity vzorkování je implementován mechanismus eliminace duplicitních vzorků a při prázdné množině kandidátů se vytváří náhodná sada vzorků pomocí LHS.

Další vrstvou je ověřování nových kandidátních vzorků vůči již známé sadě vzorků, aby nedocházelo k opakování vyhodnocení stejných bodů, což se provádí opět pomocí KNN. Zbylé vzorky jsou poté seřazeny podle očekávaného zlepšení (Expected Improvement, EI), které vychází z pravděpodobnostního modelu Kriging. Tento ukazatel zohledňuje střední hodnotu predikce a její nejistotu, čímž umožňuje efektivní výběr vzorků s nejvyšším potenciálem zlepšení aktuálního nejlepšího řešení.

Takto vybrané vzorky se následně použijí pro aktualizaci modelu, čímž se uzavírá jedna optimalizační iterace. Celý proces je opakován, což vede k postupnému doladění a zpřesnění odhadu globálního optima.

K pochopení této metody je nezbytné uvědomit si význam kombinace globálního průzkumu prostoru s lokální optimalizací, přičemž klíčovou roli hraje efektivní management vzorkovacích bodů. Model Kriging zde funguje nejen jako predikční nástroj, ale i jako prostředek kvantifikace nejistoty, což je nezbytné pro řízení kompromisu mezi průzkumem a využitím. Také je zásadní pochopit, že správná volba počtu startovacích bodů a dynamické přizpůsobení vzorkovací strategie výrazně ovlivňuje výkonnost optimalizace.

Důležité je rovněž uvědomění, že v praxi nemusí být diskrétní reprezentace problému přímočará a často vyžaduje projekční metody, které umožňují převést kontinuální výsledky do vhodných diskrétních vzorků. Tím se zachovává kvalita hledání a zároveň se zabraňuje zbytečné výpočetní náročnosti, což je kritické u složitých problémů s vysokou dimenzionalitou.

Nakonec je třeba zdůraznit, že multi-start přístup zajišťuje odolnost vůči lokálním extrémům a podporuje široké pokrytí řešeného prostoru, čímž se zvyšuje pravděpodobnost nalezení globálního optima. Tento princip lze aplikovat nejen v oblasti technických optimalizací, ale i v dalších doménách, kde je klíčové efektivní prohledávání komplexních a nákladných funkčních prostorů.