feat(03-03): integrate proactive scaling into ModelManager

- Added ProactiveScaler integration with HardwareTierDetector - Implemented pre-flight resource checks before model inference - Enhanced model selection with scaling recommendations - Added graceful degradation handling for resource constraints - Integrated performance metrics tracking for scaling decisions - Added proactive upgrade execution with stabilization periods - Enhanced status reporting with scaling information - Maintained silent switching behavior per Phase 1 decisions
2026-01-27 18:47:10 -05:00
parent 4d7749da7b
commit 53b8ef7c1b
1 changed files with 185 additions and 1 deletions
--- a/src/models/model_manager.py
+++ b/src/models/model_manager.py
@@ -10,6 +10,8 @@ from pathlib import Path
 from .lmstudio_adapter import LMStudioAdapter
 from .resource_monitor import ResourceMonitor
 from .context_manager import ContextManager
+from ..resource.scaling import ProactiveScaler, ScalingDecision
+from ..resource.tiers import HardwareTierDetector


 class ModelManager:
@@ -39,6 +41,26 @@ class ModelManager:
        self.lm_adapter = LMStudioAdapter()
        self.resource_monitor = ResourceMonitor()
        self.context_manager = ContextManager()
+        self.tier_detector = HardwareTierDetector()
+
+        # Initialize proactive scaler
+        self._proactive_scaler = ProactiveScaler(
+            resource_monitor=self.resource_monitor,
+            tier_detector=self.tier_detector,
+            upgrade_threshold=0.8,
+            downgrade_threshold=0.9,
+            stabilization_minutes=5,
+            monitoring_interval=2.0,
+            trend_window_minutes=10,
+        )
+
+        # Set callback for scaling decisions
+        self._proactive_scaler.set_scaling_callback(
+            self._handle_proactive_scaling_decision
+        )
+
+        # Start continuous monitoring
+        self._proactive_scaler.start_continuous_monitoring()

        # Current model state
        self.current_model_key: Optional[str] = None
@@ -141,8 +163,17 @@ class ModelManager:
            Selected model key or None if no suitable model found
        """
        try:
-            # Get current resources
+            # Get current resources and scaling recommendations
            resources = self.resource_monitor.get_current_resources()
+            scaling_status = self._proactive_scaler.get_scaling_status()
+
+            # Apply proactive scaling recommendations
+            if scaling_status.get("degradation_needed", False):
+                # Prefer smaller models if degradation is needed
+                self.logger.debug("Degradation needed, prioritizing smaller models")
+            elif scaling_status.get("upgrade_available", False):
+                # Consider larger models if upgrade is available
+                self.logger.debug("Upgrade available, considering larger models")

            # Filter models that can fit current resources
            suitable_models = []
@@ -329,6 +360,31 @@ class ModelManager:
            Generated response text
        """
        try:
+            # Pre-flight resource check
+            can_proceed, reason = self._proactive_scaler.check_preflight_resources(
+                "model_inference"
+            )
+            if not can_proceed:
+                # Handle resource constraints gracefully
+                degradation_target = (
+                    self._proactive_scaler.initiate_graceful_degradation(
+                        f"Pre-flight check failed: {reason}", immediate=True
+                    )
+                )
+                if degradation_target:
+                    # Switch to smaller model for this response
+                    smaller_model_key = self._find_model_by_size(degradation_target)
+                    if (
+                        smaller_model_key
+                        and smaller_model_key != self.current_model_key
+                    ):
+                        await self.switch_model(smaller_model_key)
+                        self.logger.info(
+                            f"Switched to smaller model {smaller_model_key} due to resource constraints"
+                        )
+                else:
+                    return "I'm experiencing resource constraints and cannot generate a response right now."
+
            # Ensure we have a model loaded
            if not self.current_model_instance:
                await self._ensure_model_loaded(conversation_context)
@@ -368,6 +424,13 @@ class ModelManager:
                    conversation_id, MessageRole.ASSISTANT, response
                )

+                # Update performance metrics for proactive scaling
+                self._proactive_scaler.update_performance_metrics(
+                    operation_type="model_inference",
+                    duration_ms=response_time_ms,
+                    success=True,
+                )
+
                # Check if we should consider switching (slow response or struggling)
                if await self._should_consider_switching(response_time_ms, response):
                    await self._proactive_model_switch(conversation_context)
@@ -375,8 +438,16 @@ class ModelManager:
                return response

            except Exception as e:
+                response_time_ms = (time.time() - start_time) * 1000
                self.logger.warning(f"Model generation failed: {e}")

+                # Update performance metrics for failure
+                self._proactive_scaler.update_performance_metrics(
+                    operation_type="model_inference",
+                    duration_ms=response_time_ms,
+                    success=False,
+                )
+
                # Try switching to a different model
                if await self._handle_model_failure(conversation_context):
                    # Retry with new model
@@ -402,6 +473,9 @@ class ModelManager:
            "resources": self.resource_monitor.get_current_resources(),
            "available_models": len(self.available_models),
            "recent_failures": dict(self._failure_count),
+            "scaling": self._proactive_scaler.get_scaling_status()
+            if hasattr(self, "_proactive_scaler")
+            else {},
        }

        if (
@@ -462,8 +536,17 @@ class ModelManager:
    ) -> None:
        """Ensure we have a model loaded, selecting one if needed."""
        if not self.current_model_instance:
+            # Get scaling recommendations for initial load
+            scaling_status = self._proactive_scaler.get_scaling_status()
+
+            # Select best model considering scaling constraints
            best_model = self.select_best_model(conversation_context)
            if best_model:
+                # Set current model size in proactive scaler
+                model_config = self.model_configurations.get(best_model, {})
+                model_size = model_config.get("category", "unknown")
+                self._proactive_scaler._current_model_size = model_size
+
                await self.switch_model(best_model)

    async def _should_consider_switching(
@@ -592,9 +675,110 @@ class ModelManager:

        return "\n".join(formatted_parts)

+    def _handle_proactive_scaling_decision(self, scaling_event) -> None:
+        """Handle proactive scaling decision from ProactiveScaler.
+
+        Args:
+            scaling_event: ScalingEvent from ProactiveScaler
+        """
+        try:
+            if scaling_event.decision == ScalingDecision.UPGRADE:
+                # Proactive upgrade to larger model
+                target_model_key = self._find_model_by_size(
+                    scaling_event.new_model_size
+                )
+                if target_model_key and target_model_key != self.current_model_key:
+                    self.logger.info(
+                        f"Executing proactive upgrade to {target_model_key}"
+                    )
+                    # Schedule upgrade for next response (not immediate)
+                    asyncio.create_task(
+                        self._execute_proactive_upgrade(target_model_key)
+                    )
+
+            elif scaling_event.decision == ScalingDecision.DOWNGRADE:
+                # Immediate degradation to smaller model
+                target_model_key = self._find_model_by_size(
+                    scaling_event.new_model_size
+                )
+                if target_model_key:
+                    self.logger.warning(
+                        f"Executing degradation to {target_model_key}: {scaling_event.reason}"
+                    )
+                    # Switch immediately for degradation
+                    asyncio.create_task(self.switch_model(target_model_key))
+
+        except Exception as e:
+            self.logger.error(f"Error handling scaling decision: {e}")
+
+    def _find_model_by_size(self, target_size: str) -> Optional[str]:
+        """Find model key by size category.
+
+        Args:
+            target_size: Target model size ("small", "medium", "large")
+
+        Returns:
+            Model key or None if not found
+        """
+        try:
+            # First, try to match by category in configurations
+            for model_key, config in self.model_configurations.items():
+                if config.get("category") == target_size:
+                    # Check if model is available
+                    for available_model in self.available_models:
+                        if available_model["key"] == model_key and available_model.get(
+                            "available", False
+                        ):
+                            return model_key
+
+            # If no exact match, use preferred models from tier detector
+            current_tier = self.tier_detector.detect_current_tier()
+            preferred_models = self.tier_detector.get_preferred_models(current_tier)
+
+            # Find model of target size in preferred list
+            for preferred_model in preferred_models:
+                if preferred_model in self.model_configurations:
+                    config = self.model_configurations[preferred_model]
+                    if config.get("category") == target_size:
+                        return preferred_model
+
+            return None
+
+        except Exception as e:
+            self.logger.error(f"Error finding model by size {target_size}: {e}")
+            return None
+
+    async def _execute_proactive_upgrade(self, target_model_key: str) -> None:
+        """Execute proactive model upgrade with proper timing.
+
+        Args:
+            target_model_key: Model to upgrade to
+        """
+        try:
+            # Only upgrade if not currently switching and enough time has passed
+            if hasattr(self, "_upgrade_in_progress") and self._upgrade_in_progress:
+                return
+
+            self._upgrade_in_progress = True
+
+            success = await self.switch_model(target_model_key)
+            if success:
+                self.logger.info(f"Proactive upgrade completed: {target_model_key}")
+            else:
+                self.logger.warning(f"Proactive upgrade failed: {target_model_key}")
+
+        except Exception as e:
+            self.logger.error(f"Error executing proactive upgrade: {e}")
+        finally:
+            self._upgrade_in_progress = False
+
    def shutdown(self) -> None:
        """Clean up resources and unload models."""
        try:
+            # Stop proactive scaling monitoring
+            if hasattr(self, "_proactive_scaler"):
+                self._proactive_scaler.stop_continuous_monitoring()
+
            if self.current_model_instance and self.current_model_key:
                self.lm_adapter.unload_model(self.current_model_key)
                self.current_model_key = None