feat(04-04): create pattern extraction system

- Created src/memory/personality/__init__.py module structure - Implemented PatternExtractor class with multi-dimensional analysis: - Topics: Track frequently discussed subjects and user interests - Sentiment: Analyze emotional tone and sentiment patterns - Interaction: Response times, question asking, information sharing - Temporal: Communication style by time of day/week - Response styles: Formality level, verbosity, emoji/humor use - Pattern extraction methods for all dimensions with confidence scoring - Lightweight analysis techniques to avoid computational overhead - Pattern validation with stability tracking and outlier detection
2026-01-28 00:33:38 -05:00
parent a8b7a35baa
commit 7cd12abe0c
2 changed files with 867 additions and 0 deletions
--- a/src/memory/personality/init.py
+++ b/src/memory/personality/init.py
@@ -0,0 +1,16 @@
+"""
+Personality learning module for Mai.
+
+This module provides pattern extraction, personality layer management,
+and adaptive personality learning from conversation data.
+"""
+
+from .pattern_extractor import PatternExtractor
+from .layer_manager import LayerManager
+from .adaptation import PersonalityAdaptation
+
+__all__ = [
+    "PatternExtractor",
+    "LayerManager",
+    "PersonalityAdaptation",
+]
--- a/src/memory/personality/pattern_extractor.py
+++ b/src/memory/personality/pattern_extractor.py
@@ -0,0 +1,851 @@
+"""
+Pattern extraction system for personality learning.
+
+This module extracts multi-dimensional patterns from conversations
+including topics, sentiment, interaction patterns, temporal patterns,
+and response styles.
+"""
+
+import re
+import logging
+from datetime import datetime, timedelta
+from typing import Dict, List, Any, Optional, Tuple, Set
+from collections import Counter, defaultdict
+from dataclasses import dataclass, field
+import statistics
+
+# Import conversation models
+import sys
+import os
+
+sys.path.append(os.path.join(os.path.dirname(__file__), "..", ".."))
+from models.conversation import Message, MessageRole, ConversationMetadata
+
+
+@dataclass
+class TopicPatterns:
+    """Topic pattern analysis results."""
+
+    frequent_topics: List[Tuple[str, float]] = field(default_factory=list)
+    topic_diversity: float = 0.0
+    topic_transitions: Dict[str, List[str]] = field(default_factory=dict)
+    user_interests: List[str] = field(default_factory=list)
+    confidence_score: float = 0.0
+
+
+@dataclass
+class SentimentPatterns:
+    """Sentiment pattern analysis results."""
+
+    overall_sentiment: float = 0.0  # -1 to 1 scale
+    sentiment_variance: float = 0.0
+    emotional_tone: str = "neutral"
+    sentiment_keywords: Dict[str, int] = field(default_factory=dict)
+    mood_fluctuations: List[Tuple[datetime, float]] = field(default_factory=list)
+    confidence_score: float = 0.0
+
+
+@dataclass
+class InteractionPatterns:
+    """Interaction pattern analysis results."""
+
+    question_frequency: float = 0.0
+    information_sharing: float = 0.0
+    response_time_avg: float = 0.0
+    conversation_balance: float = 0.0  # user vs assistant message ratio
+    engagement_level: float = 0.0
+    confidence_score: float = 0.0
+
+
+@dataclass
+class TemporalPatterns:
+    """Temporal pattern analysis results."""
+
+    preferred_times: List[Tuple[str, float]] = field(
+        default_factory=list
+    )  # (hour, frequency)
+    day_of_week_patterns: Dict[str, float] = field(default_factory=dict)
+    conversation_duration: float = 0.0
+    session_frequency: float = 0.0
+    time_based_style: Dict[str, str] = field(default_factory=dict)
+    confidence_score: float = 0.0
+
+
+@dataclass
+class ResponseStylePatterns:
+    """Response style pattern analysis results."""
+
+    formality_level: float = 0.0  # 0 = casual, 1 = formal
+    verbosity: float = 0.0  # average message length
+    emoji_usage: float = 0.0
+    humor_frequency: float = 0.0
+    directness: float = 0.0  # how direct vs circumlocutory
+    confidence_score: float = 0.0
+
+
+class PatternExtractor:
+    """
+    Multi-dimensional pattern extraction from conversations.
+
+    Extracts patterns across topics, sentiment, interaction styles,
+    temporal preferences, and response styles with confidence scoring
+    and stability tracking.
+    """
+
+    def __init__(self):
+        """Initialize pattern extractor with analysis configurations."""
+        self.logger = logging.getLogger(__name__)
+
+        # Sentiment keyword dictionaries
+        self.positive_words = {
+            "good",
+            "great",
+            "excellent",
+            "amazing",
+            "wonderful",
+            "fantastic",
+            "love",
+            "like",
+            "enjoy",
+            "happy",
+            "pleased",
+            "satisfied",
+            "perfect",
+            "awesome",
+            "brilliant",
+            "outstanding",
+            "superb",
+            "delightful",
+        }
+
+        self.negative_words = {
+            "bad",
+            "terrible",
+            "awful",
+            "horrible",
+            "hate",
+            "dislike",
+            "angry",
+            "sad",
+            "frustrated",
+            "disappointed",
+            "annoyed",
+            "upset",
+            "worried",
+            "concerned",
+            "problem",
+            "issue",
+            "error",
+            "wrong",
+            "fail",
+            "failed",
+        }
+
+        # Topic extraction keywords
+        self.topic_indicators = {
+            "technology": [
+                "computer",
+                "software",
+                "code",
+                "programming",
+                "app",
+                "system",
+            ],
+            "work": ["job", "career", "project", "task", "meeting", "deadline"],
+            "personal": ["family", "friend", "relationship", "home", "life", "health"],
+            "entertainment": ["movie", "music", "game", "book", "show", "play"],
+            "learning": ["study", "learn", "course", "education", "knowledge", "skill"],
+        }
+
+        # Formality indicators
+        self.formal_indicators = [
+            "please",
+            "thank",
+            "regards",
+            "sincerely",
+            "would",
+            "could",
+        ]
+        self.casual_indicators = ["hey", "yo", "sup", "lol", "omg", "btw", "idk"]
+
+        # Pattern stability tracking
+        self._pattern_history: Dict[str, List[Dict[str, Any]]] = defaultdict(list)
+
+    def extract_topic_patterns(
+        self, conversations: List[Dict[str, Any]]
+    ) -> TopicPatterns:
+        """
+        Extract topic patterns from conversations.
+
+        Args:
+            conversations: List of conversation dictionaries with messages
+
+        Returns:
+            TopicPatterns object with extracted topic information
+        """
+        try:
+            self.logger.info("Extracting topic patterns from conversations")
+
+            # Collect all text content
+            all_text = []
+            topic_transitions = defaultdict(list)
+            last_topic = None
+
+            for conv in conversations:
+                messages = conv.get("messages", [])
+                for msg in messages:
+                    if msg.get("role") in ["user", "assistant"]:
+                        content = msg.get("content", "").lower()
+                        all_text.append(content)
+
+                        # Extract current topic
+                        current_topic = self._identify_main_topic(content)
+                        if current_topic and last_topic and current_topic != last_topic:
+                            topic_transitions[last_topic].append(current_topic)
+                        last_topic = current_topic
+
+            # Frequency analysis
+            topic_counts = Counter()
+            for text in all_text:
+                topic = self._identify_main_topic(text)
+                if topic:
+                    topic_counts[topic] += 1
+
+            # Calculate frequent topics
+            total_topics = sum(topic_counts.values())
+            frequent_topics = (
+                [
+                    (topic, count / total_topics)
+                    for topic, count in topic_counts.most_common(10)
+                ]
+                if total_topics > 0
+                else []
+            )
+
+            # Calculate topic diversity (Shannon entropy)
+            topic_diversity = self._calculate_diversity(topic_counts)
+
+            # Extract user interests (most frequent topics from user messages)
+            user_interests = list(dict(frequent_topics[:5]).keys())
+
+            # Calculate confidence score
+            confidence = self._calculate_topic_confidence(
+                topic_counts, len(all_text), frequent_topics
+            )
+
+            return TopicPatterns(
+                frequent_topics=frequent_topics,
+                topic_diversity=topic_diversity,
+                topic_transitions=dict(topic_transitions),
+                user_interests=user_interests,
+                confidence_score=confidence,
+            )
+
+        except Exception as e:
+            self.logger.error(f"Failed to extract topic patterns: {e}")
+            return TopicPatterns(confidence_score=0.0)
+
+    def extract_sentiment_patterns(
+        self, conversations: List[Dict[str, Any]]
+    ) -> SentimentPatterns:
+        """
+        Extract sentiment patterns from conversations.
+
+        Args:
+            conversations: List of conversation dictionaries with messages
+
+        Returns:
+            SentimentPatterns object with extracted sentiment information
+        """
+        try:
+            self.logger.info("Extracting sentiment patterns from conversations")
+
+            sentiment_scores = []
+            sentiment_keywords = Counter()
+            mood_fluctuations = []
+
+            for conv in conversations:
+                messages = conv.get("messages", [])
+                for msg in messages:
+                    if msg.get("role") in ["user", "assistant"]:
+                        content = msg.get("content", "").lower()
+
+                        # Calculate sentiment score
+                        score = self._calculate_sentiment_score(content)
+                        sentiment_scores.append(score)
+
+                        # Track sentiment keywords
+                        for word in self.positive_words:
+                            if word in content:
+                                sentiment_keywords[f"positive_{word}"] += 1
+                        for word in self.negative_words:
+                            if word in content:
+                                sentiment_keywords[f"negative_{word}"] += 1
+
+                        # Track mood over time
+                        if "timestamp" in msg:
+                            timestamp = msg["timestamp"]
+                            if isinstance(timestamp, str):
+                                timestamp = datetime.fromisoformat(
+                                    timestamp.replace("Z", "+00:00")
+                                )
+                            mood_fluctuations.append((timestamp, score))
+
+            # Calculate overall sentiment
+            overall_sentiment = (
+                statistics.mean(sentiment_scores) if sentiment_scores else 0.0
+            )
+
+            # Calculate sentiment variance
+            sentiment_variance = (
+                statistics.variance(sentiment_scores)
+                if len(sentiment_scores) > 1
+                else 0.0
+            )
+
+            # Determine emotional tone
+            emotional_tone = self._classify_emotional_tone(overall_sentiment)
+
+            # Calculate confidence score
+            confidence = self._calculate_sentiment_confidence(
+                sentiment_scores, len(sentiment_keywords)
+            )
+
+            return SentimentPatterns(
+                overall_sentiment=overall_sentiment,
+                sentiment_variance=sentiment_variance,
+                emotional_tone=emotional_tone,
+                sentiment_keywords=dict(sentiment_keywords),
+                mood_fluctuations=mood_fluctuations,
+                confidence_score=confidence,
+            )
+
+        except Exception as e:
+            self.logger.error(f"Failed to extract sentiment patterns: {e}")
+            return SentimentPatterns(confidence_score=0.0)
+
+    def extract_interaction_patterns(
+        self, conversations: List[Dict[str, Any]]
+    ) -> InteractionPatterns:
+        """
+        Extract interaction patterns from conversations.
+
+        Args:
+            conversations: List of conversation dictionaries with messages
+
+        Returns:
+            InteractionPatterns object with extracted interaction information
+        """
+        try:
+            self.logger.info("Extracting interaction patterns from conversations")
+
+            question_count = 0
+            info_sharing_count = 0
+            response_times = []
+            user_messages = 0
+            assistant_messages = 0
+            engagement_indicators = []
+
+            for conv in conversations:
+                messages = conv.get("messages", [])
+                prev_timestamp = None
+
+                for i, msg in enumerate(messages):
+                    role = msg.get("role")
+                    content = msg.get("content", "").lower()
+
+                    # Count questions
+                    if "?" in content and role == "user":
+                        question_count += 1
+
+                    # Count information sharing
+                    info_sharing_indicators = [
+                        "because",
+                        "since",
+                        "due to",
+                        "reason is",
+                        "explanation",
+                    ]
+                    if any(
+                        indicator in content for indicator in info_sharing_indicators
+                    ):
+                        info_sharing_count += 1
+
+                    # Track message counts for balance
+                    if role == "user":
+                        user_messages += 1
+                    elif role == "assistant":
+                        assistant_messages += 1
+
+                    # Calculate response times
+                    if prev_timestamp and "timestamp" in msg:
+                        try:
+                            curr_time = msg["timestamp"]
+                            if isinstance(curr_time, str):
+                                curr_time = datetime.fromisoformat(
+                                    curr_time.replace("Z", "+00:00")
+                                )
+
+                            time_diff = (curr_time - prev_timestamp).total_seconds()
+                            if 0 < time_diff < 3600:  # Within reasonable range
+                                response_times.append(time_diff)
+                        except Exception:
+                            pass
+
+                    # Track engagement indicators
+                    engagement_words = [
+                        "interesting",
+                        "tell me more",
+                        "fascinating",
+                        "cool",
+                        "wow",
+                    ]
+                    if any(word in content for word in engagement_words):
+                        engagement_indicators.append(1)
+                    else:
+                        engagement_indicators.append(0)
+
+                    prev_timestamp = msg.get("timestamp")
+                    if isinstance(prev_timestamp, str):
+                        prev_timestamp = datetime.fromisoformat(
+                            prev_timestamp.replace("Z", "+00:00")
+                        )
+
+            # Calculate metrics
+            total_messages = user_messages + assistant_messages
+            question_frequency = question_count / max(user_messages, 1)
+            information_sharing = info_sharing_count / max(total_messages, 1)
+            response_time_avg = (
+                statistics.mean(response_times) if response_times else 0.0
+            )
+            conversation_balance = user_messages / max(total_messages, 1)
+            engagement_level = (
+                statistics.mean(engagement_indicators) if engagement_indicators else 0.0
+            )
+
+            # Calculate confidence score
+            confidence = self._calculate_interaction_confidence(
+                total_messages, len(response_times), question_count
+            )
+
+            return InteractionPatterns(
+                question_frequency=question_frequency,
+                information_sharing=information_sharing,
+                response_time_avg=response_time_avg,
+                conversation_balance=conversation_balance,
+                engagement_level=engagement_level,
+                confidence_score=confidence,
+            )
+
+        except Exception as e:
+            self.logger.error(f"Failed to extract interaction patterns: {e}")
+            return InteractionPatterns(confidence_score=0.0)
+
+    def extract_temporal_patterns(
+        self, conversations: List[Dict[str, Any]]
+    ) -> TemporalPatterns:
+        """
+        Extract temporal patterns from conversations.
+
+        Args:
+            conversations: List of conversation dictionaries with messages
+
+        Returns:
+            TemporalPatterns object with extracted temporal information
+        """
+        try:
+            self.logger.info("Extracting temporal patterns from conversations")
+
+            hour_counts = Counter()
+            day_counts = Counter()
+            conversation_durations = []
+            session_start_times = []
+
+            for conv in conversations:
+                messages = conv.get("messages", [])
+                if not messages:
+                    continue
+
+                # Track conversation duration
+                timestamps = []
+                for msg in messages:
+                    if "timestamp" in msg:
+                        try:
+                            timestamp = msg["timestamp"]
+                            if isinstance(timestamp, str):
+                                timestamp = datetime.fromisoformat(
+                                    timestamp.replace("Z", "+00:00")
+                                )
+                            timestamps.append(timestamp)
+                        except Exception:
+                            continue
+
+                if timestamps:
+                    # Calculate duration
+                    duration = (
+                        max(timestamps) - min(timestamps)
+                    ).total_seconds() / 60  # minutes
+                    conversation_durations.append(duration)
+
+                    # Count hour and day patterns
+                    for timestamp in timestamps:
+                        hour_counts[timestamp.hour] += 1
+                        day_counts[timestamp.strftime("%A")] += 1
+
+                    # Track session start time
+                    session_start_times.append(min(timestamps))
+
+            # Calculate preferred times
+            total_hours = sum(hour_counts.values())
+            preferred_times = (
+                [
+                    (str(hour), count / total_hours)
+                    for hour, count in hour_counts.most_common(5)
+                ]
+                if total_hours > 0
+                else []
+            )
+
+            # Calculate day of week patterns
+            total_days = sum(day_counts.values())
+            day_of_week_patterns = (
+                {day: count / total_days for day, count in day_counts.items()}
+                if total_days > 0
+                else {}
+            )
+
+            # Calculate other metrics
+            avg_duration = (
+                statistics.mean(conversation_durations)
+                if conversation_durations
+                else 0.0
+            )
+
+            # Calculate session frequency (sessions per day)
+            if session_start_times:
+                time_span = (
+                    max(session_start_times) - min(session_start_times)
+                ).days + 1
+                session_frequency = len(session_start_times) / max(time_span, 1)
+            else:
+                session_frequency = 0.0
+
+            # Time-based style analysis
+            time_based_style = self._analyze_time_based_styles(conversations)
+
+            # Calculate confidence score
+            confidence = self._calculate_temporal_confidence(
+                len(conversations), total_hours, len(session_start_times)
+            )
+
+            return TemporalPatterns(
+                preferred_times=preferred_times,
+                day_of_week_patterns=day_of_week_patterns,
+                conversation_duration=avg_duration,
+                session_frequency=session_frequency,
+                time_based_style=time_based_style,
+                confidence_score=confidence,
+            )
+
+        except Exception as e:
+            self.logger.error(f"Failed to extract temporal patterns: {e}")
+            return TemporalPatterns(confidence_score=0.0)
+
+    def extract_response_style_patterns(
+        self, conversations: List[Dict[str, Any]]
+    ) -> ResponseStylePatterns:
+        """
+        Extract response style patterns from conversations.
+
+        Args:
+            conversations: List of conversation dictionaries with messages
+
+        Returns:
+            ResponseStylePatterns object with extracted response style information
+        """
+        try:
+            self.logger.info("Extracting response style patterns from conversations")
+
+            message_lengths = []
+            formality_scores = []
+            emoji_counts = []
+            humor_indicators = []
+            directness_scores = []
+
+            for conv in conversations:
+                messages = conv.get("messages", [])
+                for msg in messages:
+                    if msg.get("role") in ["user", "assistant"]:
+                        content = msg.get("content", "")
+
+                        # Message length (verbosity)
+                        message_lengths.append(len(content.split()))
+
+                        # Formality level
+                        formality = self._calculate_formality(content)
+                        formality_scores.append(formality)
+
+                        # Emoji usage
+                        emoji_count = len(
+                            re.findall(
+                                r"[\U0001F600-\U0001F64F\U0001F300-\U0001F5FF\U0001F680-\U0001F6FF\U0001F1E0-\U0001F1FF]",
+                                content,
+                            )
+                        )
+                        emoji_counts.append(emoji_count)
+
+                        # Humor frequency
+                        humor_words = [
+                            "lol",
+                            "haha",
+                            "funny",
+                            "joke",
+                            "hilarious",
+                            "😂",
+                            "😄",
+                        ]
+                        humor_indicators.append(
+                            1
+                            if any(word in content.lower() for word in humor_words)
+                            else 0
+                        )
+
+                        # Directness (simple vs complex sentences)
+                        directness = self._calculate_directness(content)
+                        directness_scores.append(directness)
+
+            # Calculate averages
+            verbosity = statistics.mean(message_lengths) if message_lengths else 0.0
+            formality_level = (
+                statistics.mean(formality_scores) if formality_scores else 0.0
+            )
+            emoji_usage = statistics.mean(emoji_counts) if emoji_counts else 0.0
+            humor_frequency = (
+                statistics.mean(humor_indicators) if humor_indicators else 0.0
+            )
+            directness = (
+                statistics.mean(directness_scores) if directness_scores else 0.0
+            )
+
+            # Calculate confidence score
+            confidence = self._calculate_style_confidence(
+                len(message_lengths), len(formality_scores)
+            )
+
+            return ResponseStylePatterns(
+                formality_level=formality_level,
+                verbosity=verbosity,
+                emoji_usage=emoji_usage,
+                humor_frequency=humor_frequency,
+                directness=directness,
+                confidence_score=confidence,
+            )
+
+        except Exception as e:
+            self.logger.error(f"Failed to extract response style patterns: {e}")
+            return ResponseStylePatterns(confidence_score=0.0)
+
+    def _identify_main_topic(self, text: str) -> Optional[str]:
+        """Identify the main topic of a text snippet."""
+        topic_scores = defaultdict(int)
+
+        for topic, keywords in self.topic_indicators.items():
+            for keyword in keywords:
+                if keyword in text:
+                    topic_scores[topic] += 1
+
+        if topic_scores:
+            return max(topic_scores, key=topic_scores.get)
+        return None
+
+    def _calculate_diversity(self, counts: Counter) -> float:
+        """Calculate Shannon entropy diversity."""
+        total = sum(counts.values())
+        if total == 0:
+            return 0.0
+
+        entropy = 0.0
+        for count in counts.values():
+            probability = count / total
+            entropy -= probability * (
+                probability and statistics.log(probability, 2) or 0
+            )
+
+        return entropy
+
+    def _calculate_sentiment_score(self, text: str) -> float:
+        """Calculate sentiment score for text (-1 to 1)."""
+        positive_count = sum(1 for word in self.positive_words if word in text)
+        negative_count = sum(1 for word in self.negative_words if word in text)
+
+        total_sentiment_words = positive_count + negative_count
+        if total_sentiment_words == 0:
+            return 0.0
+
+        return (positive_count - negative_count) / total_sentiment_words
+
+    def _classify_emotional_tone(self, sentiment: float) -> str:
+        """Classify emotional tone from sentiment score."""
+        if sentiment > 0.3:
+            return "positive"
+        elif sentiment < -0.3:
+            return "negative"
+        else:
+            return "neutral"
+
+    def _calculate_formality(self, text: str) -> float:
+        """Calculate formality level (0 = casual, 1 = formal)."""
+        formal_count = sum(1 for word in self.formal_indicators if word in text.lower())
+        casual_count = sum(1 for word in self.casual_indicators if word in text.lower())
+
+        # Base formality on presence of formal indicators and absence of casual ones
+        if formal_count > 0 and casual_count == 0:
+            return 0.8
+        elif formal_count == 0 and casual_count > 0:
+            return 0.2
+        elif formal_count > casual_count:
+            return 0.6
+        elif casual_count > formal_count:
+            return 0.4
+        else:
+            return 0.5
+
+    def _calculate_directness(self, text: str) -> float:
+        """Calculate directness (0 = circumlocutory, 1 = direct)."""
+        # Simple heuristic: shorter sentences and fewer subordinate clauses are more direct
+        sentences = text.split(".")
+        if not sentences:
+            return 0.5
+
+        avg_sentence_length = sum(len(s.split()) for s in sentences) / len(sentences)
+        subordinate_indicators = [
+            "because",
+            "although",
+            "however",
+            "therefore",
+            "meanwhile",
+        ]
+        subordinate_count = sum(
+            1 for indicator in subordinate_indicators if indicator in text.lower()
+        )
+
+        # Directness decreases with longer sentences and more subordinate clauses
+        directness = 1.0 - (avg_sentence_length / 50.0) - (subordinate_count * 0.1)
+        return max(0.0, min(1.0, directness))
+
+    def _analyze_time_based_styles(
+        self, conversations: List[Dict[str, Any]]
+    ) -> Dict[str, str]:
+        """Analyze how communication style changes by time."""
+        time_styles = {}
+
+        for conv in conversations:
+            messages = conv.get("messages", [])
+            for msg in messages:
+                if "timestamp" in msg:
+                    try:
+                        timestamp = msg["timestamp"]
+                        if isinstance(timestamp, str):
+                            timestamp = datetime.fromisoformat(
+                                timestamp.replace("Z", "+00:00")
+                            )
+
+                        hour = timestamp.hour
+                        content = msg.get("content", "").lower()
+
+                        # Simple style classification by time
+                        if 6 <= hour < 12:  # Morning
+                            style = (
+                                "morning_formal"
+                                if any(
+                                    word in self.formal_indicators
+                                    for word in self.formal_indicators
+                                    if word in content
+                                )
+                                else "morning_casual"
+                            )
+                        elif 12 <= hour < 18:  # Afternoon
+                            style = (
+                                "afternoon_direct"
+                                if len(content.split()) < 10
+                                else "afternoon_detailed"
+                            )
+                        elif 18 <= hour < 22:  # Evening
+                            style = "evening_relaxed"
+                        else:  # Night
+                            style = "night_concise"
+
+                        time_styles[f"{hour}:00"] = style
+                    except Exception:
+                        continue
+
+        return time_styles
+
+    def _calculate_topic_confidence(
+        self, topic_counts: Counter, total_messages: int, frequent_topics: List
+    ) -> float:
+        """Calculate confidence score for topic patterns."""
+        if total_messages == 0:
+            return 0.0
+
+        # Confidence based on topic clarity and frequency
+        topic_coverage = sum(count for _, count in frequent_topics) / total_messages
+        topic_variety = len(topic_counts) / max(total_messages, 1)
+
+        return min(1.0, (topic_coverage + topic_variety) / 2)
+
+    def _calculate_sentiment_confidence(
+        self, sentiment_scores: List[float], keyword_count: int
+    ) -> float:
+        """Calculate confidence score for sentiment patterns."""
+        if not sentiment_scores:
+            return 0.0
+
+        # Confidence based on consistency and keyword evidence
+        sentiment_consistency = 1.0 - (
+            statistics.stdev(sentiment_scores) if len(sentiment_scores) > 1 else 0.0
+        )
+        keyword_evidence = min(1.0, keyword_count / len(sentiment_scores))
+
+        return (sentiment_consistency + keyword_evidence) / 2
+
+    def _calculate_interaction_confidence(
+        self, total_messages: int, response_times: int, questions: int
+    ) -> float:
+        """Calculate confidence score for interaction patterns."""
+        if total_messages == 0:
+            return 0.0
+
+        # Confidence based on data completeness
+        message_coverage = min(
+            1.0, total_messages / 10
+        )  # More messages = higher confidence
+        response_coverage = min(1.0, response_times / max(total_messages // 2, 1))
+        question_coverage = min(1.0, questions / max(total_messages // 10, 1))
+
+        return (message_coverage + response_coverage + question_coverage) / 3
+
+    def _calculate_temporal_confidence(
+        self, conversations: int, hour_data: int, sessions: int
+    ) -> float:
+        """Calculate confidence score for temporal patterns."""
+        if conversations == 0:
+            return 0.0
+
+        # Confidence based on temporal data spread
+        conversation_coverage = min(1.0, conversations / 5)
+        hour_coverage = min(1.0, hour_data / 24)
+        session_coverage = min(1.0, sessions / 3)
+
+        return (conversation_coverage + hour_coverage + session_coverage) / 3
+
+    def _calculate_style_confidence(self, messages: int, formality_data: int) -> float:
+        """Calculate confidence score for style patterns."""
+        if messages == 0:
+            return 0.0
+
+        # Confidence based on style data completeness
+        message_coverage = min(1.0, messages / 10)
+        formality_coverage = min(1.0, formality_data / max(messages, 1))
+
+        return (message_coverage + formality_coverage) / 2