[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"skill-13d3d0c7-738a-46c5-a817-5f420ef1fab7":3,"$ffPQy5HdQyV08IFsgDMs6hyE61sp63q4MnbFYKxgqdtU":42},{"id":4,"title":5,"description":6,"categoryId":7,"moduleId":8,"tags":9,"prompt":10,"icon":11,"source":12,"sourceUrl":13,"authorId":14,"authorName":15,"isPublic":16,"stars":17,"runs":18,"createdAt":19,"updatedAt":19,"module":20,"category":27,"packages":33},"13d3d0c7-738a-46c5-a817-5f420ef1fab7","senior-computer-vision","计算机视觉工程技能，涵盖目标检测、图像分割和视觉AI系统。包括CNN和视觉Transformer架构，YOLO\u002FFaster R-CNN\u002FDETR检测，Mask R-CNN\u002FSAM分割，以及使用ONNX\u002FTensorRT的生产部署。包含PyTorch、torchvision、Ultralytics、Detectron2和MMDetection框架。用于构建检测管道、训练自定义模型、优化推理或部署视觉系统时使用。","cat_coding_backend","mod_coding","alirezarezvani,coding","---\nname: \"senior-computer-vision\"\ndescription: Computer vision engineering skill for object detection, image segmentation, and visual AI systems. Covers CNN and Vision Transformer architectures, YOLO\u002FFaster R-CNN\u002FDETR detection, Mask R-CNN\u002FSAM segmentation, and production deployment with ONNX\u002FTensorRT. Includes PyTorch, torchvision, Ultralytics, Detectron2, and MMDetection frameworks. Use when building detection pipelines, training custom models, optimizing inference, or deploying vision systems.\n---\n\n# Senior Computer Vision Engineer\n\nProduction computer vision engineering skill for object detection, image segmentation, and visual AI system deployment.\n\n## Table of Contents\n\n- [Quick Start](#quick-start)\n- [Core Expertise](#core-expertise)\n- [Tech Stack](#tech-stack)\n- [Workflow 1: Object Detection Pipeline](#workflow-1-object-detection-pipeline)\n- [Workflow 2: Model Optimization and Deployment](#workflow-2-model-optimization-and-deployment)\n- [Workflow 3: Custom Dataset Preparation](#workflow-3-custom-dataset-preparation)\n- [Architecture Selection Guide](#architecture-selection-guide)\n- [Reference Documentation](#reference-documentation)\n\n## Quick Start\n\n```bash\n# Generate training configuration for YOLO or Faster R-CNN\npython scripts\u002Fvision_model_trainer.py models\u002F --task detection --arch yolov8\n\n# Analyze model for optimization opportunities (quantization, pruning)\npython scripts\u002Finference_optimizer.py model.pt --target onnx --benchmark\n\n# Build dataset pipeline with augmentations\npython scripts\u002Fdataset_pipeline_builder.py images\u002F --format coco --augment\n```\n\n## Core Expertise\n\nThis skill provides guidance on:\n\n- **Object Detection**: YOLO family (v5-v11), Faster R-CNN, DETR, RT-DETR\n- **Instance Segmentation**: Mask R-CNN, YOLACT, SOLOv2\n- **Semantic Segmentation**: DeepLabV3+, SegFormer, SAM (Segment Anything)\n- **Image Classification**: ResNet, EfficientNet, Vision Transformers (ViT, DeiT)\n- **Video Analysis**: Object tracking (ByteTrack, SORT), action recognition\n- **3D Vision**: Depth estimation, point cloud processing, NeRF\n- **Production Deployment**: ONNX, TensorRT, OpenVINO, CoreML\n\n## Tech Stack\n\n| Category | Technologies |\n|----------|--------------|\n| Frameworks | PyTorch, torchvision, timm |\n| Detection | Ultralytics (YOLO), Detectron2, MMDetection |\n| Segmentation | segment-anything, mmsegmentation |\n| Optimization | ONNX, TensorRT, OpenVINO, torch.compile |\n| Image Processing | OpenCV, Pillow, albumentations |\n| Annotation | CVAT, Label Studio, Roboflow |\n| Experiment Tracking | MLflow, Weights & Biases |\n| Serving | Triton Inference Server, TorchServe |\n\n## Workflow 1: Object Detection Pipeline\n\nUse this workflow when building an object detection system from scratch.\n\n### Step 1: Define Detection Requirements\n\nAnalyze the detection task requirements:\n\n```\nDetection Requirements Analysis:\n- Target objects: [list specific classes to detect]\n- Real-time requirement: [yes\u002Fno, target FPS]\n- Accuracy priority: [speed vs accuracy trade-off]\n- Deployment target: [cloud GPU, edge device, mobile]\n- Dataset size: [number of images, annotations per class]\n```\n\n### Step 2: Select Detection Architecture\n\nChoose architecture based on requirements:\n\n| Requirement | Recommended Architecture | Why |\n|-------------|-------------------------|-----|\n| Real-time (>30 FPS) | YOLOv8\u002Fv11, RT-DETR | Single-stage, optimized for speed |\n| High accuracy | Faster R-CNN, DINO | Two-stage, better localization |\n| Small objects | YOLO + SAHI, Faster R-CNN + FPN | Multi-scale detection |\n| Edge deployment | YOLOv8n, MobileNetV3-SSD | Lightweight architectures |\n| Transformer-based | DETR, DINO, RT-DETR | End-to-end, no NMS required |\n\n### Step 3: Prepare Dataset\n\nConvert annotations to required format:\n\n```bash\n# COCO format (recommended)\npython scripts\u002Fdataset_pipeline_builder.py data\u002Fimages\u002F \\\n    --annotations data\u002Flabels\u002F \\\n    --format coco \\\n    --split 0.8 0.1 0.1 \\\n    --output data\u002Fcoco\u002F\n\n# Verify dataset\npython -c \"from pycocotools.coco import COCO; coco = COCO('data\u002Fcoco\u002Ftrain.json'); print(f'Images: {len(coco.imgs)}, Categories: {len(coco.cats)}')\"\n```\n\n### Step 4: Configure Training\n\nGenerate training configuration:\n\n```bash\n# For Ultralytics YOLO\npython scripts\u002Fvision_model_trainer.py data\u002Fcoco\u002F \\\n    --task detection \\\n    --arch yolov8m \\\n    --epochs 100 \\\n    --batch 16 \\\n    --imgsz 640 \\\n    --output configs\u002F\n\n# For Detectron2\npython scripts\u002Fvision_model_trainer.py data\u002Fcoco\u002F \\\n    --task detection \\\n    --arch faster_rcnn_R_50_FPN \\\n    --framework detectron2 \\\n    --output configs\u002F\n```\n\n### Step 5: Train and Validate\n\n```bash\n# Ultralytics training\nyolo detect train data=data.yaml model=yolov8m.pt epochs=100 imgsz=640\n\n# Detectron2 training\npython train_net.py --config-file configs\u002Ffaster_rcnn.yaml --num-gpus 1\n\n# Validate on test set\nyolo detect val model=runs\u002Fdetect\u002Ftrain\u002Fweights\u002Fbest.pt data=data.yaml\n```\n\n### Step 6: Evaluate Results\n\nKey metrics to analyze:\n\n| Metric | Target | Description |\n|--------|--------|-------------|\n| mAP@50 | >0.7 | Mean Average Precision at IoU 0.5 |\n| mAP@50:95 | >0.5 | COCO primary metric |\n| Precision | >0.8 | Low false positives |\n| Recall | >0.8 | Low missed detections |\n| Inference time | \u003C33ms | For 30 FPS real-time |\n\n## Workflow 2: Model Optimization and Deployment\n\nUse this workflow when preparing a trained model for production deployment.\n\n### Step 1: Benchmark Baseline Performance\n\n```bash\n# Measure current model performance\npython scripts\u002Finference_optimizer.py model.pt \\\n    --benchmark \\\n    --input-size 640 640 \\\n    --batch-sizes 1 4 8 16 \\\n    --warmup 10 \\\n    --iterations 100\n```\n\nExpected output:\n\n```\nBaseline Performance (PyTorch FP32):\n- Batch 1: 45.2ms (22.1 FPS)\n- Batch 4: 89.4ms (44.7 FPS)\n- Batch 8: 165.3ms (48.4 FPS)\n- Memory: 2.1 GB\n- Parameters: 25.9M\n```\n\n### Step 2: Select Optimization Strategy\n\n| Deployment Target | Optimization Path |\n|-------------------|-------------------|\n| NVIDIA GPU (cloud) | PyTorch → ONNX → TensorRT FP16 |\n| NVIDIA GPU (edge) | PyTorch → TensorRT INT8 |\n| Intel CPU | PyTorch → ONNX → OpenVINO |\n| Apple Silicon | PyTorch → CoreML |\n| Generic CPU | PyTorch → ONNX Runtime |\n| Mobile | PyTorch → TFLite or ONNX Mobile |\n\n### Step 3: Export to ONNX\n\n```bash\n# Export with dynamic batch size\npython scripts\u002Finference_optimizer.py model.pt \\\n    --export onnx \\\n    --input-size 640 640 \\\n    --dynamic-batch \\\n    --simplify \\\n    --output model.onnx\n\n# Verify ONNX model\npython -c \"import onnx; model = onnx.load('model.onnx'); onnx.checker.check_model(model); print('ONNX model valid')\"\n```\n\n### Step 4: Apply Quantization (Optional)\n\nFor INT8 quantization with calibration:\n\n```bash\n# Generate calibration dataset\npython scripts\u002Finference_optimizer.py model.onnx \\\n    --quantize int8 \\\n    --calibration-data data\u002Fcalibration\u002F \\\n    --calibration-samples 500 \\\n    --output model_int8.onnx\n```\n\nQuantization impact analysis:\n\n| Precision | Size | Speed | Accuracy Drop |\n|-----------|------|-------|---------------|\n| FP32 | 100% | 1x | 0% |\n| FP16 | 50% | 1.5-2x | \u003C0.5% |\n| INT8 | 25% | 2-4x | 1-3% |\n\n### Step 5: Convert to Target Runtime\n\n```bash\n# TensorRT (NVIDIA GPU)\ntrtexec --onnx=model.onnx --saveEngine=model.engine --fp16\n\n# OpenVINO (Intel)\nmo --input_model model.onnx --output_dir openvino\u002F\n\n# CoreML (Apple)\npython -c \"import coremltools as ct; model = ct.convert('model.onnx'); model.save('model.mlpackage')\"\n```\n\n### Step 6: Benchmark Optimized Model\n\n```bash\npython scripts\u002Finference_optimizer.py model.engine \\\n    --benchmark \\\n    --runtime tensorrt \\\n    --compare model.pt\n```\n\nExpected speedup:\n\n```\nOptimization Results:\n- Original (PyTorch FP32): 45.2ms\n- Optimized (TensorRT FP16): 12.8ms\n- Speedup: 3.5x\n- Accuracy change: -0.3% mAP\n```\n\n## Workflow 3: Custom Dataset Preparation\n\nUse this workflow when preparing a computer vision dataset for training.\n\n### Step 1: Audit Raw Data\n\n```bash\n# Analyze image dataset\npython scripts\u002Fdataset_pipeline_builder.py data\u002Fraw\u002F \\\n    --analyze \\\n    --output analysis\u002F\n```\n\nAnalysis report includes:\n\n```\nDataset Analysis:\n- Total images: 5,234\n- Image sizes: 640x480 to 4096x3072 (variable)\n- Formats: JPEG (4,891), PNG (343)\n- Corrupted: 12 files\n- Duplicates: 45 pairs\n\nAnnotation Analysis:\n- Format detected: Pascal VOC XML\n- Total annotations: 28,456\n- Classes: 5 (car, person, bicycle, dog, cat)\n- Distribution: car (12,340), person (8,234), bicycle (3,456), dog (2,890), cat (1,536)\n- Empty images: 234\n```\n\n### Step 2: Clean and Validate\n\n```bash\n# Remove corrupted and duplicate images\npython scripts\u002Fdataset_pipeline_builder.py data\u002Fraw\u002F \\\n    --clean \\\n    --remove-corrupted \\\n    --remove-duplicates \\\n    --output data\u002Fcleaned\u002F\n```\n\n### Step 3: Convert Annotation Format\n\n```bash\n# Convert VOC to COCO format\npython scripts\u002Fdataset_pipeline_builder.py data\u002Fcleaned\u002F \\\n    --annotations data\u002Fannotations\u002F \\\n    --input-format voc \\\n    --output-format coco \\\n    --output data\u002Fcoco\u002F\n```\n\nSupported format conversions:\n\n| From | To |\n|------|-----|\n| Pascal VOC XML | COCO JSON |\n| YOLO TXT | COCO JSON |\n| COCO JSON | YOLO TXT |\n| LabelMe JSON | COCO JSON |\n| CVAT XML | COCO JSON |\n\n### Step 4: Apply Augmentations\n\n```bash\n# Generate augmentation config\npython scripts\u002Fdataset_pipeline_builder.py data\u002Fcoco\u002F \\\n    --augment \\\n    --aug-config configs\u002Faugmentation.yaml \\\n    --output data\u002Faugmented\u002F\n```\n\nRecommended augmentations for detection:\n\n```yaml\n# configs\u002Faugmentation.yaml\naugmentations:\n  geometric:\n    - horizontal_flip: { p: 0.5 }\n    - vertical_flip: { p: 0.1 }  # Only if orientation invariant\n    - rotate: { limit: 15, p: 0.3 }\n    - scale: { scale_limit: 0.2, p: 0.5 }\n\n  color:\n    - brightness_contrast: { brightness_limit: 0.2, contrast_limit: 0.2, p: 0.5 }\n    - hue_saturation: { hue_shift_limit: 20, sat_shift_limit: 30, p: 0.3 }\n    - blur: { blur_limit: 3, p: 0.1 }\n\n  advanced:\n    - mosaic: { p: 0.5 }  # YOLO-style mosaic\n    - mixup: { p: 0.1 }   # Image mixing\n    - cutout: { num_holes: 8, max_h_size: 32, max_w_size: 32, p: 0.3 }\n```\n\n### Step 5: Create Train\u002FVal\u002FTest Splits\n\n```bash\npython scripts\u002Fdataset_pipeline_builder.py data\u002Faugmented\u002F \\\n    --split 0.8 0.1 0.1 \\\n    --stratify \\\n    --seed 42 \\\n    --output data\u002Ffinal\u002F\n```\n\nSplit strategy guidelines:\n\n| Dataset Size | Train | Val | Test |\n|--------------|-------|-----|------|\n| \u003C1,000 images | 70% | 15% | 15% |\n| 1,000-10,000 | 80% | 10% | 10% |\n| >10,000 | 90% | 5% | 5% |\n\n### Step 6: Generate Dataset Configuration\n\n```bash\n# For Ultralytics YOLO\npython scripts\u002Fdataset_pipeline_builder.py data\u002Ffinal\u002F \\\n    --generate-config yolo \\\n    --output data.yaml\n\n# For Detectron2\npython scripts\u002Fdataset_pipeline_builder.py data\u002Ffinal\u002F \\\n    --generate-config detectron2 \\\n    --output detectron2_config.py\n```\n\n## Architecture Selection Guide\n\n### Object Detection Architectures\n\n| Architecture | Speed | Accuracy | Best For |\n|--------------|-------|----------|----------|\n| YOLOv8n | 1.2ms | 37.3 mAP | Edge, mobile, real-time |\n| YOLOv8s | 2.1ms | 44.9 mAP | Balanced speed\u002Faccuracy |\n| YOLOv8m | 4.2ms | 50.2 mAP | General purpose |\n| YOLOv8l | 6.8ms | 52.9 mAP | High accuracy |\n| YOLOv8x | 10.1ms | 53.9 mAP | Maximum accuracy |\n| RT-DETR-L | 5.3ms | 53.0 mAP | Transformer, no NMS |\n| Faster R-CNN R50 | 46ms | 40.2 mAP | Two-stage, high quality |\n| DINO-4scale | 85ms | 49.0 mAP | SOTA transformer |\n\n### Segmentation Architectures\n\n| Architecture | Type | Speed | Best For |\n|--------------|------|-------|----------|\n| YOLOv8-seg | Instance | 4.5ms | Real-time instance seg |\n| Mask R-CNN | Instance | 67ms | High-quality masks |\n| SAM | Promptable | 50ms | Zero-shot segmentation |\n| DeepLabV3+ | Semantic | 25ms | Scene parsing |\n| SegFormer | Semantic | 15ms | Efficient semantic seg |\n\n### CNN vs Vision Transformer Trade-offs\n\n| Aspect | CNN (YOLO, R-CNN) | ViT (DETR, DINO) |\n|--------|-------------------|------------------|\n| Training data needed | 1K-10K images | 10K-100K+ images |\n| Training time | Fast | Slow (needs more epochs) |\n| Inference speed | Faster | Slower |\n| Small objects | Good with FPN | Needs multi-scale |\n| Global context | Limited | Excellent |\n| Positional encoding | Implicit | Explicit |\n\n## Reference Documentation\n→ See references\u002Freference-docs-and-commands.md for details\n\n## Performance Targets\n\n| Metric | Real-time | High Accuracy | Edge |\n|--------|-----------|---------------|------|\n| FPS | >30 | >10 | >15 |\n| mAP@50 | >0.6 | >0.8 | >0.5 |\n| Latency P99 | \u003C50ms | \u003C150ms | \u003C100ms |\n| GPU Memory | \u003C4GB | \u003C8GB | \u003C2GB |\n| Model Size | \u003C50MB | \u003C200MB | \u003C20MB |\n\n## Resources\n\n- **Architecture Guide**: `references\u002Fcomputer_vision_architectures.md`\n- **Optimization Guide**: `references\u002Fobject_detection_optimization.md`\n- **Deployment Guide**: `references\u002Fproduction_vision_systems.md`\n- **Scripts**: `scripts\u002F` directory for automation tools\n","","imported","https:\u002F\u002Fgithub.com\u002Falirezarezvani\u002Fclaude-skills","user_system_seed","SkillOPIC",true,127,1832,"2026-05-16 13:57:08",{"id":8,"name":21,"slug":22,"icon":23,"description":24,"sort":25,"createdAt":26},"编程开发","coding","mdi-code-braces","代码生成、调试、审查，提升开发效率",2,"2026-05-16 12:53:40",{"id":7,"name":28,"slug":29,"icon":30,"description":31,"moduleId":8,"sort":25,"skillCount":32,"createdAt":26},"后端开发","backend","mdi-server","API、数据库、服务端架构",296,[34],{"id":35,"skillId":4,"version":36,"fileName":37,"fileSize":38,"filePath":39,"fileHash":40,"manifest":41,"createdAt":19},"468b05cb-b7aa-46e4-8448-41ccf29074e3","1.0.0","senior-computer-vision.zip",54693,"uploads\u002Fskills\u002F13d3d0c7-738a-46c5-a817-5f420ef1fab7\u002Fsenior-computer-vision.zip","031f9394563115d5bba6866b62a64d63710d1a355608173451423d9bb6604e8a","[{\"path\":\"SKILL.md\",\"isDirectory\":false,\"size\":12906},{\"path\":\"references\u002Fcomputer_vision_architectures.md\",\"isDirectory\":false,\"size\":16433},{\"path\":\"references\u002Fobject_detection_optimization.md\",\"isDirectory\":false,\"size\":22641},{\"path\":\"references\u002Fproduction_vision_systems.md\",\"isDirectory\":false,\"size\":34179},{\"path\":\"references\u002Freference-docs-and-commands.md\",\"isDirectory\":false,\"size\":2602},{\"path\":\"scripts\u002Fdataset_pipeline_builder.py\",\"isDirectory\":false,\"size\":65583},{\"path\":\"scripts\u002Finference_optimizer.py\",\"isDirectory\":false,\"size\":21386},{\"path\":\"scripts\u002Fvision_model_trainer.py\",\"isDirectory\":false,\"size\":21280}]",{"code":43,"message":44,"data":45},200,"success",{"items":46,"stats":47,"page":50},[],{"averageRating":48,"totalRatings":48,"ratingCounts":49},0,[48,48,48,48,48],{"limit":51,"offset":48,"hasMore":52,"nextOffset":51,"ratedOnly":16},15,false]