ΠΠΎΡΠ°Π±ΠΎΡΠΊΠ° ΡΡΡΠ΅ΡΡΠ²ΡΡΡΠ΅Π³ΠΎ ΠΏΡΠΎΠ΄ΡΠΊΡΠ°. Feature Engineering (ΠΊΠ»ΡΡΠ΅Π²Π°Ρ ΠΎΠ±Π»Π°ΡΡΡ) ΠΡΠΎΠ΅ΠΊΡΠΈΡΠΎΠ²Π°Π½ΠΈΠ΅, ΡΠ°Π·ΡΠ°Π±ΠΎΡΠΊΠ° ΠΈ Π²Π°Π»ΠΈΠ΄Π°ΡΠΈΡ ΠΏΡΠΈΠ·Π½Π°ΠΊΠΎΠ² Π΄Π»Ρ ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ. Π Π°Π±ΠΎΡΠ° Ρ ΡΠ°Π·Π»ΠΈΡΠ½ΡΠΌΠΈ ΡΠΈΠΏΠ°ΠΌΠΈ Π΄Π°Π½Π½ΡΡ
: Π‘ΡΡΡΠΊΡΡΡΠΈΡΠΎΠ²Π°Π½Π½ΡΠ΅ Π΄Π°Π½Π½ΡΠ΅ (ΠΎΠ±ΡΡΠ²Π»Π΅Π½ΠΈΡ) Π½ΠΎΡΠΌΠ°Π»ΠΈΠ·Π°ΡΠΈΡ ΠΏΠ°ΡΠ°ΠΌΠ΅ΡΡΠΎΠ²: ΠΏΠ»ΠΎΡΠ°Π΄Ρ, ΡΠ΅Π½Π°, ΡΡΠ°Π²ΠΊΠ° Π°ΡΠ΅Π½Π΄Ρ ΠΏΡΠΎΠΈΠ·Π²ΠΎΠ΄Π½ΡΠ΅ ΠΏΡΠΈΠ·Π½Π°ΠΊΠΈ: ΡΠ΅Π½Π° Π·Π° ΠΌ? ΠΎΡΠΊΠ»ΠΎΠ½Π΅Π½ΠΈΠ΅ ΠΎΡ ΠΌΠ΅Π΄ΠΈΠ°Π½Ρ ΠΏΠΎ ΡΡΠ½ΠΊΡ ΠΎΠ±ΡΠ°Π±ΠΎΡΠΊΠ° ΠΏΡΠΎΠΏΡΡΠΊΠΎΠ² ΠΈ ΡΡΠΌΠ° Π’Π΅ΠΊΡΡΠΎΠ²ΡΠ΅ Π΄Π°Π½Π½ΡΠ΅ (NLP) ΠΈΠ·Π²Π»Π΅ΡΠ΅Π½ΠΈΠ΅ ΡΠΈΠ³Π½Π°Π»ΠΎΠ² ΠΈΠ·: ΠΎΠΏΠΈΡΠ°Π½ΠΈΠΉ Π·Π°Π³ΠΎΠ»ΠΎΠ²ΠΊΠΎΠ² ΠΏΡΠΈΠ·Π½Π°ΠΊΠΈ: Π½Π°Π»ΠΈΡΠΈΠ΅ βΡΡΠΈΠ³Π³Π΅ΡΠΎΠ²β (ΡΡΠΎΡΠ½Π°Ρ ΠΏΡΠΎΠ΄Π°ΠΆΠ°, ΡΠΎΡΠ³ ΠΈ Ρ.Π΄.) embeddings ΡΠ΅ΠΊΡΡΠΎΠ² ΠΎΡΠΈΡΡΠΊΠ° ΠΈ Π½ΠΎΡΠΌΠ°Π»ΠΈΠ·Π°ΡΠΈΡ ΡΠ΅ΠΊΡΡΠΎΠ² ΠΠ΅ΠΎΠΏΡΠΈΠ·Π½Π°ΠΊΠΈ Π³Π΅Π½Π΅ΡΠ°ΡΠΈΡ spatial features: ΠΏΠ»ΠΎΡΠ½ΠΎΡΡΡ POI ΡΡΠ°Π½ΡΠΏΠΎΡΡΠ½Π°Ρ Π΄ΠΎΡΡΡΠΏΠ½ΠΎΡΡΡ ΠΏΠ΅ΡΠ΅Ρ
ΠΎΠ΄Π½ΡΠΉ/Π°Π²ΡΠΎΠΌΠΎΠ±ΠΈΠ»ΡΠ½ΡΠΉ ΡΡΠ°ΡΠΈΠΊ Π°Π³ΡΠ΅Π³Π°ΡΠΈΠΈ ΠΏΠΎ Π·ΠΎΠ½Π°ΠΌ (H3/ΡΠ°ΠΉΠΎΠ½Ρ) distance-based ΠΏΡΠΈΠ·Π½Π°ΠΊΠΈ ΠΡΠ΅ΠΌΠ΅Π½Π½ΡΠ΅ ΠΏΡΠΈΠ·Π½Π°ΠΊΠΈ Π΄ΠΈΠ½Π°ΠΌΠΈΠΊΠ°: ΡΠ΅Π½Ρ ΡΠΊΡΠΏΠΎΠ½ΠΈΡΠΎΠ²Π°Π½ΠΈΠ΅ ΠΎΠ±ΡΡΠ²Π»Π΅Π½ΠΈΡ ΡΠ΅Π·ΠΎΠ½Π½ΠΎΡΡΡ time-to-sell ΠΠΎΠ²Π΅Π΄Π΅Π½ΡΠ΅ΡΠΊΠΈΠ΅ ΠΈ ΡΡΠ½ΠΎΡΠ½ΡΠ΅ ΠΏΡΠΈΠ·Π½Π°ΠΊΠΈ ΡΠ°ΡΡΠΎΡΠ° ΠΏΠΎΡΠ²Π»Π΅Π½ΠΈΡ ΠΎΠ±ΡΠ΅ΠΊΡΠΎΠ² ΠΏΠΎΠ²ΡΠΎΡΠ½ΡΠ΅ ΠΏΡΠ±Π»ΠΈΠΊΠ°ΡΠΈΠΈ Π°ΠΊΡΠΈΠ²Π½ΠΎΡΡΡ ΠΏΡΠΎΠ΄Π°Π²ΡΠ° ΠΠ°ΠΆΠ½ΡΠ΅ Π°ΡΠΏΠ΅ΠΊΡΡ: Π±ΠΎΡΡΠ±Π° Ρ data leakage ΡΡΡΠΎΠΉΡΠΈΠ²ΠΎΡΡΡ ΠΏΡΠΈΠ·Π½Π°ΠΊΠΎΠ² Π²ΠΎ Π²ΡΠ΅ΠΌΠ΅Π½ΠΈ ΠΈΠ½ΡΠ΅ΡΠΏΡΠ΅ΡΠΈΡΡΠ΅ΠΌΠΎΡΡΡ Π²Π»ΠΈΡΠ½ΠΈΠ΅ Π½Π° Π±ΠΈΠ·Π½Π΅Ρ-ΠΌΠ΅ΡΡΠΈΠΊΠΈ 2. ΠΠΎΡΡΡΠΎΠ΅Π½ΠΈΠ΅ ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ ΡΠΊΠΎΡΠΈΠ½Π³Π° ΡΠ°Π·ΡΠ°Π±ΠΎΡΠΊΠ° ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ: ΠΈΠ½Π²Π΅ΡΡΠΈΡΠΈΠΎΠ½Π½ΠΎΠ³ΠΎ ΡΠ΅ΠΉΡΠΈΠ½Π³Π° ΠΏΡΠΎΠ³Π½ΠΎΠ·ΠΈΡΠΎΠ²Π°Π½ΠΈΡ Π΄ΠΎΡ
ΠΎΠ΄Π½ΠΎΡΡΠΈ ΠΎΡΠ΅Π½ΠΊΠΈ ΡΠΏΡΠ°Π²Π΅Π΄Π»ΠΈΠ²ΠΎΠΉ ΡΠ΅Π½Ρ ΠΏΠΎΡΡΡΠΎΠ΅Π½ΠΈΠ΅ Π°Π½ΡΠ°ΠΌΠ±Π»Π΅ΠΉ ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ 3. ΠΠ½ΡΠΈΡΡΠΉΠΊ ΠΈ ΠΊΠ°ΡΠ΅ΡΡΠ²ΠΎ Π΄Π°Π½Π½ΡΡ
Π΄Π΅ΡΠ΅ΠΊΡΠΈΡ: ΡΠ΅ΠΉΠΊΠΎΠ²ΡΡ
ΠΎΠ±ΡΡΠ²Π»Π΅Π½ΠΈΠΉ Π²ΡΠ±ΡΠΎΡΠΎΠ² (Π°Π½ΠΎΠΌΠ°Π»ΡΠ½ΠΎ Π΄Π΅ΡΠ΅Π²ΡΠ΅/Π΄ΠΎΡΠΎΠ³ΠΈΠ΅ ΠΎΠ±ΡΠ΅ΠΊΡΡ) ΡΠ°Π·ΡΠ°Π±ΠΎΡΠΊΠ° ΠΌΠ΅Ρ
Π°Π½ΠΈΠ·ΠΌΠΎΠ² trust score ΠΎΠ±ΡΡΠ²Π»Π΅Π½ΠΈΠΉ 4. Π Π°Π±ΠΎΡΠ° Ρ Π΄ΡΠ±Π»ΠΈΠΊΠ°ΡΠ°ΠΌΠΈ ΠΏΠΎΡΡΡΠΎΠ΅Π½ΠΈΠ΅ similarity ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ: embeddings (text + structured) clustering ΠΎΠ±ΡΡΠ²Π»Π΅Π½ΠΈΠΉ 5. ΠΠ΅ΠΎΠ°Π½Π°Π»ΠΈΡΠΈΠΊΠ° ΠΏΠΎΡΡΡΠΎΠ΅Π½ΠΈΠ΅ ΠΏΡΠΈΠ·Π½Π°ΠΊΠΎΠ²: ΠΏΠ»ΠΎΡΠ½ΠΎΡΡΡ POI ΡΡΠ°Π½ΡΠΏΠΎΡΡΠ½Π°Ρ Π΄ΠΎΡΡΡΠΏΠ½ΠΎΡΡΡ ΡΡΠ°ΡΠΈΠΊ spatial clustering ΡΠ°ΠΉΠΎΠ½ΠΎΠ² Π²Π»ΠΈΡΠ½ΠΈΠ΅ ΠΎΠΊΡΡΠΆΠ΅Π½ΠΈΡ Π½Π° ΡΠ΅Π½Ρ/Π»ΠΈΠΊΠ²ΠΈΠ΄Π½ΠΎΡΡΡ 6. NLP Π·Π°Π΄Π°ΡΠΈ ΠΈΠ·Π²Π»Π΅ΡΠ΅Π½ΠΈΠ΅ ΠΏΡΠΈΠ·Π½Π°ΠΊΠΎΠ² ΠΈΠ·: ΠΎΠΏΠΈΡΠ°Π½ΠΈΠΉ Π·Π°Π³ΠΎΠ»ΠΎΠ²ΠΊΠΎΠ² ΠΊΠ»Π°ΡΡΠΈΡΠΈΠΊΠ°ΡΠΈΡ ΠΈ Π½ΠΎΡΠΌΠ°Π»ΠΈΠ·Π°ΡΠΈΡ ΡΠ΅ΠΊΡΡΠΎΠ² 7. ΠΡΡΠ»Π΅Π΄ΠΎΠ²Π°Π½ΠΈΠ΅ Π΄Π°Π½Π½ΡΡ
(EDA) ΠΏΠΎΠΈΡΠΊ Π·Π°ΠΊΠΎΠ½ΠΎΠΌΠ΅ΡΠ½ΠΎΡΡΠ΅ΠΉ ΡΠΎΡΠΌΠΈΡΠΎΠ²Π°Π½ΠΈΠ΅ Π³ΠΈΠΏΠΎΡΠ΅Π· Π²Π»ΠΈΡΠ½ΠΈΠ΅ ΡΠ°ΠΊΡΠΎΡΠΎΠ² Π½Π° ΠΈΠ½Π²Π΅ΡΡΠΈΡΠΈΠΎΠ½Π½ΡΡ ΠΏΡΠΈΠ²Π»Π΅ΠΊΠ°ΡΠ΅Π»ΡΠ½ΠΎΡΡΡ 8. ΠΠ°Π»ΠΈΠ΄Π°ΡΠΈΡ ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ offline ΠΌΠ΅ΡΡΠΈΠΊΠΈ Π΄ΠΈΠ·Π°ΠΉΠ½ A/B ΡΠ΅ΡΡΠΎΠ² ΠΈΠ½ΡΠ΅ΡΠΏΡΠ΅ΡΠ°ΡΠΈΡ ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ (feature importance) 9. Π Π°Π±ΠΎΡΠ° Ρ ΠΏΡΠΎΠ΄ΠΎΠΌ (Π² ΡΠ²ΡΠ·ΠΊΠ΅ Ρ Python Dev) ΠΏΠΎΡΡΠ°Π½ΠΎΠ²ΠΊΠ° ΡΡΠ΅Π±ΠΎΠ²Π°Π½ΠΈΠΉ ΠΊ ML pipeline ΡΡΠ°ΡΡΠΈΠ΅ Π² Π²Π½Π΅Π΄ΡΠ΅Π½ΠΈΠΈ ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ ΠΊΠΎΠ½ΡΡΠΎΠ»Ρ ΠΊΠ°ΡΠ΅ΡΡΠ²Π° ΠΏΠΎΡΠ»Π΅ Π΄Π΅ΠΏΠ»ΠΎΡ, ΠΏΡΠΎΠ΅ΠΊΡΠΈΡΠΎΠ²Π°Π½ΠΈΠ΅ ΠΈΠ½ΡΡΡΡΠΌΠ΅Π½ΡΠΎΠ² ΠΊΠΎΠ½ΡΡΠΎΠ»Ρ ΠΊΠ°ΡΠ΅ΡΡΠ²Π° (drift, Π΄Π΅Π³ΡΠ°Π΄Π°ΡΠΈΡ) Π’ΡΠ΅Π±ΠΎΠ²Π°Π½ΠΈΡ ΠΊ Π·Π½Π°Π½ΠΈΡΠΌ ΠΈ Π½Π°Π²ΡΠΊΠ°ΠΌ ΠΠ±ΡΠ·Π°ΡΠ΅Π»ΡΠ½ΡΠ΅ ML / Data Science ΡΠ²Π΅ΡΠ΅Π½Π½ΡΠ΅ Π·Π½Π°Π½ΠΈΡ: ΠΊΠ»Π°ΡΡΠΈΡΠΈΠΊΠ°ΡΠΈΡ ΡΠ΅Π³ΡΠ΅ΡΡΠΈΡ Π°Π½ΡΠ°ΠΌΠ±Π»ΠΈ (GBM, XGBoost, LightGBM, CatBoost) ΠΎΠΏΡΡ feature engineering (ΠΊΠ»ΡΡΠ΅Π²ΠΎΠΉ Π½Π°Π²ΡΠΊ) ΡΠ°Π±ΠΎΡΠ° Ρ Π½Π΅ΡΠ±Π°Π»Π°Π½ΡΠΈΡΠΎΠ²Π°Π½Π½ΡΠΌΠΈ Π΄Π°Π½Π½ΡΠΌΠΈ anomaly detection Python stack pandas, numpy scikit-learn ΠΎΠΏΡΡ ΡΠ°Π±ΠΎΡΡ Ρ ΠΏΠ°ΠΉΠΏΠ»Π°ΠΉΠ½Π°ΠΌΠΈ Π Π°Π±ΠΎΡΠ° Ρ Π΄Π°Π½Π½ΡΠΌΠΈ SQL (ΠΎΠ±ΡΠ·Π°ΡΠ΅Π»ΡΠ½ΠΎ) ΠΎΠΏΡΡ ΡΠ°Π±ΠΎΡΡ Ρ βΠ³ΡΡΠ·Π½ΡΠΌΠΈβ Π΄Π°Π½Π½ΡΠΌΠΈ ΠΏΠΎΠ½ΠΈΠΌΠ°Π½ΠΈΠ΅ data leakage Π‘ΡΠ°ΡΠΈΡΡΠΈΠΊΠ° ΠΏΡΠΎΠ²Π΅ΡΠΊΠ° Π³ΠΈΠΏΠΎΡΠ΅Π· Π΄ΠΎΠ²Π΅ΡΠΈΡΠ΅Π»ΡΠ½ΡΠ΅ ΠΈΠ½ΡΠ΅ΡΠ²Π°Π»Ρ A/B ΡΠ΅ΡΡΡ ΠΠ΅ΠΎΠ°Π½Π°Π»ΠΈΡΠΈΠΊΠ° H3 / GeoPandas / PostGIS spatial features NLP embeddings (BERT, sentence-transformers) opensource / frontier LLM ΡΠ°Π±ΠΎΡΠ° Ρ ΡΠ΅ΠΊΡΡΠ°ΠΌΠΈ ΠΎΠ±ΡΡΠ²Π»Π΅Π½ΠΈΠΉ Similarity / Matching cosine similarity ANN (FAISS ΠΈ Π°Π½Π°Π»ΠΎΠ³ΠΈ) Time-series / forecasting ΠΏΡΠΎΠ³Π½ΠΎΠ· Π»ΠΈΠΊΠ²ΠΈΠ΄Π½ΠΎΡΡΠΈ Π΄ΠΈΠ½Π°ΠΌΠΈΠΊΠ° ΡΠ΅Π½ ΠΠ½ΡΠ΅ΡΠΏΡΠ΅ΡΠΈΡΡΠ΅ΠΌΠΎΡΡΡ SHAP / feature importance ΠΎΠ±ΡΡΡΠ½ΠΈΠΌΡΠΉ ML Π’ΡΠ΅Π±ΠΎΠ²Π°Π½ΠΈΡ ΠΊ ΠΎΠΏΡΡΡ ΠΠΈΠ½ΠΈΠΌΡΠΌ: 5+ Π»Π΅Ρ Π² Data Science ΠΠ±ΡΠ·Π°ΡΠ΅Π»ΡΠ½ΠΎ: ΠΎΠΏΡΡ production ML ΠΎΠΏΡΡ ΡΠ°Π±ΠΎΡΡ Ρ: marketplace / classifieds / real estate / fintech ΠΈΠ»ΠΈ Π»ΡΠ±ΡΠΌΠΈ messy Π΄Π°Π½Π½ΡΠΌΠΈ Ρ Π±ΠΎΠ»ΡΡΠΈΠΌ ΡΡΠΌΠΎΠΌ ΠΡΠ΅Π½Ρ ΠΆΠ΅Π»Π°ΡΠ΅Π»ΡΠ½ΠΎ: ΠΎΠΏΡΡ Π°Π½ΡΠΈΡΡΠΉΠΊ / Π°Π½ΡΠΈΡΡΠΎΠ΄ ΠΎΠΏΡΡ ΡΠΊΠΎΡΠΈΠ½Π³ΠΎΠ²ΡΡ
ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ ΠΎΠΏΡΡ ΡΠ°Π±ΠΎΡΡ Ρ ΠΏΠΎΠ»ΡΠ·ΠΎΠ²Π°ΡΠ΅Π»ΡΡΠΊΠΎΠΉ ΡΠ΅Π½Π½ΠΎΡΡΡΡ (Π° Π½Π΅ ΡΠΎΠ»ΡΠΊΠΎ accuracy).