יום שישי, 2 באפריל 2010

מנוע החיפוש שהייתי רוצה לראות

יש לי בעיה עם גוגל. הוא מנוע חיפוש טוב, הכי טוב שאני מכיר, אבל עבורי הוא ממש לא מספק. בסופו של דבר אני מוצא את מה שאני צריך (כמעט תמיד), אבל זה לוקח יותר מדי זמן. צריך להודות שמנועי חיפוש אחרים שניסיתי בעבר אכזבו אותי משום שהם מפספסים אתרים חשובים, וגם הכלים שהם מספקים פחות טובים מאלו של גוגל (למשל האפשרות לחפש בתוך אתר ספציפי). אני רוצה לסייג את עצמי, משום שיש שיפור גם במנועי החיפוש המתחרים לגוגל, כמו למשל Ask.com.

לדעתי, הבעיה העיקרית של גוגל היא זו: יש לו הטייה לטובת אתרים פופולריים, וכך הוא מפספס מאמרים איכותיים שמכילים מידע רב-ערך, אך לרוע מזלם הם נמצאים באתרים פחות פופולריים. זו לא הטייה מכוונת לדעתי, אלא היא נובעת משיטת הדירוג של האתרים על פי גוגל - PageRank. על אף שאני לא מכיר את כל הפרטים של השיטה (וזה כמובן סוד מסחרי שמור), אני רואה שאתרים מסוימים זוכים לעדיפות גם אם המידע שאני מחפש מוזכר שם בצורה לא ידידותית או שגויה. הדוגמה הכי טובה היא ויקיפדיה, שכמעט תמיד תופיע בין הראשונים, גם אם המאמר הספציפי גרוע. הדבר נובע מהפופולריות הרבה שיש לאתר הוויקיפדיה כולו, בלי קשר למאמר הנדון.

אני מתגבר על הבעיה הזו באופן חלקי בשתי שיטות: היכרות טובה עם אתרים רבים וחיפוש בעזרת מספר גדול של מילות חיפוש שיכוונו אותי לאתרים הרצויים לי. כך למשל, אני מכיר את ויקיפדיה היטב כי כתבתי עבורה מאמרים בעבר, וההיכרות הזו נתנה לי כלים להעריך את איכותו של כל מאמר, אבל זה לוקח זמן. בנוסף, אני מכיר את האנציקלופדיות המובילות, את המילונים הטובים ואת הבלוגים המדעיים העיקריים באנגלית ובעברית והרבה פעמים אני מעדיף לחפש בתוך אתר שאני סומך עליו ולא לבצע חיפוש כללי. כשאני מבצע חיפוש כללי אני משקיע קצת מחשבה בבחירת מילות החיפוש ובשימוש בגרשיים שנועדו לחפש צירוף מילים. עדיף להיות כמה שיותר ספציפי, משום שאז יש סיכוי טוב יותר שהמידע הרלוונטי ביותר יופיע בין החיפושים המובילים. שיטה נוספת היא חיפוש של תמונות שלפעמים מכוונות אותי טוב יותר למה שאני רוצה או חיפוש בעזרת Scholar שמוביל בעיקר למאמרים אקדמיים.

איזה מנוע חיפוש הייתי רוצה לראות? קודם כל שיהיו לו את כל הכלים של גוגל וכלים נוספים, כמו חיפוש במילונים בלבד ובאנציקלופדיות בלבד, חיפוש ברשימת אתרים מוגדרים מראש (למשל הסימניות שלי), חיפוש בקורסים של אוניברסיטאות, חיפוש בין תרגילים שניתנו כשיעורי בית, חיפוש באתרים של מדענים מתחום מסוים, חיפוש באתרי ספריות, חיפוש מתכונים, חיפוש מילות שירים, חיפוש ביצועי שירים ועוד. אני מאמין שניתן להשיג את כל זה בעזרת קטלוג מתאים של האתרים. בעצם צריך לעשות קטלוג של כל דף בכל אתר משום שהרבה אתרים מכילים דפים מתחומי עניין שונים. במקביל הייתי רוצה שתוצאות החיפוש ימויינו בין הקטגוריות השונות (אנציקלופדיות, מילונים, אתרים חברתיים וכו) כברירת מחדל, ושלא יופיע לי סלט של סרטונים עם שירים, הגדרות מילוניות, מאמרים מדעיים ומתכונים בכל פעם שאני מבצע חיפוש.

בנוסף, הייתי רוצה שהמנוע יהיה חכם יותר וידע לכוון אותי למאמר טוב באתר זניח, אך ימנע מלכוון אותי למאמר גרוע באתר מוביל. אני מתאר לעצמי שזו משימה קשה יותר, אבל אני לא חושב שהיא בלתי אפשרית. אני מאמין שהדור הבא של מנועי החיפוש יהיה חכם יותר, משום שגוגל הפיקה כמעט את המקסימום מאלגוריתם לא חכם, המבוסס בעיקר על פופולריות ועל קישוריות.

9 תגובות:

אלעד טורצ'ין אמר/ה...

אני מסכים איתך, ואכן רעיון יפה למנוע חיפוש, אבל אני לא בטוח אם צריך להקים מנוע חיפוש חדש או לשפר את הקיים... בכל אופן מעצמה כמו גוגל לא תיתן לעצמה לחלוף מן העולם ולפנות את המקום למתחרה אחר, "ורק בגלל שהחיפוש שלו יותר טוב", כי הרי מזמן זה לא האישו פה, אתרים מתאימים עצמם לגוגל היום ולא להיפך...
כי המעצמה הזו מזמן לא רק מנוע חיפוש אלא, הוציאה דפדפן, מערכת הפעלה, תוכנת תמונות, אתר לשיתוף תמונות, נותנת שירות מייל, ואיך לא GOOGLE EARTH, יוטיוב, שירות התרגום וכמובן הבלוג שאתה כותב הו ממש עכשיו... אם תרצה או לא חברת גוגל היא מעצמה, והאלגוריתם שלה יכול לקבוע אם איזו חנות נעליים תשגשג או תיכשל.

לצד היתרונות ישנם תמיד גם הרבה מאוד חסרונות, אנחנו צורכים שירותים מהחברה כביכול בחינם אבל משלמים במידע שאנו מוסרים לה בלי ידיעתנו...

אבל בכל זאת התוצאה הראשונה לחיפוש בגוגל "מדע פשוט" זה הבלוג שלך...

אריה מלמד-כץ אמר/ה...

אם מותר לי להתנבא - מנועי החיפוש בעוד עשרים שנה יהיו שונים מאוד מאלו של היום. אתה צודק - יש סיכוי טוב שגוגל תילחם להישאר מובילה בתחום הזה ובתחומים הנוספים שבהם היא מציבה את כף רגלה, אבל אין כל ודאות שכך יהיה.

היום גוגל היא אימפריה ואני נהנה להשתמש בשירותים הנהדרים שהיא נותנת. נושא המידע שאנו מוסרים מבלי לדעת פחות מטריד אותי מפני שכל דבר שאני כותב, אפילו במייל - אין לי בעיה לחשוף אותו. את הסודות המקצועיים אני שומר בראש...

Unknown אמר/ה...

אריה,

לגבי מנועי חיפוש כמו שאתה מחפש, אני מניח כי בעתיד הם אכן יופיעו בהתאם לדרישת השוק.

לטעמי השאלה הכללית היא יותר מעניינת ואני חייב להודות שאין לי ידע כלל בנושאים מסוג זה. השאלה הכללית לטעמי מבדילה בין שני סוגים של אחסון או יותר נכון שליפת מידע. אפשרות אחת: הישנה היא קיטלוג כמו סיפריה. קיטלוג מדביק תוויות על הידע וכך מאפשר לבצע חיפושים המונחים על ידי חיתוכים. אפשרות שניה היא חיפוש על ידי קישוריות (אני מניח כי כך פועלת גוגל למרות שכאמור אין לי מושג ירוק) אני חושב שכך המוח שלנו גם שומר מידע על ידי עץ ולא לפי כיתובים כמו בספריה.
איזה אופן הוא טוב יותר לא ברור לי חיתוכים מצריכים הרבה הכנה מראש ואילו קישוריות בונה את העץ כל פעם מחדש או בעצם מתחזקת אותו כמו רשת נוירונים.

שאלה נוספת היא לגבי מערכות מומחה אתה יודע איזה מידע אתה מחפש להבדיל ממחפשי מיע אחרים המעריכים סוגי תשובות אחרות (מחיר זול, שפה פשוטה,...) האם ניתן ללמד מערכת מומחה שתחפש עבורך ידע? כלומר אתה מעריך יותר ידע מבוסס אנציקלופדי האם ניתן ללמד מערכת מומחה שתיתן עבורך את התשובות האופטימליות. בשאלה זו הרגע עלה לי הרעיון שאולי ניתן לבנות קשוריות דמויית רשת ניורונים הלומדת אילו תשובות היו מספקות עבורך כאשר שאלת שאלה מסויימת וכך תדע בעתיד מה לחפש עבורך. מעין קישוריות אישית.

אריה מלמד-כץ אמר/ה...

אהוד, לגבי הרעיון שלך - זה בדיוק שאני רוצה!
הייתי רוצה שמנוע החיפוש (שכמובן בעתיד ידבר איתי בשפה אנושית) יכיר אותי ויבין אותי גם כשאני לא מבין את עצמי (משהו כמו בן הזוג האידאלי :-)).
אגב, אופי החיפושים, שלי לפחות, שונה בהתאם למטרה, והייתי רוצה שהמנוע שלי ידע למשל להבדיל בין חיפוש ביצועים של שיר שמתחשק לי לשמוע אותו, ביצועים שיעזרו לי ללמוד לנגן אותו, חיפוש מידע טריוויה על השיר וחיפוש מידע אנציקלופדי על השיר.

אני חוזר לפסקה הראשונה שלך. לפי הבנתי מה שיש היום זה דירוג אתרים לפי קישוריות וחיפוש לפי מילות מפתח (חיתוכים), אבל בצורה לא מספיק נבונה. למשל הייתי רוצה דרך לומר למנוע לחפש מידע על "רעידת אדמה בצ'ילה" רק באתרים שעוסקים בגאולוגיה, או רק באתרי חדשות או רק באתרים שאוספים נתונים סטטיסטיים, או רק באתרים שמכילים טקסטים ספרותיים (יש ספר בשם זה) וכדומה.
שימוש נבון במילות מפתח יכול לספק במרבית המקרים את מה שאני מחפש, אבל זה לוקח זמן וזה מסובך.

אריה מלמד-כץ אמר/ה...

עוד משפט על דירוג לפי קישוריות: בשלב זה, אחת הבעיות העיקריות לטעמי היא שהדירוג ניתן בעיקר לאתר ולא לדף הספציפי. לכן ויקיפדיה שיש בה בהרבה מקרים מאמרים טובים תהיה מדורגת גבוה גם כשהמאמר גרוע.
זה משהו שניתן לתקן.
מנוע חיפוש חכם כמו זה שמציע אהוד הוא צעד רחוק יותר.

אוננות אינטלקטואלית אמר/ה...

אין מנוע חיפוש מושלם כיוון ששום מנוע לא יכול לדעת למה בדיוק התכוונת כשחיפשת "רעידת אדמה" - האם אתה מחפש חדשות מהעולם, מידע מדעי באתר כלשהו או אולי משהו אחר.

בתור מקדם אתרים אני יכול להגיד שההטיה שעליה אתה מדבר (בדוגמה של ויקיפדיה) היא ידועה ומוכרת. אפשר לפתור חלקית את בעיית המיקוד בכמה צורות:

1. להמשיך לדף התוצאות השני, השלישי וכו'. תמיד אפשר למצוא מידע חשוב ומעניין גם שם.

2. שים לב שיש אופציה שנקראת "הצג אפשרויות", בין שדה החיפוש של גוגל ובין התוצאות עצמן (בסטריפ הכחול שבו מצוין כמה תוצאות התקבלו). לחיצה על "הצג אפשרויות" תיתן לך לבחור סוגים גנריים של אתרים שמהם אתה רוצה את המידע (בלוגים, ספרים, חדשות ועוד).

3. אם אתה מעוניין לקבל מידע רק מאתרים ספציפיים (אקדמיים, למשל), אפשר להפעיל שאילתת חיפוש קצת יותר מורכבת: site:ac.il או site:edu ואז לכתוב את מילות המפתח הרצויות לך. גוגל יחפש רק בתוך אתרים שמסתיימים בכתובות שציינת.

4. גוגל מבצע פרסונליזציה אוטומטית של כ-20% מתוצאות החיפוש. הוא עוקב אחרי החיפושים של כולנו ומתחיל לתת תוצאות רלוונטיות לכל גולש, בהתאם להיסטוריית החיפושים הקודמת שלו.

בינתיים אין הרבה מנועי חיפוש שמצליחים להשתוות לגוגל, למרות שגם הוא חוטא בכמה בעיות פה ושם. ועדיין - זה הרע במיעוטו.

אריה מלמד-כץ אמר/ה...

תודה רבה על ההמלצות. אני באמת בדרך כלל ממשיך לדפים הבאים ולא מסתפק בתוצאות הראשונות.

לנושא של אפשרויות חיפוש וחיפוש במתחמים מסוימים פחות התחברתי. אולי כי המידע האקדמי, למשל, כבר די מפוזר ברשת, ולא מרוכז באתרים של אוניברסיטאות. אבל אני בהחלט מתכוון לנסות את זה עוד.

לגבי הפרסונליזיציה - באמת חשדתי שכך הם עושים, אבל לא הייתי בטוח. זה בהחלט צעד חיובי, אבל לטעמי עדיין לא מספיק טוב.

אגב, מה כוללת העבודה בתחום של קידום אתרים? זה נשמע מעניין...

אוננות אינטלקטואלית אמר/ה...

זה בהחלט מעניין.
מקדם אתרים צריך לגרום לאתר מסוים להגיע כמה שיותר לתוצאות הראשונות במנועי חיפוש (ובעיקר בגוגל, כמובן).

עושים את זה על ידי הוספת תוכן רלוונטי לאתר שאותו מקדמים, בנושאים בהם האתר עוסק. בנוסף - מפרסמים את האתר באתרים אחרים. כל אלו תורמים בסופו של דבר לעלייתו מעלה בתוצאות החיפוש.

אריה מלמד-כץ אמר/ה...

תודה. זו נקודה למחשבה עבורי.
אני מתכוון לפתוח אתר פרסומי בעוד כמה חודשים ואני כבר מתחיל לחשוב איך אוכל לפרסם אותו בצורה יעילה עם האמצעים הדלים שעומדים לרשותי לצורך כך.