תכונות מנוע החיפוש Fast

עפר דרורי בתוך: עלון קבוצת עניין אחזור טקסט, כרך ט"ז חוברת 1, ינואר 09.07.2009 10:21
תכונות מנוע החיפוש Fast


(173) המסמך סוקר את תכונותיו של מנוע האחזור Fast בהתבסס על קריטריונים שונים המבוססים על מסמך הקריטריונים להשוואת מנועי אחזור גרסה 5.



תכונות מנוע החיפוש Fast

 

עפר דרורי

 

offerd@gmail.com

 

 

מבוא

מטרת מסמך לזה לסקור את תכונותיו של מנוע האחזור Fast בהתבסס על קריטריונים שונים המבוססים על מסמך הקריטריונים להשוואת מנועי אחזור גרסה 5.

 

המסמך מרכז קריטריונים רבים לצורך בדיקה והשוואה בין מוצרים שונים והוא מהווה כלי עזר לבחירה של מוצר לארגון על פי הצרכים הארגוניים שנקבעו מראש. הטבלה כוללת התייחסות למספר נושאים:

נתוני זיהוי של המוצר,    החברה המפתחת והנציגות בארץ אם קיימת

תכונות המוצר,               בקריטריונים השונים

דרישות פיתוח,                          ההנחה היא שמנוע החיפוש ישתלב במערכת גדולה יותר וחלק מהיכולות שלו יבואו לידי ביטוי במערכת זו באמצעות כלי פיתוח מתאימים

טכנולוגיה של המוצר,     יכולת טכנולוגית, תמיכה וקישוריות למוצרים אחרים

ביצועים של המוצר

מידע על הספק וניסיונו, נושא חשוב לעיתים אף עולה בחשיבותו על תכונות מסוימות במוצר

מחיר המוצר,                 בהתייחס לתצורות השונות

 

 

מידע נוסף על תכונות המנועים, אחזור טקסט ועוד נמצא באתר קבוצת העניין אחזור טקסט – SIGTRS

http://www.sigtrs.org

 

תודה לתמיר קסל שסיפק את המידע לגבי מנוע Fast.

 

 

 


 

 

פרטים מזהים

 

שם המוצר

FAST ESP

שם קודם של המוצר

 

מספר גרסה נוכחית

5.3

שם החברה המפתחת

FAST, a Microsoft subsidiary

כתובת החברה

מיקרוסופט ישראל, הפנינה 2 רעננה

שם הנציגות בארץ

Microsoft Israel

כתובת הנציגות

 

שם איש הקשר בארץ

תמיר קסל

טלפון איש קשר

054 663 2271

פקס איש קשר

 

דואר אלקטרוני

tamirk@microsoft.com

אתר אינטרנט של המוצר

http://www.microsoft.com/enterprisesearch/en/us/fast.aspx

 

 

תכונות

 

המידע המצורף אינו מדריך רשמי של המוצר. המידע המוסמך הבלעדי הוא זה המסופק יחד עם המוצר

 

קריטריון

הסבר

התייחסות הספק

אחזור על מסמכי טקסט

תכונה בסיסית, בהתייחס לטקסט חופשי

נתמך

אחזור על מידע מפורמט

היכולת לבצע אחזור על שדות מידע רגילים מפורמטים

נתמך

אחזור לשדות מפורמטים בתוך מסמך טקסט

כמו תאריך, מחבר וכו'

נתמך

אופרטורים בולאנים

AND, NOT, OR, <, >, <=, >=, שימוש  ב- ( ) לביטויים מורכבים 

נתמך

אופרטורים מטריים (מטריקה)

"מילה" AND "מילה שנייה" במרחק X מילים, באותו משפט, באותה פסקה וכו'

נתמך

אחזור לשפה עברית

הכוונה לטיפול מיוחד בשפה ולא לאחזור על בסיס ייצוג האותיות העבריות במאגר

בדיקת איות, מילים נרדפות, ניסוח, פיסוק ומילון התומך במורפולוגיה

 

אחזור לשפה אנגלית

 

נתמך

אחזור ל- 2 השפות במעורב

באותו מסמך

נתמך

אחזור לשפות נוספות

נא לפרט

תמיכה בלשנית פשוטה עבור למעלה מל-80 שפות ותמיכה בלשנית מתקדמת עבור 20 שפות (כגון: מורפולוגיה, פיסוק, ניסוח) כולל עברית, ערבית, אנגלית, רוסית ואחרות.

 

מילון מורפולוגי כחלק מהמוצר

האם קיים כזה ואם כן מהן תכונותיו

בדיקת איות, בדיקת ניסוח ופיסוק, מילים נרדפות ומילון התומך במורפולוגיה

 

שילוב מילון מורפולוגי חיצוני

האם השילוב אפשרי, אם כן ציין איזה מילון (כמו מורפיקס של מלינגו) ואיזה גרסה

תוסף "מורפיקס" זמין לשימוש והפתרון מוטמע בקרב מספר לקוחות

 

תמיכה בטבלאות תזאורוס במוצר

האם קיימת תשתית לשימוש בטבלאות תזאורוס חיצוניות, האם המוצר כולל תזאורוס משלו, אם כן לאיזה תחום ובאיזה שפה

מסגרת עבודה וכלים עבור תזאורוס זמינים לשימוש (עבור שימוש עסקי ספציפי או בלשני כללי) . תזאורוס זמין עבור אנגלית ועבור מספר שפות גלובאליות נפוצות נוספות

 

 

ניהול תזאורוס במוצר

במידה ואנו רוצים לייצר את המילון לבד, האם יש תמיכה לשימוש בטבלה ריקה שתוזן ע"י המשתמש

ממשק משתמש מתוחכם עבור משתמשים עסקיים שמאפשר להם לנהל את המילונים

ניהול תזאורוס היררכי

האם קיימת תשתית במוצר לתזאורוס היררכי

לא מגיע כתשתית מוכנה מראש אבל ניתן לבצע התאמות לצורך שימוש

 

הצגת תוצאת החיפוש ע"י המוצר

האם המוצר כולל ממשק משתמש להצגת תוצאות החיפוש, אם כן באיזו שיטה: רק כותרות, תחילת מסמך, משפטיים רלוונטיים לחיפוש וכו' – יש לפרט

כן, ממשק משתמש כחלק מהפתרון וניתן להתאמות. בנוסף, ישנם רכיבי רשת , Web parts, הזמינים לצורך הצגת התוצאות במערכת SharePoint ומסגרת עבודה לבניה עצמית של רכיבי רשת.

הצגת שאילתת החיפוש ע"י המוצר

האם המוצר כולל ממשק משתמש לביצוע שאילתת החיפוש

נתמך

הדגשת מילים המקיימים  את תנאי החיפוש

האם המוצר כולל תמיכה בהדגשת מילים המקיימות את תנאי החיפוש במסמכים שאותרו

נתמך

ביצוע שאילתות על שאילתות

יצירת סטים של תשובות וביצוע אחזור נוסף עליהם

נתמך

אחזור על מספר מאגרים במקביל

האם אפשרי ואם כן האם גם בפורמטים שונים של המאגרים

נתמך

אחזור על מסמכים מפוצלים

טיפול במצב מורכב בו כותרות המסמכים נמצאות בבסיס נתונים והמסמכים עצמם במערכת לניהול קבצים

נתמך

אחזור מדויק בלבד

האם קיים בלי הרחבות אוטומטיות

נתמך

אחזור פונטי

האם קיים

נתמך

הרחבות אחזור לחלקי מילים (Wildcard)

ראשיות, סופיות ואמצעיות  אפשרות להחלפת תווים בסימן "*"

נתמך

ניהול אינדקסים במוצר

האם נעשה במוצר עצמו, האם מתבסס על בסיסי נתונים חיצוניים, תיאור שיטת עבודה

FAST לא בנוי על בסיסי נתונים חיצוניים

 

ניהול הרשאות גישה  לקטעים במאגר

האם יש תמיכה להרשאות שונות על קטעים במאגר

הרשאת הגישה לממשק הניהול האדמיניסטרטיבי והעסקי ניתנת להגדרה עבור משתמש. הרשאות אבטחת המידע משפיעות על ההרשאות המקוריות של מקור המידע

 (Security Trimming)

גיבוי ושחזור במוצר

האם כולל מנגנון גיבוי ושחזור עצמי או שמתבסס על גיבוי ושחזור חיצוני של כל סביבת העבודה

נדרש גיבוי חיצוני אבל השיטה לעשות זאת מתועדת היטב

 

תמיכה באחזור מסמכי טקסט ASCII

האם קיים, מגבלות אם יש נא לציין

נתמך

תמיכה במסמכי UNICODE Text

 

נתמך

תמיכה במסמכי XML כולל מסמכי אופיס שנשמרו כ- XML

 

נתמך כמו גם תמיכה בחיפוש בתוך XML מבלי לבצע מיפוי מראש של האינדקס

 

תמיכה באחזור מסמכי טקסט מסוג  WORD

להתייחס לאיזה גרסאות WORD, הכוונה לאחזור ישיר ממסמכי WORD ללא הסבתם

נתמך, כולל הגרסאות האחרונות

 

אחזור מתוך מסמכי RTF

 

נתמך

תמיכה באחזור מסמכי טקסט מסוג  HTML

האם קיים

נתמך

תמיכה באחזור מסמכי טקסט HTML בעברית לוגית וחזותית

האם קיים, ציין מגבלות לגבי לוגית וחזותית

 

אחזור מתוך מסמכי Excel

האם קיים, הכוונה לאחזור ישיר ממסמכי Excel

נתמך

אחזור מתוך מסמכי

Powerpoint

 

נתמך

אחזור מתוך מסמכי PDF 

האם קיים, ישירות מול קבצי אקרובט PDF

נתמך

אחזור מתוך מסמכי PS

האם קיים, ישירות מול מסמכי Post Script

נתמך

תרגום פורמטים

האם המוצר כולל תרגום פורמטים שונים לטקסט נקי, אם כן פרט אילו

כל המסמכים זמינים בפורמט טקסט טהור וב-HTML

 

אחזור לשורשים בשפה העברית והאנגלית

האם קיים

לא. ניתן ליישם מורפיקס של מלינגו

 

אפשרות להוספת מסמכים בצורה מקוונת

מתוך מערכת O.L., הכוונה למנגנון המאפשר הוספה מיידית של מסמך וביצוע אחזור מיידי למסמך במסגרת המוצר ולא להפעלת אצווה כל מספר שניות או דקות

"דחיפה" ו"משיכה" של מסמכים זמינה באמצעות ממשק הפיתוח לתכנים-

Content API

תמיכה בטיפול בטבלאות

אחזור וניהול המידע כאשר הוא בטבלאות

ניתן לחילוץ מתוך טבלאות ב-Data base

 

דרוג (Ranking) תשובות

האם המוצר כולל מנגנון לדירוג רשימת התוצאות, פרט אלו אלגוריתמים קיימים לדירוג

ל-FAST יש גמישות רבה בהשפעה על הדירוג, כולל באמצעות דירוג מקורות המידע, שדות, ערכים בשדות, חוקים לשוניים, לפי רענון הנתונים ויכולות רבות נוספות

 

מנגנונים לסיווג

האם המוצר כולל מנגנוני סיווג כמו קטגוריזציה, אשכולות דינמיים ועוד. נא לפרט גם בהתייחס לשפה

FAST מגיע עם יכולת  חילוץ ישויות Out of the box ובנוסף סביבת עבודה לביצוע התאמות המאפשרת לבנות מחלצי ישויות המבוססים על קטגוריות או בהתאמה אישית

 

 

 

 

אבטחת מידע

 

 

 

יכולת המוצר לתמוך במנגנוני אבטחה (קבצים או בסיסי נתונים) כך שהמשתמש יקבל את רשימת תוצאות החיפוש בהתבסס על ההרשאות שלו

משתמשים יראו רק את התוצאות שיש להם הרשאה עבורן. FAST יכול להתממשק עם כל LDAP התומך במודול אבטחה ועם מנגנונים נוספים שיש להם מתאמים ל-FAST

 

חילוץ ישויות

יכולת המוצר לחלץ מידע על ישויות מתוך טקסט

נתמך

 

 

דרישות פיתוח

 

 

קריטריון

 

הסבר

 

התייחסות הספק

תמיכה בסביבות פיתוח

יכולת המוצר בתמיכה בסביבות פיתוח שונות SDK ל- .Net Java  וכו'

.NET & Java

קיום  SDK

קיום SDK למגוון צרכים כמו: חיפוש, קלסיפיקציה, תחזוקת אינדקסים, תחזוקה כללית של מנהל המערכת, יכולות חיפוש מורחבות וכו'

נתמך

תפיסת פיתוח תהליכי אינדוקס ואחזור

קיום רכיבים לביצוע עיבודים שונים בתהליכי האינדוקס לדוגמא: ניתוח לשוני, קטגוריזציה, קלסיפיקציה, יצירת אשכולות וכו'.

נתמך

 

 

 

 

 

 

 

טכנולוגיה

 

קריטריון

הסבר

התייחסות הספק

תמיכה בשרת/לקוח

האם קיימת

נתמך

תמיכה בלקוח תחת חלונות XP ,2000, 98 וכו' דפדפנים לסוגיהם

התייחס לגרסאות התומכות בסביבות העבודה השונות, לגבי דפדפנים התייחס לגרסאות השונות, אם ידועות בעיות בנושא - נא ציין

תמיכה מובנית של הממשק ב-Explorer

 

תמיכה בשרתי NT, UNIX

האם קיימת

תומך ב- Windows, Linux , Unix

קישור לבסיסי נתונים מסוג SQLServer ,  אורקל

האם קיימת תמיכה למידע המאוחסן בבסיסי הנתונים הנ"ל, אם קיימת תמיכה בבסיסי נתונים מקומיים אחרים נא ציין

תומך בכל בסיסי הנתונים התואמים ל- DBC (Oracle, MSSQL וכד')

 

קישור ל- Exchange

האם קיים בכל הקשור לאחזור מידע המוטמע בשרתי Exchange

נתמך

קישור ל- Notes

האם קיים בכל הקשור לאחזור מידע המוטמע בשרתי Domino

נתמך

ממשקים מסוג RPC, OLE, Java, ACTIVEX

ציין אילו קיימים ואם קיימים נוספים נא ציין

ממשקים זמינים עבור JAVA ו-.net כמו כן תוצאות יכולות להיות מוחזרות כ-XML

 

ממשק API

האם קיים ממשק API המאפשר ביצוע של כל התכונות מתוך תוכנה אחרת חיצונית

נתמך

קישור לשרת אינטרנט IIS

האם קיים

תמיכה ב- Crawlעבור אתרי Internet/Intranet

קישור לשרת אינטרנט של אורקל

האם קיים

תמיכה ב- Crawlעבור אתרי Internet/Intranet

קישור לבסיס נתונים ב-  MF כאשר אינדקסים נמצאים ב- MF או בשרת

הכוונה למצב בו המידע המיועד לאחזור מאוחסן בבסיס נתונים מרכזי ב- M.F. כדוגמת ADABAS והאינדקסים לאחזור נמצאים בשרת או ב-M.F.  (נא ציין במה המוצר תומך)

לא נתמך

תמיכה בריבוי אינדקסים

מה המספר המקסימאלי של אינדקסים שניתן להקים ולנהל?

FAST כולל אינדקס מרכזי מנוהל אחד עם הרבה collections שהם מבוססים על חלוקה לוגית של האינדקס

אינדוקס ישירות מבסיס הנתונים

האם מתבצע אינדוקס אוטומטי עם עדכון בסיס הנתונים?

נתמך- תלוי בטריגר הרלבנטי ב-DB

 

שמירת האינדקס בבסיס הנתונים

האם יש אפשרות לכלול את האינדקסים בבסיס הנתונים עצמו?

לא

תמיכה בבסיס נתונים מעל 10 מיליון מסמכים

האם קיימת

נתמך-ל- FAST יש הטמעות של מאות מיליוני מסמכים/רשומות

 

יכולת Scale Out

האם ניתן לתמוך בנפחי מסמכים / שאילתות גדולים ע"י הפעלת מספר שרתים במקביל

נתמך. Linear Scalability on all aspects of the system including query, indexing and  document processing

ניצול מעבדים מרובי ליבות (core)

האם תהליכי המערכת בנויים לריבוי ליבות עיבוד ולריבוי נימים (Multithreading)

 נתמך  לחלק מה

 sub-processes

 

 

ביצועים

 

קריטריון

הסבר

התייחסות הספק

זמן טעינה של 100,000 מסמכים

אינדוקס של 100,000 רשומות חדשות, נא ציין ביחס לשרת סטנדרטי (ציין חוזק השרת, מספר CPU וכו')

זה תלוי בחומרה, בפונקציונאליות ובנתונים עצמם. ישנן מספר לקוחות FAST שיש להם דרישות indexing latency מאד נמוכות. יש ליצור  קשר עם מיקרוסופט לפרטים ספציפיים  

זמן טעינה של 10,000 מסמכים

כנ"ל לגבי 10,000

זה תלוי בחומרה, בפונקציונאליות ובנתונים עצמם. ישנן מספר לקוחות FAST שיש להם דרישות indexing latency מאד נמוכות. יש ליצור  קשר עם מיקרוסופט לפרטים ספציפיים  

זמן תגובה לחיפוש ביחס לגודל המאגר

עפ"י מבחני ביצועים של המוצר (נא ציין המבחן)

זה תלוי בחומרה, בפונקציונאליות ובנתונים עצמם. ישנן מספר לקוחות FAST שיש להם דרישות indexing latency מאד נמוכות. יש ליצור  קשר עם מיקרוסופט לפרטים ספציפיים  

נפח אינדקס ביחס לגודל המאגר

בזמן נתון ועם גידול המאגר, נא לצרף נתונים

זה תלוי בחומרה, בפונקציונאליות ובנתונים עצמם.

 

 

 

מידע על הספק וניסיונו

 

קריטריון

הסבר

התייחסות הספק

ניסיון בשנים בפיתוח מנוע אחזור טקסט

 

מיקרוסופט מפתחת פתרונות חיפוש מזה מספר עשורים

 

מספר התקנות בארץ

 

4 (כולל התקנות OEM)

מספר התקנות בחו"ל

 

מעל 3000

כמות התקנות למאגרים מעל 10 מיליון מסמכים

 

מספר מאות

כמות התקנות מעל  מיליון מסמכים

 

כמעט כל 3000 הלקוחות

כמות התקנות מעל 100,000 מסמכים

 

NA

כמות התקנות בסביבת אינטרנט/אינטרה-נט

 

מידע חסוי

כמות התקנות המשלבת בסיס נתונים ארגוני על PC

נא לציין את סוג בסיס  הנתונים: אורקל, SQL-Server וכו'

מידע חסוי

כמות התקנות המשלבת בסיס נתונים ארגוני על MF

נא לציין את סוג בסיס  הנתונים: אדבס, DB2 וכו'

מידע חסוי

כמות התקנות עם Exchange

 

מידע חסוי

כמות התקנות עם Notes

 

מידע חסוי

סוגי תמיכה

נא לפרט: תמיכה טלפונית או אחרת

3 רמות תמיכה מטעם צוות התמיכה הגלובאלי, זמינות 24/7 או 9*5 באמצעות אימייל, כרטיס ותמיכה טלפונית

 

פרק זמן בין גרסה לגרסה

 

שנתי

מחויבות החברה למוצר

האם מוגבלת בזמן, האם מרכז עיסוק החברה בתחום, תוכניות לעתיד בהקשר למוצר

מיקרוסופט הכריזה לאחרונה על Roadmap רב-שנתי עבור מוצרי FAST

 

רשימת לקוחות

עפ"י הקריטריונים השונים:

לקוחות עם בסיס נתונים אדבס, DB2 אחר

לקוחות עם בסיס נתונים אורקל , SQL-SERVER וכו'.

מידע חסוי- ראה באתר אינטרנט

מספר שנים שהמוצר הנוכחי מותקן אצל לקוחות

 

עד 8 שנים

 

השתתפות במכרזים או בחירות קודמות

 

אם המוצר השתתף במכרזים או בחירה אחרת ונבחר, נא ציין את הגורם הבוחר, שנת הבחירה ואת המוצרים שמולם עמד לתחרות

מידע חסוי

 

מחיר

 

קריטריון

הסבר

התייחסות הספק

מחיר המוצר

נא להתייחס לגרסאות שונות של המוצר (אם קיימות) בהתייחס למספר שרתים, לאתר, שיטות רישוי שונות

צור קשר עם מיקרוסופט

מחיר אחזקה לשנה לאחר תקופת האחריות

נא לציין את תקופת האחריות

צור קשר עם מיקרוסופט לקבלת הצעת מחיר

אחריות

כולל משך זמן האחריות, ניתן לציין מחיר אפס

צור קשר עם מיקרוסופט

 



הוספת תגובה
  מגיב אנונימי
שם או כינוי:
חסימת סיסמה:
  זכור אותי תמיד במחשב זה

כותרת ראשית:
אבקש לקבל בדואר אלקטרוני כל תגובה לטוקבק שלי
אבקש לקבל בדואר אלקטרוני כל תגובה למאמר הזה